13.3 Skill 级评估:判断一个封装后的工作流稳不稳定
面向经管学生、研究者与从业者的 AI 智能体设计教材

任务级评估关注单次执行。但在实际工作中,很多任务会被封装成 Skill 反复使用。同一个 Skill 执行同类任务时,有时输出质量高,有时质量明显下降,这种不稳定性正是 Skill 级评估要处理的问题。
Skill 级评估关注的重点,不是这次做得好不好,而是这套封装是否值得复用。
Skill 级评估关注什么
和任务级评估相比,Skill 级评估的关注点已经发生转移:
| 维度 | 任务级 | Skill 级 |
|---|---|---|
| 评估对象 | 单次输入-输出 | 同一 Skill 的多次执行 |
| 核心指标 | 输出质量 | 触发准确率、输出稳定性 |
| 失败含义 | 这次没做好 | 这套封装不可靠 |
| 优先修改 | 任务描述、示例 | description、工具权限、参考文件 |
触发评估
Skill 能否被正确触发,是评估的第一步。触发问题分为两类:
误触发(False Positive):用户的请求本不该触发这个 Skill,但 Skill 被错误激活了。比如用户问”怎么写一个数据分析报告”,结果触发了”数据分析执行 Skill”而不是”写作指导 Skill”。
欠触发(False Negative):用户的请求应该触发某个 Skill,但 Skill 没有被激活。比如用户说”帮我分析一下这份数据”,Skill 的 description 只写了”生成数据分析报告”,导致匹配失败。
检查触发问题的方法很直接:准备 20-30 个测试请求,其中一半应该触发,一半不应该触发,再逐一测试匹配结果。
请用以下 15 个测试请求,逐一检验"数据分析报告生成"Skill 的触发情况。
记录每个请求是否触发了该 Skill,以及触发结果是否符合预期。
预期触发(应该匹配):
1. 帮我分析这份销售数据
2. 生成一份 Q3 数据报告
3. 对比这两个季度的营收变化
...
预期不触发(不应该匹配):
8. 怎么安装 Python
9. 帮我写一封邮件
10. 这段代码有什么 bug
...
如果误触发率或欠触发率超过 20%,优先修改 Skill 的 description,不要先动其他部分。
输出骨架稳定性
一个稳定的 Skill,应该在相似输入下产出结构一致的输出。检查方法是用 5-10 个同类输入连续运行同一个 Skill,对比输出结构是否一致。
需要检查的项目包括:
| 检查项 | 稳定 | 不稳定 |
|---|---|---|
| 输出章节 | 每次都包含相同的必需章节 | 有时缺少某些章节 |
| 格式规范 | 标题层级、列表格式一致 | 有时用 markdown,有时用纯文本 |
| 长度范围 | 波动在 ±20% 以内 | 有时 500 字,有时 3000 字 |
| 工具调用 | 调用相同的工具集合 | 有时调用工具,有时跳过 |
如果输出骨架不稳定,通常需要检查 Skill 的 YAML frontmatter 和执行步骤:
allowed-tools是否明确列出了必需工具- 执行步骤是否有明确的输出格式要求
- 参考文件(supporting files)是否提供了输出模板
参考文件和工具权限
Skill 的执行依赖两类外部资源:参考文件和工具。两者是否完备,直接影响 Skill 的稳定性。
参考文件检查:
- Skill 声明的参考文件是否都存在
- 参考文件的内容是否与 Skill 的任务匹配
- 参考文件是否提供了足够的约束(输出模板、格式要求、边界条件)
工具权限检查:
allowed-tools是否包含 Skill 执行所需的全部工具- 是否有多余的工具权限(增加误用风险)
- 工具调用顺序是否合理(先读取再写入,先搜索再分析)
一个常见的 Skill 级问题是参考文件过于笼统。比如参考文件只写生成一份专业分析报告,却没有指定必需章节、各章节长度范围和数据引用格式。结果就是同一个 Skill 每次执行时,输出结构都可能不同。
Skill 级失败的归因
当 Skill 级评估发现问题时,按以下优先级排查:
| 优先级 | 检查项 | 典型症状 | 修改动作 |
|---|---|---|---|
| 1 | description 与触发短语 | 误触发或欠触发 | 改写 description,增加/排除关键词 |
| 2 | YAML frontmatter | 工具调用缺失或多余 | 调整 allowed-tools 列表 |
| 3 | 参考文件内容 | 输出结构不稳定 | 在参考文件中明确输出模板 |
| 4 | 执行步骤 | 中间步骤被跳过 | 增加检查点或强制步骤 |
Skill 级评估比任务级更关注复现性。一次成功不代表 Skill 可靠,必须用多次执行和多种输入验证稳定性。
本节一句话总结: Skill 级评估关注触发、封装、依赖和复现性;它解决的是”这套封装值不值得复用”。