13.3 Skill 级评估:判断一个封装后的工作流稳不稳定

面向经管学生、研究者与从业者的 AI 智能体设计教材

作者

李学恒、林建浩、严翊歆

发布于

2026-05-11

13.3 配图

任务级评估关注单次执行。但在实际工作中,很多任务会被封装成 Skill 反复使用。同一个 Skill 执行同类任务时,有时输出质量高,有时质量明显下降,这种不稳定性正是 Skill 级评估要处理的问题。

Skill 级评估关注的重点,不是这次做得好不好,而是这套封装是否值得复用。

Skill 级评估关注什么

和任务级评估相比,Skill 级评估的关注点已经发生转移:

维度 任务级 Skill 级
评估对象 单次输入-输出 同一 Skill 的多次执行
核心指标 输出质量 触发准确率、输出稳定性
失败含义 这次没做好 这套封装不可靠
优先修改 任务描述、示例 description、工具权限、参考文件

触发评估

Skill 能否被正确触发,是评估的第一步。触发问题分为两类:

误触发(False Positive):用户的请求本不该触发这个 Skill,但 Skill 被错误激活了。比如用户问”怎么写一个数据分析报告”,结果触发了”数据分析执行 Skill”而不是”写作指导 Skill”。

欠触发(False Negative):用户的请求应该触发某个 Skill,但 Skill 没有被激活。比如用户说”帮我分析一下这份数据”,Skill 的 description 只写了”生成数据分析报告”,导致匹配失败。

检查触发问题的方法很直接:准备 20-30 个测试请求,其中一半应该触发,一半不应该触发,再逐一测试匹配结果。

▶ Claude Code
请用以下 15 个测试请求,逐一检验"数据分析报告生成"Skill 的触发情况。
记录每个请求是否触发了该 Skill,以及触发结果是否符合预期。

预期触发(应该匹配):
1. 帮我分析这份销售数据
2. 生成一份 Q3 数据报告
3. 对比这两个季度的营收变化
...

预期不触发(不应该匹配):
8. 怎么安装 Python
9. 帮我写一封邮件
10. 这段代码有什么 bug
...

如果误触发率或欠触发率超过 20%,优先修改 Skill 的 description,不要先动其他部分。

输出骨架稳定性

一个稳定的 Skill,应该在相似输入下产出结构一致的输出。检查方法是用 5-10 个同类输入连续运行同一个 Skill,对比输出结构是否一致。

需要检查的项目包括:

检查项 稳定 不稳定
输出章节 每次都包含相同的必需章节 有时缺少某些章节
格式规范 标题层级、列表格式一致 有时用 markdown,有时用纯文本
长度范围 波动在 ±20% 以内 有时 500 字,有时 3000 字
工具调用 调用相同的工具集合 有时调用工具,有时跳过

如果输出骨架不稳定,通常需要检查 Skill 的 YAML frontmatter 和执行步骤:

  • allowed-tools 是否明确列出了必需工具
  • 执行步骤是否有明确的输出格式要求
  • 参考文件(supporting files)是否提供了输出模板

参考文件和工具权限

Skill 的执行依赖两类外部资源:参考文件和工具。两者是否完备,直接影响 Skill 的稳定性。

参考文件检查

  • Skill 声明的参考文件是否都存在
  • 参考文件的内容是否与 Skill 的任务匹配
  • 参考文件是否提供了足够的约束(输出模板、格式要求、边界条件)

工具权限检查

  • allowed-tools 是否包含 Skill 执行所需的全部工具
  • 是否有多余的工具权限(增加误用风险)
  • 工具调用顺序是否合理(先读取再写入,先搜索再分析)
注意

一个常见的 Skill 级问题是参考文件过于笼统。比如参考文件只写生成一份专业分析报告,却没有指定必需章节、各章节长度范围和数据引用格式。结果就是同一个 Skill 每次执行时,输出结构都可能不同。

Skill 级失败的归因

当 Skill 级评估发现问题时,按以下优先级排查:

优先级 检查项 典型症状 修改动作
1 description 与触发短语 误触发或欠触发 改写 description,增加/排除关键词
2 YAML frontmatter 工具调用缺失或多余 调整 allowed-tools 列表
3 参考文件内容 输出结构不稳定 在参考文件中明确输出模板
4 执行步骤 中间步骤被跳过 增加检查点或强制步骤

Skill 级评估比任务级更关注复现性。一次成功不代表 Skill 可靠,必须用多次执行和多种输入验证稳定性。

本节一句话总结: Skill 级评估关注触发、封装、依赖和复现性;它解决的是”这套封装值不值得复用”。