13.3 Skill 级评估：判断一个封装后的工作流稳不稳定

面向经管学生、研究者与从业者的 AI 智能体设计教材

作者

李学恒、林建浩、严翊歆、张一帆

最后更新

2026-05-14

任务级评估关注单次执行。但在实际工作中，很多任务会被封装成 Skill 反复使用。同一个 Skill 执行同类任务时，有时输出质量高，有时质量明显下降，这种不稳定性正是 Skill 级评估要处理的问题。

Skill 级评估关注的重点，不是这次执行质量的高低，而是这套封装是否值得复用。

Skill 级评估关注什么

和任务级评估相比，Skill 级评估的关注点已经发生转移：

维度	任务级	Skill 级
评估对象	单次输入-输出	同一 Skill 的多次执行
核心指标	输出质量	触发准确率、输出稳定性
失败含义	单次执行不达标	这套封装不可靠
优先修改	任务描述、示例	description、工具权限、参考文件

触发评估

Skill 能否被正确触发，是评估的第一步。触发问题分为两类：

误触发（False Positive）：用户的请求本不该触发这个 Skill，但 Skill 被错误激活了。比如用户问”怎么写一个数据分析报告”，结果触发了”数据分析执行 Skill”而不是”写作指导 Skill”。

欠触发（False Negative）：用户的请求应该触发某个 Skill，但 Skill 没有被激活。比如用户说”帮我分析一下这份数据”，Skill 的 description 只写了”生成数据分析报告”，导致匹配失败。

检查触发问题的方法很直接：准备 20-30 个测试请求，其中一半应该触发，一半不应该触发，再逐一测试匹配结果。

▶ Claude Code

请用以下 15 个测试请求，逐一检验"数据分析报告生成"Skill 的触发情况。
记录每个请求是否触发了该 Skill，以及触发结果是否符合预期。

预期触发（应该匹配）：
1. 帮我分析这份销售数据
2. 生成一份 Q3 数据报告
3. 对比这两个季度的营收变化
...

预期不触发（不应该匹配）：
8. 怎么安装 Python
9. 帮我写一封邮件
10. 这段代码有什么 bug
...

如果误触发率或欠触发率超过 20%，优先修改 Skill 的 description，不要先修改其他部分。

输出骨架稳定性

一个稳定的 Skill，应该在相似输入下产出结构一致的输出。检查方法是用 5-10 个同类输入连续运行同一个 Skill，对比输出结构是否一致。

需要检查的项目包括：

检查项	稳定	不稳定
输出章节	每次都包含相同的必需章节	有时缺少某些章节
格式规范	标题层级、列表格式一致	有时用 markdown，有时用纯文本
长度范围	波动在 ±20% 以内	有时 500 字，有时 3000 字
工具调用	调用相同的工具集合	有时调用工具，有时跳过

如果输出骨架不稳定，通常需要检查 Skill 的 YAML frontmatter 和执行步骤：

allowed-tools 是否明确列出了必需工具
执行步骤是否有明确的输出格式要求
参考文件（supporting files）是否提供了输出模板

参考文件和工具权限

Skill 的执行依赖两类外部资源：参考文件和工具。两者是否完备，直接影响 Skill 的稳定性。

参考文件检查：

Skill 声明的参考文件是否都存在
参考文件的内容是否与 Skill 的任务匹配
参考文件是否提供了足够的约束（输出模板、格式要求、边界条件）

工具权限检查：

allowed-tools 是否包含 Skill 执行所需的全部工具
是否有多余的工具权限（增加误用风险）
工具调用顺序是否合理（先读取再写入，先搜索再分析）

注意

一个常见的 Skill 级问题是参考文件过于笼统。比如参考文件只写明生成一份专业分析报告，却没有指定必需章节、各章节长度范围和数据引用格式。结果就是同一个 Skill 每次执行时，输出结构都可能不同。

Skill 级失败的归因

当 Skill 级评估发现问题时，按以下优先级排查：

优先级	检查项	典型症状	修改动作
1	description 与触发短语	误触发或欠触发	改写 description，增加/排除关键词
2	YAML frontmatter	工具调用缺失或多余	调整 allowed-tools 列表
3	参考文件内容	输出结构不稳定	在参考文件中明确输出模板
4	执行步骤	中间步骤被跳过	增加检查点或强制步骤

Skill 级评估比任务级更关注复现性。一次成功不代表 Skill 可靠，必须用多次执行和多种输入验证稳定性。

本节一句话总结： Skill 级评估关注触发、封装、依赖和复现性；它解决的是”这套封装值不值得复用”。

--- title: "13.3 Skill 级评估：判断一个封装后的工作流稳不稳定" --- ![13.3 配图](images/img_03_skill_level_eval.webp) 任务级评估关注单次执行。但在实际工作中，很多任务会被封装成 Skill 反复使用。同一个 Skill 执行同类任务时，有时输出质量高，有时质量明显下降，这种不稳定性正是 Skill 级评估要处理的问题。 Skill 级评估关注的重点，不是这次执行质量的高低，而是这套封装是否值得复用。 ## Skill 级评估关注什么和任务级评估相比，Skill 级评估的关注点已经发生转移： | 维度 | 任务级 | Skill 级 | |:---|:---|:---| | 评估对象 | 单次输入-输出 | 同一 Skill 的多次执行 | | 核心指标 | 输出质量 | 触发准确率、输出稳定性 | | 失败含义 | 单次执行不达标 | 这套封装不可靠 | | 优先修改 | 任务描述、示例 | description、工具权限、参考文件 | ## 触发评估 Skill 能否被正确触发，是评估的第一步。触发问题分为两类： **误触发（False Positive）**：用户的请求本不该触发这个 Skill，但 Skill 被错误激活了。比如用户问"怎么写一个数据分析报告"，结果触发了"数据分析执行 Skill"而不是"写作指导 Skill"。 **欠触发（False Negative）**：用户的请求应该触发某个 Skill，但 Skill 没有被激活。比如用户说"帮我分析一下这份数据"，Skill 的 description 只写了"生成数据分析报告"，导致匹配失败。检查触发问题的方法很直接：准备 20-30 个测试请求，其中一半应该触发，一半不应该触发，再逐一测试匹配结果。 ```opencode 请用以下 15 个测试请求，逐一检验"数据分析报告生成"Skill 的触发情况。记录每个请求是否触发了该 Skill，以及触发结果是否符合预期。预期触发（应该匹配）： 1. 帮我分析这份销售数据 2. 生成一份 Q3 数据报告 3. 对比这两个季度的营收变化 ... 预期不触发（不应该匹配）： 8. 怎么安装 Python 9. 帮我写一封邮件 10. 这段代码有什么 bug ... ``` 如果误触发率或欠触发率超过 20%，优先修改 Skill 的 description，不要先修改其他部分。 ## 输出骨架稳定性一个稳定的 Skill，应该在相似输入下产出结构一致的输出。检查方法是用 5-10 个同类输入连续运行同一个 Skill，对比输出结构是否一致。需要检查的项目包括： | 检查项 | 稳定 | 不稳定 | |:---|:---|:---| | 输出章节 | 每次都包含相同的必需章节 | 有时缺少某些章节 | | 格式规范 | 标题层级、列表格式一致 | 有时用 markdown，有时用纯文本 | | 长度范围 | 波动在 ±20% 以内 | 有时 500 字，有时 3000 字 | | 工具调用 | 调用相同的工具集合 | 有时调用工具，有时跳过 | 如果输出骨架不稳定，通常需要检查 Skill 的 YAML frontmatter 和执行步骤： - `allowed-tools` 是否明确列出了必需工具 - 执行步骤是否有明确的输出格式要求 - 参考文件（supporting files）是否提供了输出模板 ## 参考文件和工具权限 Skill 的执行依赖两类外部资源：参考文件和工具。两者是否完备，直接影响 Skill 的稳定性。 **参考文件检查**： - Skill 声明的参考文件是否都存在 - 参考文件的内容是否与 Skill 的任务匹配 - 参考文件是否提供了足够的约束（输出模板、格式要求、边界条件） **工具权限检查**： - `allowed-tools` 是否包含 Skill 执行所需的全部工具 - 是否有多余的工具权限（增加误用风险） - 工具调用顺序是否合理（先读取再写入，先搜索再分析） ::: {.callout-warning} ## 注意一个常见的 Skill 级问题是参考文件过于笼统。比如参考文件只写明生成一份专业分析报告，却没有指定必需章节、各章节长度范围和数据引用格式。结果就是同一个 Skill 每次执行时，输出结构都可能不同。 ::: ## Skill 级失败的归因当 Skill 级评估发现问题时，按以下优先级排查： | 优先级 | 检查项 | 典型症状 | 修改动作 | |:---|:---|:---|:---| | 1 | description 与触发短语 | 误触发或欠触发 | 改写 description，增加/排除关键词 | | 2 | YAML frontmatter | 工具调用缺失或多余 | 调整 allowed-tools 列表 | | 3 | 参考文件内容 | 输出结构不稳定 | 在参考文件中明确输出模板 | | 4 | 执行步骤 | 中间步骤被跳过 | 增加检查点或强制步骤 | Skill 级评估比任务级更关注复现性。一次成功不代表 Skill 可靠，必须用多次执行和多种输入验证稳定性。 **本节一句话总结：** Skill 级评估关注触发、封装、依赖和复现性；它解决的是"这套封装值不值得复用"。