9.5 测试与迭代
面向经管学生、研究者与从业者的 AI 智能体设计教材

写完一个 Skill 之后,可从触发、功能和性能三个层面评估它是否稳定可用。Anthropic 官方推荐的测试方法也围绕这三个层面展开。
触发测试
触发测试回答的问题是:Skill 是否在正确的时机被加载?
可列出一组应该触发的请求和一组不应该触发的请求,逐条验证。
应触发:
- "帮我分析贵州茅台的季度财报"
- "做一份上市公司财务比率分析"
- "计算 ROE 和资产负债率并生成报告"
不应触发:
- "今天天气怎么样?"
- "帮我写一封邮件"
- "解释什么是 ROE"(这是知识问答,不是分析任务)调试方法:直接问智能体——
▶ Claude Code
你什么时候会使用 quarterly-financial-analysis 这个 Skill?
智能体会根据 description 字段回答触发条件。如果回答不准确,说明 description 需要修改。
功能测试
功能测试验证 Skill 是否产出正确的结果。推荐使用 Given/When/Then 模板:
测试:季度财报分析——完整流程
Given:用户指定股票代码 600519,季度 2025Q3
When:Skill 执行完整工作流
Then:
- data/ 目录下生成 raw_600519_2025Q3.json
- data/ 目录下生成 ratios_600519_2025Q3.json
- output/ 目录下生成 report_600519_2025Q3.md
- 报告包含 ROE、资产负债率、毛利率三项指标
- 报告包含同业对比表格经济金融场景的功能测试要特别关注三点:
| 关注点 | 具体检查 |
|---|---|
| 数据完整性 | 必填指标是否都已计算 |
| 格式一致性 | 数字精度、百分比写法、表格结构是否统一 |
| 逻辑一致性 | 文字结论与数据方向是否矛盾 |
性能对比
性能对比用于判断:使用 Skill 之后,流程效率和输出稳定性提升了多少。
用同一个任务分别在有 Skill 和无 Skill 的环境下执行,记录关键指标:
| 指标 | 无 Skill | 有 Skill |
|---|---|---|
| 用户提示轮次 | 8-12 轮(反复补充要求) | 1-2 轮(Skill 自动执行) |
| token 消耗 | ~12,000 tokens | ~6,000 tokens |
| 失败重试次数 | 2-3 次(遗漏步骤或格式错误) | 0 次 |
| 输出结构一致性 | 每次不同 | 每次一致 |
如果 Skill 没有在这些指标上带来明显改善,说明任务可能不适合做成 Skill,或者 Skill 的指令需要优化。
迭代反馈环
测试暴露的问题通常分三类,对应不同的修复方向:
迭代修复指南
| 问题表现 | 诊断 | 修复方向 |
|---|---|---|
| Skill 该触发但没触发 | 触发不足 | 在 description 中增加关键词和触发短语 |
| Skill 不该触发却触发了 | 触发过度 | 在 description 中添加否定条件,限定适用范围 |
| Skill 触发了但执行偏差 | 指令不够精确 | 改进步骤说明,增加验证节点和错误处理 |
Skill 是持续迭代的文档。每次发现执行偏差,都应把修复方案写回 SKILL.md。
skill-creator 辅助工具
Anthropic 提供了 skill-creator 这个官方 Skill,它可以辅助 Skill 的创建和审查。
创建 Skill:根据自然语言描述生成规范的 SKILL.md 文件,包含正确的 frontmatter 格式和触发短语。
▶ Claude Code
使用 skill-creator 帮我构建一个季度财报分析的 Skill
审查 Skill:对已有 Skill 进行质量检查,识别常见问题——描述是否模糊、触发条件是否缺失、结构是否合理。
▶ Claude Code
使用 skill-creator 审查我的 quarterly-financial-analysis Skill,提出改进建议
skill-creator 是设计辅助工具,不是自动化测试框架。它能帮你快速生成初稿和发现结构问题,但功能测试和性能对比仍然需要你自己执行和判断。