9.5 测试与迭代

面向经管学生、研究者与从业者的 AI 智能体设计教材

作者

李学恒、林建浩、严翊歆

发布于

2026-05-11

9.5 配图

写完一个 Skill 之后,可从触发、功能和性能三个层面评估它是否稳定可用。Anthropic 官方推荐的测试方法也围绕这三个层面展开。

触发测试

触发测试回答的问题是:Skill 是否在正确的时机被加载?

可列出一组应该触发的请求和一组不应该触发的请求,逐条验证。

应触发:
- "帮我分析贵州茅台的季度财报"
- "做一份上市公司财务比率分析"
- "计算 ROE 和资产负债率并生成报告"

不应触发:
- "今天天气怎么样?"
- "帮我写一封邮件"
- "解释什么是 ROE"(这是知识问答,不是分析任务)

调试方法:直接问智能体——

▶ Claude Code
你什么时候会使用 quarterly-financial-analysis 这个 Skill?

智能体会根据 description 字段回答触发条件。如果回答不准确,说明 description 需要修改。

功能测试

功能测试验证 Skill 是否产出正确的结果。推荐使用 Given/When/Then 模板:

测试:季度财报分析——完整流程
Given:用户指定股票代码 600519,季度 2025Q3
When:Skill 执行完整工作流
Then:
  - data/ 目录下生成 raw_600519_2025Q3.json
  - data/ 目录下生成 ratios_600519_2025Q3.json
  - output/ 目录下生成 report_600519_2025Q3.md
  - 报告包含 ROE、资产负债率、毛利率三项指标
  - 报告包含同业对比表格

经济金融场景的功能测试要特别关注三点:

关注点 具体检查
数据完整性 必填指标是否都已计算
格式一致性 数字精度、百分比写法、表格结构是否统一
逻辑一致性 文字结论与数据方向是否矛盾

性能对比

性能对比用于判断:使用 Skill 之后,流程效率和输出稳定性提升了多少。

用同一个任务分别在有 Skill 和无 Skill 的环境下执行,记录关键指标:

指标 无 Skill 有 Skill
用户提示轮次 8-12 轮(反复补充要求) 1-2 轮(Skill 自动执行)
token 消耗 ~12,000 tokens ~6,000 tokens
失败重试次数 2-3 次(遗漏步骤或格式错误) 0 次
输出结构一致性 每次不同 每次一致

如果 Skill 没有在这些指标上带来明显改善,说明任务可能不适合做成 Skill,或者 Skill 的指令需要优化。

迭代反馈环

测试暴露的问题通常分三类,对应不同的修复方向:

迭代修复指南
问题表现 诊断 修复方向
Skill 该触发但没触发 触发不足 description 中增加关键词和触发短语
Skill 不该触发却触发了 触发过度 description 中添加否定条件,限定适用范围
Skill 触发了但执行偏差 指令不够精确 改进步骤说明,增加验证节点和错误处理

Skill 是持续迭代的文档。每次发现执行偏差,都应把修复方案写回 SKILL.md

skill-creator 辅助工具

Anthropic 提供了 skill-creator 这个官方 Skill,它可以辅助 Skill 的创建和审查。

创建 Skill:根据自然语言描述生成规范的 SKILL.md 文件,包含正确的 frontmatter 格式和触发短语。

▶ Claude Code
使用 skill-creator 帮我构建一个季度财报分析的 Skill

审查 Skill:对已有 Skill 进行质量检查,识别常见问题——描述是否模糊、触发条件是否缺失、结构是否合理。

▶ Claude Code
使用 skill-creator 审查我的 quarterly-financial-analysis Skill,提出改进建议

skill-creator 是设计辅助工具,不是自动化测试框架。它能帮你快速生成初稿和发现结构问题,但功能测试和性能对比仍然需要你自己执行和判断。