9.5 测试与迭代

面向经管学生、研究者与从业者的 AI 智能体设计教材

作者

李学恒、林建浩、严翊歆、张一帆

最后更新

2026-05-13

写完一个 Skill 之后，可从触发、功能和性能三个层面评估它是否稳定可用。Anthropic 官方推荐的测试方法也围绕这三个层面展开。

触发测试

触发测试回答的问题是：Skill 是否在正确的时机加载？

可列出一组应该触发的请求和一组不应该触发的请求，逐条验证。

应触发：
- "帮我分析贵州茅台的季度财报"
- "做一份上市公司财务比率分析"
- "计算 ROE 和资产负债率并生成报告"

不应触发：
- "今天天气怎么样？"
- "帮我写一封邮件"
- "解释什么是 ROE"（这是知识问答，不是分析任务）

调试方法：直接问智能体——

▶ Claude Code

你什么时候会使用 quarterly-financial-analysis 这个 Skill？

智能体会根据 description 字段回答触发条件。如果回答不准确，说明 description 需要修改。

功能测试

功能测试验证 Skill 是否产出正确的结果。推荐使用 Given/When/Then 模板：

测试：季度财报分析——完整流程
Given：用户指定股票代码 600519，季度 2025Q3
When：Skill 执行完整工作流
Then：
  - data/ 目录下生成 raw_600519_2025Q3.json
  - data/ 目录下生成 ratios_600519_2025Q3.json
  - output/ 目录下生成 report_600519_2025Q3.md
  - 报告包含 ROE、资产负债率、毛利率三项指标
  - 报告包含同业对比表格

经济金融场景的功能测试要特别关注三点：

关注点	具体检查
数据完整性	必填指标是否都已计算
格式一致性	数字精度、百分比写法、表格结构是否统一
逻辑一致性	文字结论与数据方向是否矛盾

性能对比

性能对比用于判断：使用 Skill 之后，流程效率和输出稳定性提升了多少。

用同一个任务分别在有 Skill 和无 Skill 的环境下执行，记录关键指标：

指标	无 Skill	有 Skill
用户提示轮次	8-12 轮（反复补充要求）	1-2 轮（Skill 自动执行）
token 消耗	~12,000 tokens	~6,000 tokens
失败重试次数	2-3 次（遗漏步骤或格式错误）	0 次
输出结构一致性	每次不同	每次一致

如果 Skill 没有在这些指标上带来明显改善，说明任务可能不适合做成 Skill，或者 Skill 的指令需要优化。

迭代反馈环

测试暴露的问题通常分三类，对应不同的修复方向：

迭代修复指南

问题表现	诊断	修复方向
Skill 该触发但没触发	触发不足	在 `description` 中增加关键词和触发短语
Skill 不该触发却触发了	触发过度	在 `description` 中添加否定条件，限定适用范围
Skill 触发了但执行偏差	指令不够精确	改进步骤说明，增加验证节点和错误处理

Skill 是持续迭代的文档。每次发现执行偏差，都应把修复方案写回 SKILL.md。

skill-creator 辅助工具

Anthropic 提供了 skill-creator 这个官方 Skill，它可以辅助 Skill 的创建和审查。

创建 Skill：根据自然语言描述生成规范的 SKILL.md 文件，包含正确的 frontmatter 格式和触发短语。

▶ Claude Code

使用 skill-creator 帮我构建一个季度财报分析的 Skill

审查 Skill：对已有 Skill 进行质量检查，识别常见问题——描述是否模糊、触发条件是否缺失、结构是否合理。

▶ Claude Code

使用 skill-creator 审查我的 quarterly-financial-analysis Skill，提出改进建议

skill-creator 是设计辅助工具，不是自动化测试框架。它能帮你快速生成初稿和发现结构问题，但功能测试和性能对比仍然需要你自己执行和判断。

--- title: "9.5 测试与迭代" --- ![9.5 配图](images/img_05_test_iteration.webp) 写完一个 Skill 之后，可从触发、功能和性能三个层面评估它是否稳定可用。Anthropic 官方推荐的测试方法也围绕这三个层面展开。 ## 触发测试触发测试回答的问题是：Skill 是否在正确的时机加载？可列出一组应该触发的请求和一组不应该触发的请求，逐条验证。 ```txt 应触发： - "帮我分析贵州茅台的季度财报" - "做一份上市公司财务比率分析" - "计算 ROE 和资产负债率并生成报告" 不应触发： - "今天天气怎么样？" - "帮我写一封邮件" - "解释什么是 ROE"（这是知识问答，不是分析任务） ``` 调试方法：直接问智能体—— ```opencode 你什么时候会使用 quarterly-financial-analysis 这个 Skill？ ``` 智能体会根据 `description` 字段回答触发条件。如果回答不准确，说明 `description` 需要修改。 ## 功能测试功能测试验证 Skill 是否产出正确的结果。推荐使用 Given/When/Then 模板： ```txt 测试：季度财报分析——完整流程 Given：用户指定股票代码 600519，季度 2025Q3 When：Skill 执行完整工作流 Then： - data/ 目录下生成 raw_600519_2025Q3.json - data/ 目录下生成 ratios_600519_2025Q3.json - output/ 目录下生成 report_600519_2025Q3.md - 报告包含 ROE、资产负债率、毛利率三项指标 - 报告包含同业对比表格 ``` 经济金融场景的功能测试要特别关注三点： | 关注点 | 具体检查 | |:---|:---| | 数据完整性 | 必填指标是否都已计算 | | 格式一致性 | 数字精度、百分比写法、表格结构是否统一 | | 逻辑一致性 | 文字结论与数据方向是否矛盾 | ## 性能对比性能对比用于判断：使用 Skill 之后，流程效率和输出稳定性提升了多少。用同一个任务分别在有 Skill 和无 Skill 的环境下执行，记录关键指标： | 指标 | 无 Skill | 有 Skill | |:---|:---|:---| | 用户提示轮次 | 8-12 轮（反复补充要求） | 1-2 轮（Skill 自动执行） | | token 消耗 | ~12,000 tokens | ~6,000 tokens | | 失败重试次数 | 2-3 次（遗漏步骤或格式错误） | 0 次 | | 输出结构一致性 | 每次不同 | 每次一致 | 如果 Skill 没有在这些指标上带来明显改善，说明任务可能不适合做成 Skill，或者 Skill 的指令需要优化。 ## 迭代反馈环测试暴露的问题通常分三类，对应不同的修复方向： ::: {.callout-tip} ## 迭代修复指南 | 问题表现 | 诊断 | 修复方向 | |:---|:---|:---| | Skill 该触发但没触发 | 触发不足 | 在 `description` 中增加关键词和触发短语 | | Skill 不该触发却触发了 | 触发过度 | 在 `description` 中添加否定条件，限定适用范围 | | Skill 触发了但执行偏差 | 指令不够精确 | 改进步骤说明，增加验证节点和错误处理 | Skill 是持续迭代的文档。每次发现执行偏差，都应把修复方案写回 `SKILL.md`。 ::: ## skill-creator 辅助工具 Anthropic 提供了 skill-creator 这个官方 Skill，它可以辅助 Skill 的创建和审查。 **创建 Skill**：根据自然语言描述生成规范的 SKILL.md 文件，包含正确的 frontmatter 格式和触发短语。 ```opencode 使用 skill-creator 帮我构建一个季度财报分析的 Skill ``` **审查 Skill**：对已有 Skill 进行质量检查，识别常见问题——描述是否模糊、触发条件是否缺失、结构是否合理。 ```opencode 使用 skill-creator 审查我的 quarterly-financial-analysis Skill，提出改进建议 ``` skill-creator 是设计辅助工具，不是自动化测试框架。它能帮你快速生成初稿和发现结构问题，但功能测试和性能对比仍然需要你自己执行和判断。