13.5 三轮迭代接口与常见误区

面向经管学生、研究者与从业者的 AI 智能体设计教材

作者

李学恒、林建浩、严翊歆

发布于

2026-05-11

13.5 配图

评估发现了问题,也找到了对应层级,但如果改动没有落到具体文件和机制里,评估就只是报告,还没有形成闭环。

这一节讲两件事:怎样把评估结果转成下一轮真正生效的改动,以及哪些误区最常见。

三轮迭代接口

评估结果要回灌到系统中,必须有明确的写入位点。按照三层评估的结构,迭代也分三轮,每轮对应不同的写入目标。

第一轮:任务校准

目标:确保每个任务的说明、约束和验收条件是完整的。

评估发现 写入位点 写入内容
输出缺少必需章节 任务说明 补充输出格式要求
验收条件太模糊 验收清单 改为可判定的二元条件
缺少 few-shot 示例 任务说明 增加 1-2 个输出示例

第一轮迭代改动范围最小,通常只涉及一个任务的提示词或说明文档。改完后重新跑一次该任务的最小评测集,确认输出满足验收条件。

第二轮:Skill 校准

目标:确保 Skill 在不同输入上的执行结果稳定一致。

评估发现 写入位点 写入内容
误触发或欠触发 Skill description 调整触发关键词
输出骨架不稳定 参考文件 增加输出模板
工具调用缺失 YAML frontmatter 补充 allowed-tools
执行步骤被跳过 Skill 执行步骤 增加强制检查点

第二轮迭代涉及 Skill 文件及其依赖的参考资料。改完后,用 5-10 个不同输入重复测试该 Skill,确认输出结构一致。

第三轮:系统回归

目标:确保多组件协作时没有引入新的问题。

评估发现 写入位点 写入内容
跨组件术语不一致 CLAUDE.md 更新术语对照表
错误输出未被拦截 Hook 配置 增加检查规则
修改后旧功能回归 回归测试集 把新的检查项加入集合
同类错误反复出现 lessons 文件 记录问题模式和解决方案

第三轮迭代涉及全局配置文件和跨组件机制。改完后运行完整的回归测试集,确认之前通过的检查项没有被破坏。

三轮迭代不是严格串行的流水线,不必等第一轮全部完成才开始第二轮,但层级顺序不能乱:先确认单次任务能做对,再确认封装能稳定复用,最后确认多组件协作没有回归。前两层没有查清就直接调整系统,通常只会增加排查成本。

经验写回

三轮迭代中有一个容易被忽略的环节:把解决问题的经验写回到系统中,使同类问题在下一轮不再出现。

经验写回的目标位点:

经验类型 写入位点 效果
术语规范 CLAUDE.md 后续所有代理自动遵守
输出格式要求 Skill 参考文件 后续执行自动包含
检查规则 Hook 脚本 后续提交自动拦截
失败模式 回归测试集 后续修改自动检测
问题-解决方案 lessons 文件 后续排查时可查阅

没有进入规则文件、Skill、Hook 或回归集的经验,只停留在个人记忆里,不算完成迭代。

常见误区

四个高频误区

误区一:把所有问题都归结为提示词。 输出不满意时,很多人第一反应都是改提示词。改上几轮后,提示词越来越长,问题定位越来越模糊。提示词只能解决任务级问题。同一问题在不同输入上反复出现,通常说明问题在 Skill 层面;单组件正常但组合出错,问题在系统层面。

误区二:只有主观评价,没有评测样本。 团队讨论时常说”输出质量还行”,但没有固定评测样本做对比,就无法追踪变化趋势。最小可行的做法,是维护一个 10-20 条的评测集,每次修改后跑一遍,记录通过率变化。

误区三:记录了 lessons,但没有写回机制。 很多团队会维护 lessons learned 文档,但如果 lessons 没有写进 CLAUDE.md、Skill 或 Hook,同类问题还是会反复出现。lessons 的价值在于有多少条被转成了自动执行的规则或检查。

误区四:只看最终输出,不看中间过程。 最终输出不合格时,有些团队直接修改最后一步。但如果问题出在上游环节,修改最后一步并不能解决根本问题。对于多步骤工作流,应该检查每个环节的中间输出,从源头修复。

知识卡片

Anthropic 的最佳实践文档建议:给模型提供验证方法(如运行测试、检查输出格式的脚本),让模型自己判断输出是否合格。这把评估从”人看结果”变成了”系统自检”,是三轮迭代中成本最低的自动化入口。

本节一句话总结: 评估结果必须落到任务说明、Skill 文件、Hook 规则或回归集中,否则不算完成迭代。