要点小结

面向经管学生、研究者与从业者的 AI 智能体设计教材

作者

李学恒、林建浩、严翊歆

发布于

2026-05-11

本章把评估对象拆成三层,每一层都有不同的检查内容、典型失败和优先修改位点。

13.1 评估不是开发完成后的附属步骤,而是把第二篇各项机制串成工程闭环的核心动作。第 4-11 章中的任务定义、Skill 封装、代理协作、Hooks 门禁和 Git 基线,都要通过评估验证配置是否合适。

13.2 任务级评估聚焦单次输入-输出。先定义可量化、任务特异、二元可判的成功标准,再用代码判分、LLM 判分、人工判分的组合来检查输出。失败时优先检查任务描述、边界约束、示例和验收条件。

13.3 Skill 级评估聚焦封装后工作流的稳定性。检查触发是否准确(误触发和欠触发)、输出骨架是否一致、参考文件和工具权限是否完备。失败时优先检查 description、YAML frontmatter、参考文件和执行步骤。

13.4 系统级评估聚焦多组件长期协作的行为。检查路由是否正确、上下文传递是否完整、Hooks 是否有效,以及是否存在回归和漂移。失败时优先检查代理分工、上下文切分、Hook 配置和 Git 基线。核心判断是:很多看似模型能力不足的问题,实际属于系统协作问题。

13.5 三轮迭代接口把评估结果回灌到系统中:第一轮校准任务说明,第二轮校准 Skill 封装,第三轮校准系统回归。经验如果没有进入规则文件、Skill、Hook 或回归集,就不算完成迭代。常见误区包括把所有问题都归结为提示词、只有主观评价没有评测样本,以及记录了 lessons 却没有写回机制。

13.6 三层案例用章节重构工作流展示了同一个”输出不合格”现象在三层中的不同归因和处理:任务级修改写作指令,Skill 级修改参考文件和执行步骤,系统级修改 CLAUDE.md、Hook 和回归集。

13.7 配套案例用两个金融场景验证评估方法:舆情分类评测集构建展示了从标注规范到迭代优化的完整评估流程;研报生成迭代优化展示了版本演进、多维度评分和经验写回的闭环机制。