要点小结

面向经管学生、研究者与从业者的 AI 智能体设计教材

作者

李学恒、林建浩、严翊歆

发布于

2026-05-11

本章把评估对象拆成三层，每一层都有不同的检查内容、典型失败和优先修改位点。

13.1 评估不是开发完成后的附属步骤，而是把第二篇各项机制串成工程闭环的核心动作。第 4-11 章中的任务定义、Skill 封装、代理协作、Hooks 门禁和 Git 基线，都要通过评估验证配置是否合适。

13.2 任务级评估聚焦单次输入-输出。先定义可量化、任务特异、二元可判的成功标准，再用代码判分、LLM 判分、人工判分的组合来检查输出。失败时优先检查任务描述、边界约束、示例和验收条件。

13.3 Skill 级评估聚焦封装后工作流的稳定性。检查触发是否准确（误触发和欠触发）、输出骨架是否一致、参考文件和工具权限是否完备。失败时优先检查 description、YAML frontmatter、参考文件和执行步骤。

13.4 系统级评估聚焦多组件长期协作的行为。检查路由是否正确、上下文传递是否完整、Hooks 是否有效，以及是否存在回归和漂移。失败时优先检查代理分工、上下文切分、Hook 配置和 Git 基线。核心判断是：很多看似模型能力不足的问题，实际属于系统协作问题。

13.5 三轮迭代接口把评估结果回灌到系统中：第一轮校准任务说明，第二轮校准 Skill 封装，第三轮校准系统回归。经验如果没有进入规则文件、Skill、Hook 或回归集，就不算完成迭代。常见误区包括把所有问题都归结为提示词、只有主观评价没有评测样本，以及记录了 lessons 却没有写回机制。

13.6 三层案例用章节重构工作流展示了同一个”输出不合格”现象在三层中的不同归因和处理：任务级修改写作指令，Skill 级修改参考文件和执行步骤，系统级修改 CLAUDE.md、Hook 和回归集。

13.7 配套案例用两个金融场景验证评估方法：舆情分类评测集构建展示了从标注规范到迭代优化的完整评估流程；研报生成迭代优化展示了版本演进、多维度评分和经验写回的闭环机制。

其他格式