第 13 章 评估与迭代
面向经管学生、研究者与从业者的 AI 智能体设计教材
阅读指南
- 理解 任务级、Skill 级、系统级三层评估对象的边界与关注点
- 辨析 区分”回答质量差”“Skill 封装不稳”“系统协作失真”三类问题
- 分析 根据失败样例判断该改任务说明、Skill 结构,还是系统机制
- 拆解 把任务说明、Skill、代理协作、Hooks 与 Git 接入同一条评估与迭代链,形成工程闭环
- 应用 为具体工作流建立三轮迭代接口:任务校准、Skill 校准、系统回归
本章核心概念速查
| 概念 | 定义 | 何时使用 | 常见错误 |
|---|---|---|---|
| 任务级评估 | 检查单次输入-输出是否达标 | 输出缺项、格式错误时 | 不看输出直接调 Skill |
| Skill 级评估 | 检查封装流程的触发和复现稳定性 | 同一 Skill 结果时好时差时 | 把 Skill 问题当任务问题改 |
| 系统级评估 | 检查多组件协作的整体行为 | 单个组件正常但组合后出错时 | 只测单组件不测集成 |
| 归因分析 | 判断问题落在哪一层再定向修复 | 输出不合格需要排查时 | 凭感觉改而不做归因 |
| 迭代闭环 | 评估→定位→修复→回归验证的循环 | 每次修改后确认效果时 | 改完不验证直接上线 |

系统已经搭起来后,结果仍然可能不稳。评估的作用,不是补一份报告,而是判断问题落在任务级、Skill 级还是系统级,再决定先改哪里。
全章六节按三层递进展开:先讲评估为什么是第二篇的收束机制,再分别拆解任务级评估、Skill 级评估和系统级评估各自的检查点与判断方法,然后用同一个工作流演示三层诊断的完整案例,最后归纳三轮迭代接口与常见误区。