第 13 章 评估与迭代

面向经管学生、研究者与从业者的 AI 智能体设计教材

作者

李学恒、林建浩、严翊歆

发布于

2026-05-11

阅读指南
  1. 理解 任务级、Skill 级、系统级三层评估对象的边界与关注点
  2. 辨析 区分”回答质量差”“Skill 封装不稳”“系统协作失真”三类问题
  3. 分析 根据失败样例判断该改任务说明、Skill 结构,还是系统机制
  4. 拆解 把任务说明、Skill、代理协作、Hooks 与 Git 接入同一条评估与迭代链,形成工程闭环
  5. 应用 为具体工作流建立三轮迭代接口:任务校准、Skill 校准、系统回归
概念 定义 何时使用 常见错误
任务级评估 检查单次输入-输出是否达标 输出缺项、格式错误时 不看输出直接调 Skill
Skill 级评估 检查封装流程的触发和复现稳定性 同一 Skill 结果时好时差时 把 Skill 问题当任务问题改
系统级评估 检查多组件协作的整体行为 单个组件正常但组合后出错时 只测单组件不测集成
归因分析 判断问题落在哪一层再定向修复 输出不合格需要排查时 凭感觉改而不做归因
迭代闭环 评估→定位→修复→回归验证的循环 每次修改后确认效果时 改完不验证直接上线

第 13 章总览图

系统已经搭起来后,结果仍然可能不稳。评估的作用,不是补一份报告,而是判断问题落在任务级、Skill 级还是系统级,再决定先改哪里。

全章六节按三层递进展开:先讲评估为什么是第二篇的收束机制,再分别拆解任务级评估、Skill 级评估和系统级评估各自的检查点与判断方法,然后用同一个工作流演示三层诊断的完整案例,最后归纳三轮迭代接口与常见误区。