第 13 章评估与迭代

面向经管学生、研究者与从业者的 AI 智能体设计教材

作者

李学恒、林建浩、严翊歆、张一帆

最后更新

2026-05-14

阅读指南

理解任务级、Skill 级、系统级三层评估对象的边界与关注点
辨析区分”回答质量差”“Skill 封装不稳”“系统协作失真”三类问题
分析根据失败样例判断该改任务说明、Skill 结构，还是系统机制
拆解把任务说明、Skill、代理协作、Hooks 与 Git 接入同一条评估与迭代链，形成工程闭环
应用为具体工作流建立三轮迭代接口：任务校准、Skill 校准、系统回归

本章核心概念速查

概念	定义	何时使用	常见错误
任务级评估	检查单次输入-输出是否达标	输出缺项、格式错误时	不看输出直接调 Skill
Skill 级评估	检查封装流程的触发和复现稳定性	同一 Skill 结果时好时差时	把 Skill 问题当任务问题改
系统级评估	检查多组件协作的整体行为	单个组件正常但组合后出错时	只测单组件不测集成
归因分析	判断问题落在哪一层再定向修复	输出不合格需要排查时	凭感觉改而不做归因
迭代闭环	评估→定位→修复→回归验证的循环	每次修改后确认效果时	改完不验证直接上线

第 13 章总览图

系统已经搭建起来后，结果仍然可能不稳。评估的作用，不是补一份报告，而是判断问题落在任务级、Skill 级还是系统级，再决定先改哪里。

全章六节按三层递进展开：先讲评估为什么是第二篇的收束机制，再分别拆解任务级评估、Skill 级评估和系统级评估各自的检查点与判断方法，然后用同一个工作流演示三层诊断的完整案例，最后归纳三轮迭代接口与常见误区。

---
title: "第 13 章 评估与迭代"
---

::: {.callout-important}
## 阅读指南

1. **理解** 任务级、Skill 级、系统级三层评估对象的边界与关注点
2. **辨析** 区分"回答质量差""Skill 封装不稳""系统协作失真"三类问题
3. **分析** 根据失败样例判断该改任务说明、Skill 结构，还是系统机制
4. **拆解** 把任务说明、Skill、代理协作、Hooks 与 Git 接入同一条评估与迭代链，形成工程闭环
5. **应用** 为具体工作流建立三轮迭代接口：任务校准、Skill 校准、系统回归
:::

::: {.callout-note collapse="true"}
## 本章核心概念速查

| 概念 | 定义 | 何时使用 | 常见错误 |
|:---|:---|:---|:---|
| 任务级评估 | 检查单次输入-输出是否达标 | 输出缺项、格式错误时 | 不看输出直接调 Skill |
| Skill 级评估 | 检查封装流程的触发和复现稳定性 | 同一 Skill 结果时好时差时 | 把 Skill 问题当任务问题改 |
| 系统级评估 | 检查多组件协作的整体行为 | 单个组件正常但组合后出错时 | 只测单组件不测集成 |
| 归因分析 | 判断问题落在哪一层再定向修复 | 输出不合格需要排查时 | 凭感觉改而不做归因 |
| 迭代闭环 | 评估→定位→修复→回归验证的循环 | 每次修改后确认效果时 | 改完不验证直接上线 |
:::

![第 13 章总览图](images/img_00_chapter_overview.webp)

系统已经搭建起来后，结果仍然可能不稳。评估的作用，不是补一份报告，而是判断问题落在任务级、Skill 级还是系统级，再决定先改哪里。

全章六节按三层递进展开：先讲评估为什么是第二篇的收束机制，再分别拆解任务级评估、Skill 级评估和系统级评估各自的检查点与判断方法，然后用同一个工作流演示三层诊断的完整案例，最后归纳三轮迭代接口与常见误区。