13.1 为什么评估是第二篇的收束机制

面向经管学生、研究者与从业者的 AI 智能体设计教材

作者

李学恒、林建浩、严翊歆

发布于

2026-05-11

13.1 为什么评估是第二篇的收束机制

评估不是重新描述整套工作流，而是把问题落到可检查的结构件上，判断它最先出在哪一层。

评估在检查什么

把工作流拆开看，常见的可评估结构件大致如下：

结构件	在系统里的作用	评估时的检查点
任务说明与验收条件	定义本轮要交付什么	任务目标是否清楚，输出是否符合预期
规则文件	统一约束术语、格式和边界	约束是否生效，违反时是否被拦截
Skills	封装可复用流程与工具权限	触发是否准确，输出是否稳定复现
多智能体协作	分配角色与上下文	分工是否合理，上下文是否正确传递
Hooks	在关键节点执行门禁和校验	关键节点是否被拦截，校验结果是否回灌
Git 基线	提供版本边界和回退路径	改动是否可追溯，回退是否可执行

如果没有评估，这些结构件只是已经配置，却不知道是否配置正确。任务说明写了验收条件，没人检查输出是否真的满足；Skill 设置了触发短语，不清楚实际触发率；Hook 挂了门禁脚本，也没有测过误拦截和漏拦截的比例。

评估不是附属动作

一个常见误解，是把评估当成开发完成后的补充步骤：系统搭完后，最后再跑一遍测试看分数。这样做的麻烦在于，等到最后才发现问题时，往往已经很难判断问题位于哪一层。

更有效的做法，是把评估嵌入开发过程。每修改一个 Skill，就跑一次触发准确率测试；每调整一次多代理分工，就检查上下文传递是否完整；每次提交前，都用 Hook 执行格式和内容校验。评估承担的是持续反馈，而不是事后验收。

核心概念

评估的作用不是给系统打分，而是让改动有据可循。改了提示词，要能看到输出质量的变化；改了 Skill 结构，要能验证触发稳定性是否提升；改了代理分工，要能确认整体行为没有回归。没有评估，优化就只能凭感觉推进。

三层评估对象

并非所有问题都该用同一种方式检查。一个智能体工作流产出不合格结果，原因通常分布在三个层面：

任务级：这一次任务的输入、约束或验收条件有问题。比如任务说明没写清楚输出格式，或者给的参考资料不够。

Skill 级：封装好的工作流在反复执行时不稳定。比如同一个 Skill 有时能正确触发，有时触发了但加载的参考文件不对。

系统级：多个组件协作时出现漂移、冲突或回归。比如多个代理并行执行后，结果合并逻辑有缺陷；或者修复了一个问题，却破坏了之前正常的功能。

层级	评估对象	典型问题	优先检查
任务级	单次输入-输出	输出缺项、格式错误、事实不准	任务定义、验收条件、示例
Skill 级	封装后的工作流	触发不稳、输出骨架不一致	description、工具权限、参考文件
系统级	多组件协作	路由错误、上下文丢失、回归	代理分工、Hooks、Git 基线

这三层不是替代关系，而是递进关系。任务级评估是基础；如果单次任务都做不好，讨论 Skill 稳定性没有意义。Skill 级评估建立在任务级通过的前提上；单次能做好，但重复执行时质量不一致，说明封装存在问题。系统级评估关注长期运行和多组件协作；单个 Skill 都稳定，但组合后出了问题，就需要在系统层继续排查。

本节一句话总结： 评估不是开发完成后的附属步骤，而是把整套工作流串成工程闭环的核心动作。

--- title: "13.1 为什么评估是第二篇的收束机制" --- ![13.1 配图](images/img_01_evaluation_framework.png) ## 13.1 为什么评估是第二篇的收束机制评估不是重新描述整套工作流，而是把问题落到可检查的结构件上，判断它最先出在哪一层。 ### 评估在检查什么把工作流拆开看，常见的可评估结构件大致如下： | 结构件 | 在系统里的作用 | 评估时的检查点 | |:---|:---|:---| | 任务说明与验收条件 | 定义本轮要交付什么 | 任务目标是否清楚，输出是否符合预期 | | 规则文件 | 统一约束术语、格式和边界 | 约束是否生效，违反时是否被拦截 | | Skills | 封装可复用流程与工具权限 | 触发是否准确，输出是否稳定复现 | | 多智能体协作 | 分配角色与上下文 | 分工是否合理，上下文是否正确传递 | | Hooks | 在关键节点执行门禁和校验 | 关键节点是否被拦截，校验结果是否回灌 | | Git 基线 | 提供版本边界和回退路径 | 改动是否可追溯，回退是否可执行 | 如果没有评估，这些结构件只是已经配置，却不知道是否配置正确。任务说明写了验收条件，没人检查输出是否真的满足；Skill 设置了触发短语，不清楚实际触发率；Hook 挂了门禁脚本，也没有测过误拦截和漏拦截的比例。 ### 评估不是附属动作一个常见误解，是把评估当成开发完成后的补充步骤：系统搭完后，最后再跑一遍测试看分数。这样做的麻烦在于，等到最后才发现问题时，往往已经很难判断问题位于哪一层。更有效的做法，是把评估嵌入开发过程。每修改一个 Skill，就跑一次触发准确率测试；每调整一次多代理分工，就检查上下文传递是否完整；每次提交前，都用 Hook 执行格式和内容校验。评估承担的是持续反馈，而不是事后验收。 ::: {.callout-important} ## 核心概念评估的作用不是给系统打分，而是**让改动有据可循**。改了提示词，要能看到输出质量的变化；改了 Skill 结构，要能验证触发稳定性是否提升；改了代理分工，要能确认整体行为没有回归。没有评估，优化就只能凭感觉推进。 ::: ### 三层评估对象并非所有问题都该用同一种方式检查。一个智能体工作流产出不合格结果，原因通常分布在三个层面： **任务级**：这一次任务的输入、约束或验收条件有问题。比如任务说明没写清楚输出格式，或者给的参考资料不够。 **Skill 级**：封装好的工作流在反复执行时不稳定。比如同一个 Skill 有时能正确触发，有时触发了但加载的参考文件不对。 **系统级**：多个组件协作时出现漂移、冲突或回归。比如多个代理并行执行后，结果合并逻辑有缺陷；或者修复了一个问题，却破坏了之前正常的功能。 | 层级 | 评估对象 | 典型问题 | 优先检查 | |:---|:---|:---|:---| | 任务级 | 单次输入-输出 | 输出缺项、格式错误、事实不准 | 任务定义、验收条件、示例 | | Skill 级 | 封装后的工作流 | 触发不稳、输出骨架不一致 | description、工具权限、参考文件 | | 系统级 | 多组件协作 | 路由错误、上下文丢失、回归 | 代理分工、Hooks、Git 基线 | 这三层不是替代关系，而是递进关系。任务级评估是基础；如果单次任务都做不好，讨论 Skill 稳定性没有意义。Skill 级评估建立在任务级通过的前提上；单次能做好，但重复执行时质量不一致，说明封装存在问题。系统级评估关注长期运行和多组件协作；单个 Skill 都稳定，但组合后出了问题，就需要在系统层继续排查。 **本节一句话总结：** 评估不是开发完成后的附属步骤，而是把整套工作流串成工程闭环的核心动作。