"更多Agent更好"是个神话:180个实验的真相
Google与华盛顿大学用180种配置实验证明:多Agent并非越多越强。单Agent基线超45%时加Agent收益递减;任务结构决定最优架构——可并行任务用中心化提升80%,顺序推理坚持单Agent,Independent架构错误放大17倍。
摘要:Agent系统是2025年的热门话题。很多人认为agent越多越强——一个不够加两个,两个不够加四个。但Google和华盛顿大学的最新研究用180种实验配置证明:这是个神话。任务结构决定最优架构,而非agent数量。本文解读这项研究的三大发现,并给出实践指南。

Agent热潮中的迷思
2024年底到2025年,Agent系统经历了爆发式增长。从AutoGPT到各种Multi-Agent框架,"让多个AI协作完成复杂任务"成为共识。
一个常见的假设是:Agent越多越强。
逻辑听起来很合理:一个人解决不了的问题,团队可以;一个Agent处理不了的任务,多个Agent应该行。
但真的是这样吗?
来自Google和华盛顿大学的研究团队用180种实验配置回答了这个问题。答案可能让你意外:不仅"越多越强"是神话,有时候多Agent反而会让性能暴跌39%到70%。
研究设计:180种配置的系统性实验
这项研究的核心是控制实验。研究者测试了5种架构:
- Single-Agent:单个Agent独立工作
- Independent:多个Agent各自为政,无协调
- Centralized:一个中心协调者统筹多个执行者
- Decentralized:无中心,Agent之间点对点协调
- Hybrid:混合模式
这5种架构分别用3个主流LLM家族实例化,在4个benchmark上测试:金融分析、网页浏览、规划、综合任务。
5 × 3 × 多种配置 = 180种实验配置。
这不是随意的尝试,而是系统性的科学实验。

发现一:45%阈值——何时加Agent是帮倒忙
研究者发现了一个关键阈值:45%。
当单Agent的基线性能超过45%时,加更多Agent带来的收益开始递减,甚至变成负值。
这被称为Capability Saturation(能力饱和)效应。
为什么会这样?
当单Agent已经能解决近一半的任务时,剩下的难题往往需要深度推理,而非并行处理。这时候多Agent的协调开销反而成了负担——花在沟通上的资源本可以用于思考。
实践意义:在决定是否使用多Agent之前,先测试单Agent的基线。如果单Agent已经能做到45%以上,谨慎添加更多Agent。
发现二:任务结构决定最优架构
这是论文最重要的发现:不是Agent数量决定性能,而是任务结构与架构的匹配度。
- 可并行任务 → Centralized架构 → 性能提升80.8%
- Web导航 → Decentralized架构 → 性能提升9.2%
- 顺序推理 → Single-Agent → 多Agent性能下降39-70%
可并行任务需要同时处理多个独立子问题。Centralized架构有一个协调者分配任务、整合结果,性能提升高达80%。
Web导航需要探索和适应。Decentralized架构让多个Agent自主探索不同路径,比集中控制更灵活。
顺序推理——比如数学证明、链式思考(Chain-of-Thought)——需要一步一步推导。这类任务天然是序列化的,多Agent架构全部失效。
这个发现是反直觉的。很多人认为"复杂任务需要多Agent",但复杂的顺序推理恰恰需要单Agent的专注。

发现三:错误放大效应——Independent是最差选择
研究还揭示了不同架构对错误的处理差异:
- Independent架构:错误放大 17.2倍
- Centralized架构:错误放大 4.4倍
Independent架构(多个Agent各自为政)的错误放大最严重。一个Agent犯错,其他Agent没有纠正机制,错误累积传播。
Centralized架构有协调者把关,可以发现并纠正个别Agent的错误,将放大效应控制在4.4倍。
实践意义:如果必须用多Agent,优先选择有中心协调者的架构。避免让多个Agent完全独立运作。

预测框架:87%准确率选择最优策略
研究者还开发了一个预测模型,根据任务特征预测最优协调策略。
模型基于以下协调指标:任务可分解性、子任务依赖关系、工具调用密度、所需推理深度。
在测试集上,模型能以87%的准确率预测最优策略。
更厉害的是,在GPT-5.2(论文发表后才出现的模型)上验证,预测误差仅0.071。这些scaling principle确实泛化到未见的前沿模型。
对组织设计的启示
这项研究虽然针对AI Agent,但对人类组织也有启发。
什么时候需要团队?什么时候单干更好?
- 可并行、相互独立的任务 → 团队协作有效
- 需要深度思考的序列化任务 → 一个人专注更好
- 团队协作需要有效的协调机制,否则内耗大于收益
这与管理学中的协调成本理论不谋而合。团队不是万能的,协调本身消耗资源。
实践指南
基于这项研究,给出四条建议:
- 先测单Agent基线:如果已经超过45%,慎加Agent
- 判断任务结构:可并行还是顺序?探索性还是推导性?
- 顺序推理坚持单Agent:CoT、数学证明、逻辑链条类任务
- 并行任务用Centralized:确保有协调者整合结果
结语
这篇论文不是反对多Agent系统,而是呼吁科学地选择架构。
"更多Agent更好"是个诱人的直觉,但数据告诉我们:任务驱动,而非技术驱动。
理解任务结构,选择匹配的架构,才能真正发挥Agent系统的潜力。
参考文献:Kim et al. (2025). Towards a Science of Scaling Agent Systems. arXiv:2512.08296.