✍️ 公众号文章

研究者

经/管/金融人

"更多Agent更好"是个神话：180个实验的真相

Google与华盛顿大学用180种配置实验证明:多Agent并非越多越强。单Agent基线超45%时加Agent收益递减;任务结构决定最优架构——可并行任务用中心化提升80%,顺序推理坚持单Agent,Independent架构错误放大17倍。

李学恒2026年2月3日3 分钟阅读#multi-agent#agent-architecture#llm#coordination#empirical-study

目录展开 ↓

Agent热潮中的迷思
研究设计：180种配置的系统性实验
发现一：45%阈值——何时加Agent是帮倒忙
发现二：任务结构决定最优架构
发现三：错误放大效应——Independent是最差选择
预测框架：87%准确率选择最优策略
对组织设计的启示
实践指南
结语

摘要：Agent系统是2025年的热门话题。很多人认为agent越多越强——一个不够加两个，两个不够加四个。但Google和华盛顿大学的最新研究用180种实验配置证明：这是个神话。任务结构决定最优架构，而非agent数量。本文解读这项研究的三大发现，并给出实践指南。

封面图

Agent热潮中的迷思

2024年底到2025年，Agent系统经历了爆发式增长。从AutoGPT到各种Multi-Agent框架，"让多个AI协作完成复杂任务"成为共识。

一个常见的假设是：Agent越多越强。

逻辑听起来很合理：一个人解决不了的问题，团队可以；一个Agent处理不了的任务，多个Agent应该行。

但真的是这样吗？

来自Google和华盛顿大学的研究团队用180种实验配置回答了这个问题。答案可能让你意外：不仅"越多越强"是神话，有时候多Agent反而会让性能暴跌39%到70%。

研究设计：180种配置的系统性实验

这项研究的核心是控制实验。研究者测试了5种架构：

Single-Agent：单个Agent独立工作
Independent：多个Agent各自为政，无协调
Centralized：一个中心协调者统筹多个执行者
Decentralized：无中心，Agent之间点对点协调
Hybrid：混合模式

这5种架构分别用3个主流LLM家族实例化，在4个benchmark上测试：金融分析、网页浏览、规划、综合任务。

5 × 3 × 多种配置 = 180种实验配置。

这不是随意的尝试，而是系统性的科学实验。

插图1

发现一：45%阈值——何时加Agent是帮倒忙

研究者发现了一个关键阈值：45%。

当单Agent的基线性能超过45%时，加更多Agent带来的收益开始递减，甚至变成负值。

这被称为Capability Saturation（能力饱和）效应。

为什么会这样？

当单Agent已经能解决近一半的任务时，剩下的难题往往需要深度推理，而非并行处理。这时候多Agent的协调开销反而成了负担——花在沟通上的资源本可以用于思考。

实践意义：在决定是否使用多Agent之前，先测试单Agent的基线。如果单Agent已经能做到45%以上，谨慎添加更多Agent。

发现二：任务结构决定最优架构

这是论文最重要的发现：不是Agent数量决定性能，而是任务结构与架构的匹配度。

可并行任务 → Centralized架构 → 性能提升80.8%
Web导航 → Decentralized架构 → 性能提升9.2%
顺序推理 → Single-Agent → 多Agent性能下降39-70%

可并行任务需要同时处理多个独立子问题。Centralized架构有一个协调者分配任务、整合结果，性能提升高达80%。

Web导航需要探索和适应。Decentralized架构让多个Agent自主探索不同路径，比集中控制更灵活。

顺序推理——比如数学证明、链式思考（Chain-of-Thought）——需要一步一步推导。这类任务天然是序列化的，多Agent架构全部失效。

这个发现是反直觉的。很多人认为"复杂任务需要多Agent"，但复杂的顺序推理恰恰需要单Agent的专注。

插图2

发现三：错误放大效应——Independent是最差选择

研究还揭示了不同架构对错误的处理差异：

Independent架构：错误放大 17.2倍
Centralized架构：错误放大 4.4倍

Independent架构（多个Agent各自为政）的错误放大最严重。一个Agent犯错，其他Agent没有纠正机制，错误累积传播。

Centralized架构有协调者把关，可以发现并纠正个别Agent的错误，将放大效应控制在4.4倍。

实践意义：如果必须用多Agent，优先选择有中心协调者的架构。避免让多个Agent完全独立运作。

插图3

预测框架：87%准确率选择最优策略

研究者还开发了一个预测模型，根据任务特征预测最优协调策略。

模型基于以下协调指标：任务可分解性、子任务依赖关系、工具调用密度、所需推理深度。

在测试集上，模型能以87%的准确率预测最优策略。

更厉害的是，在GPT-5.2（论文发表后才出现的模型）上验证，预测误差仅0.071。这些scaling principle确实泛化到未见的前沿模型。

对组织设计的启示

这项研究虽然针对AI Agent，但对人类组织也有启发。

什么时候需要团队？什么时候单干更好？

可并行、相互独立的任务 → 团队协作有效
需要深度思考的序列化任务 → 一个人专注更好
团队协作需要有效的协调机制，否则内耗大于收益

这与管理学中的协调成本理论不谋而合。团队不是万能的，协调本身消耗资源。

实践指南

基于这项研究，给出四条建议：

先测单Agent基线：如果已经超过45%，慎加Agent
判断任务结构：可并行还是顺序？探索性还是推导性？
顺序推理坚持单Agent：CoT、数学证明、逻辑链条类任务
并行任务用Centralized：确保有协调者整合结果

结语

这篇论文不是反对多Agent系统，而是呼吁科学地选择架构。

"更多Agent更好"是个诱人的直觉，但数据告诉我们：任务驱动，而非技术驱动。

理解任务结构，选择匹配的架构，才能真正发挥Agent系统的潜力。

参考文献：Kim et al. (2025). Towards a Science of Scaling Agent Systems. arXiv:2512.08296.