跳到主内容
✍️ 公众号文章
研究者
经/管/金融人

"更多Agent更好"是个神话:180个实验的真相

Google与华盛顿大学用180种配置实验证明:多Agent并非越多越强。单Agent基线超45%时加Agent收益递减;任务结构决定最优架构——可并行任务用中心化提升80%,顺序推理坚持单Agent,Independent架构错误放大17倍。

李学恒3 分钟阅读#multi-agent#agent-architecture#llm#coordination#empirical-study

摘要:Agent系统是2025年的热门话题。很多人认为agent越多越强——一个不够加两个,两个不够加四个。但Google和华盛顿大学的最新研究用180种实验配置证明:这是个神话。任务结构决定最优架构,而非agent数量。本文解读这项研究的三大发现,并给出实践指南。

封面图

Agent热潮中的迷思

2024年底到2025年,Agent系统经历了爆发式增长。从AutoGPT到各种Multi-Agent框架,"让多个AI协作完成复杂任务"成为共识。

一个常见的假设是:Agent越多越强

逻辑听起来很合理:一个人解决不了的问题,团队可以;一个Agent处理不了的任务,多个Agent应该行。

但真的是这样吗?

来自Google和华盛顿大学的研究团队用180种实验配置回答了这个问题。答案可能让你意外:不仅"越多越强"是神话,有时候多Agent反而会让性能暴跌39%到70%

研究设计:180种配置的系统性实验

这项研究的核心是控制实验。研究者测试了5种架构:

  • Single-Agent:单个Agent独立工作
  • Independent:多个Agent各自为政,无协调
  • Centralized:一个中心协调者统筹多个执行者
  • Decentralized:无中心,Agent之间点对点协调
  • Hybrid:混合模式

这5种架构分别用3个主流LLM家族实例化,在4个benchmark上测试:金融分析、网页浏览、规划、综合任务。

5 × 3 × 多种配置 = 180种实验配置

这不是随意的尝试,而是系统性的科学实验

插图1

发现一:45%阈值——何时加Agent是帮倒忙

研究者发现了一个关键阈值:45%

当单Agent的基线性能超过45%时,加更多Agent带来的收益开始递减,甚至变成负值。

这被称为Capability Saturation(能力饱和)效应

为什么会这样?

当单Agent已经能解决近一半的任务时,剩下的难题往往需要深度推理,而非并行处理。这时候多Agent的协调开销反而成了负担——花在沟通上的资源本可以用于思考。

实践意义:在决定是否使用多Agent之前,先测试单Agent的基线。如果单Agent已经能做到45%以上,谨慎添加更多Agent

发现二:任务结构决定最优架构

这是论文最重要的发现:不是Agent数量决定性能,而是任务结构与架构的匹配度

  • 可并行任务 → Centralized架构 → 性能提升80.8%
  • Web导航 → Decentralized架构 → 性能提升9.2%
  • 顺序推理 → Single-Agent → 多Agent性能下降39-70%

可并行任务需要同时处理多个独立子问题。Centralized架构有一个协调者分配任务、整合结果,性能提升高达80%

Web导航需要探索和适应。Decentralized架构让多个Agent自主探索不同路径,比集中控制更灵活。

顺序推理——比如数学证明、链式思考(Chain-of-Thought)——需要一步一步推导。这类任务天然是序列化的,多Agent架构全部失效

这个发现是反直觉的。很多人认为"复杂任务需要多Agent",但复杂的顺序推理恰恰需要单Agent的专注

插图2

发现三:错误放大效应——Independent是最差选择

研究还揭示了不同架构对错误的处理差异:

  • Independent架构:错误放大 17.2倍
  • Centralized架构:错误放大 4.4倍

Independent架构(多个Agent各自为政)的错误放大最严重。一个Agent犯错,其他Agent没有纠正机制,错误累积传播

Centralized架构有协调者把关,可以发现并纠正个别Agent的错误,将放大效应控制在4.4倍。

实践意义:如果必须用多Agent,优先选择有中心协调者的架构。避免让多个Agent完全独立运作。

插图3

预测框架:87%准确率选择最优策略

研究者还开发了一个预测模型,根据任务特征预测最优协调策略。

模型基于以下协调指标:任务可分解性、子任务依赖关系、工具调用密度、所需推理深度。

在测试集上,模型能以87%的准确率预测最优策略

更厉害的是,在GPT-5.2(论文发表后才出现的模型)上验证,预测误差仅0.071。这些scaling principle确实泛化到未见的前沿模型

对组织设计的启示

这项研究虽然针对AI Agent,但对人类组织也有启发。

什么时候需要团队?什么时候单干更好?

  • 可并行、相互独立的任务 → 团队协作有效
  • 需要深度思考的序列化任务 → 一个人专注更好
  • 团队协作需要有效的协调机制,否则内耗大于收益

这与管理学中的协调成本理论不谋而合。团队不是万能的,协调本身消耗资源。

实践指南

基于这项研究,给出四条建议:

  1. 先测单Agent基线:如果已经超过45%,慎加Agent
  2. 判断任务结构:可并行还是顺序?探索性还是推导性?
  3. 顺序推理坚持单Agent:CoT、数学证明、逻辑链条类任务
  4. 并行任务用Centralized:确保有协调者整合结果

结语

这篇论文不是反对多Agent系统,而是呼吁科学地选择架构

"更多Agent更好"是个诱人的直觉,但数据告诉我们:任务驱动,而非技术驱动

理解任务结构,选择匹配的架构,才能真正发挥Agent系统的潜力。


参考文献:Kim et al. (2025). Towards a Science of Scaling Agent Systems. arXiv:2512.08296.

related