当博弈论遇上大模型:一篇IJCAI综述揭示的4大研究前沿
IJCAI 2025综述梳理博弈论与大模型交叉的四大前沿:LLM在博弈中的行为评估、Shapley值可解释性、Nash均衡改进RLHF对齐、社会选择理论处理偏好异质,并展望LLM拓展博弈论研究边界。
摘要:博弈论与大语言模型的交叉研究正在爆发——博弈论方法正在改进 LLM 的可解释性和对齐策略;LLM 也在推动博弈论向自然语言博弈扩展。这篇 IJCAI 2025 综述首次系统梳理了这一新兴领域的四大前沿。

LLM 在博弈环境中表现如何?
当我们把 ChatGPT 放进囚徒困境,会发生什么?
研究者们做了大量实验。结果出乎意料:LLM 比人类更爱合作。 在独裁者博弈中,它们愿意分给对方更多;在最后通牒博弈中,它们会因为不公平而拒绝方案。这种亲社会偏见贯穿各类模型。
但这种合作倾向并不总是好事。LLM 偏离了博弈论理性,这让它们在零和博弈中表现糟糕。比如石头剪刀布——一个简单到不能再简单的游戏——LLM 无法学会随机出招。 它们的策略过于规律,容易被预测和利用。
在更复杂的社会博弈中,问题暴露得更明显:
- 身份博弈(狼人杀、阿瓦隆):能进行递归推理,但角色一致性差,容易说漏嘴
- 谈判协调:展现心智理论能力,但压力下回归自私策略
- 经济博弈(竞价、拍卖):可能形成隐性串谋,风险评估能力弱
- 棋牌博弈:基线模型战略缺陷显著,需要专门微调
一个有趣的发现是 LLM 对 prompt 措辞高度敏感。 同样的博弈场景,换一种描述方式,模型的策略可能完全不同。这让行为预测变得困难。

博弈论如何改进 LLM?
如果说上一节是博弈论在评估 LLM,这一节则是博弈论在帮助 LLM 变得更好。
用 Shapley 值理解黑箱
LLM 为什么做出某个决策?这是可解释性研究的核心问题。
博弈论提供了一个优雅的框架:把模型的每个组件看作合作博弈中的玩家,用 Shapley 值量化它们的贡献。
这个方法揭示了一些令人不安的发现。比如换行符、空格等低语义 token,有时对模型决策的影响远超关键词。 这种 token 噪声现象说明模型的注意力机制可能存在问题。
Shapley 值的应用不止于此:
- 输入归因:TokenSHAP 可以告诉你哪些词影响了输出
- 数据估值:Data Shapley 帮你识别训练数据中的高价值样本
- 模型压缩:通过贡献度分析,可以剪掉不重要的注意力头

用 Nash 均衡改进对齐
传统的 RLHF(人类反馈强化学习)有一个隐含假设:人类偏好是传递性的。 如果你喜欢 A 胜过 B,喜欢 B 胜过 C,那你一定喜欢 A 胜过 C。
现实没这么简单。人类偏好经常出现循环:A > B > C > A。这在偏好数据多样的情况下几乎必然发生。
NLHF(Nash Learning from Human Feedback)把对齐问题重新建模为双人零和博弈。 目标不再是最大化某个奖励函数,而是找到一个不会被持续击败的稳定策略——也就是 Nash 均衡。
这个框架的好处是不需要显式建模奖励函数,避免了 reward hacking 的风险。 后续发展出的 SPO、DNO、MPO 等方法都在这个思路上迭代。
用社会选择理论处理异质偏好
RLHF 的另一个问题是:它本质上是一个投票系统,受 Arrow 不可能定理约束。
Arrow 定理告诉我们,不存在完美的投票规则。 任何把个体偏好聚合成群体决策的方法,都必然违反某些看起来很合理的公理。
研究者发现,传统 RLHF 使用的 Bradley-Terry 模型数学上等价于 Borda 计数投票规则,违反 Pareto 最优和 Condorcet 一致性等基本原则。
解决方案包括:
- MaxMin-RLHF:学习多个奖励模型,最大化最差群体的效用
- Negotiative Alignment:让多个 AI 智能体通过议价协议达成一致
- VPO:利用偏好强度信息,而不仅仅是偏好顺序

LLM 如何推进博弈论?
这是一个更前沿的方向:用 LLM 作为博弈论的研究工具。
解决计算困难的博弈
很多博弈问题在理论上可解,但计算复杂度太高。LLM 可能提供一条新路径:直接从自然语言描述中理解博弈结构,生成近似解。
这对机制设计特别有价值。设计一个拍卖规则、一个投票机制,传统上需要大量数学推导。LLM 可以作为辅助工具,快速探索设计空间。
从形式博弈到自然语言博弈
传统博弈论研究的都是形式化的博弈:收益矩阵、策略空间、均衡概念。但现实中的博弈很少以这种形式出现。
LLM 让我们可以研究自然语言描述的博弈。 谈判、辩论、说服——这些人类日常进行的博弈,现在可以用 LLM 来模拟和分析。
这也意味着博弈论的边界正在扩展。 从数学模型走向更接近真实人类行为的研究。
对经济学研究的启示
对于做行为博弈论和网络经济学的研究者来说,这篇综述打开了几扇窗户:
LLM 作为实验被试。 行为经济学实验成本高、样本有限。如果 LLM 的行为模式与人类相似(至少在某些维度上),它们可以作为廉价的模拟被试,帮助预筛选实验设计。
偏好异质性的新视角。 社会选择理论在 AI 对齐中的应用,提供了处理群体偏好分歧的新思路。 这对平台经济学中的多边市场设计有启发。
战略行为的涌现。 当多个 LLM 智能体在一个系统中交互,会涌现出什么样的合作或竞争动态?这本质上是一个网络博弈问题。
写在最后
博弈论和 LLM 的交叉还处于早期阶段。这篇 IJCAI 2025 综述做了一个重要的工作:画出了地图。
地图上有几块区域已经人满为患(比如用囚徒困境测试 LLM),也有大片空白等待探索(比如 LLM 辅助机制设计)。
对于研究者来说,这是好消息:低垂的果实还没被摘完。
博弈论给 LLM 提供了评估工具和优化方法,LLM 给博弈论带来了新的研究对象和计算手段。学科交叉往往是创新的高发地带。 博弈论遇上大语言模型,正是这样一个地带。
参考来源:
- Game Theory Meets Large Language Models: A Systematic Survey (arXiv:2502.09053)
- IJCAI 2025 Proceedings