✍️ 公众号文章

研究者

当博弈论遇上大模型：一篇IJCAI综述揭示的4大研究前沿

IJCAI 2025综述梳理博弈论与大模型交叉的四大前沿：LLM在博弈中的行为评估、Shapley值可解释性、Nash均衡改进RLHF对齐、社会选择理论处理偏好异质，并展望LLM拓展博弈论研究边界。

李学恒2026年2月3日4 分钟阅读#game-theory#llm#rlhf#shapley-value#nash-equilibrium

目录展开 ↓

LLM 在博弈环境中表现如何？
博弈论如何改进 LLM？
用 Shapley 值理解黑箱
用 Nash 均衡改进对齐
用社会选择理论处理异质偏好
LLM 如何推进博弈论？
解决计算困难的博弈
从形式博弈到自然语言博弈
对经济学研究的启示
写在最后

摘要：博弈论与大语言模型的交叉研究正在爆发——博弈论方法正在改进 LLM 的可解释性和对齐策略；LLM 也在推动博弈论向自然语言博弈扩展。这篇 IJCAI 2025 综述首次系统梳理了这一新兴领域的四大前沿。

封面图

LLM 在博弈环境中表现如何？

当我们把 ChatGPT 放进囚徒困境，会发生什么？

研究者们做了大量实验。结果出乎意料：LLM 比人类更爱合作。在独裁者博弈中，它们愿意分给对方更多；在最后通牒博弈中，它们会因为不公平而拒绝方案。这种亲社会偏见贯穿各类模型。

但这种合作倾向并不总是好事。LLM 偏离了博弈论理性，这让它们在零和博弈中表现糟糕。比如石头剪刀布——一个简单到不能再简单的游戏——LLM 无法学会随机出招。它们的策略过于规律，容易被预测和利用。

在更复杂的社会博弈中，问题暴露得更明显：

身份博弈（狼人杀、阿瓦隆）：能进行递归推理，但角色一致性差，容易说漏嘴
谈判协调：展现心智理论能力，但压力下回归自私策略
经济博弈（竞价、拍卖）：可能形成隐性串谋，风险评估能力弱
棋牌博弈：基线模型战略缺陷显著，需要专门微调

一个有趣的发现是 LLM 对 prompt 措辞高度敏感。同样的博弈场景，换一种描述方式，模型的策略可能完全不同。这让行为预测变得困难。

插图1

博弈论如何改进 LLM？

如果说上一节是博弈论在评估 LLM，这一节则是博弈论在帮助 LLM 变得更好。

用 Shapley 值理解黑箱

LLM 为什么做出某个决策？这是可解释性研究的核心问题。

博弈论提供了一个优雅的框架：把模型的每个组件看作合作博弈中的玩家，用 Shapley 值量化它们的贡献。

这个方法揭示了一些令人不安的发现。比如换行符、空格等低语义 token，有时对模型决策的影响远超关键词。这种 token 噪声现象说明模型的注意力机制可能存在问题。

Shapley 值的应用不止于此：

输入归因：TokenSHAP 可以告诉你哪些词影响了输出
数据估值：Data Shapley 帮你识别训练数据中的高价值样本
模型压缩：通过贡献度分析，可以剪掉不重要的注意力头

插图2

用 Nash 均衡改进对齐

传统的 RLHF（人类反馈强化学习）有一个隐含假设：人类偏好是传递性的。如果你喜欢 A 胜过 B，喜欢 B 胜过 C，那你一定喜欢 A 胜过 C。

现实没这么简单。人类偏好经常出现循环：A > B > C > A。这在偏好数据多样的情况下几乎必然发生。

NLHF（Nash Learning from Human Feedback）把对齐问题重新建模为双人零和博弈。目标不再是最大化某个奖励函数，而是找到一个不会被持续击败的稳定策略——也就是 Nash 均衡。

这个框架的好处是不需要显式建模奖励函数，避免了 reward hacking 的风险。后续发展出的 SPO、DNO、MPO 等方法都在这个思路上迭代。

用社会选择理论处理异质偏好

RLHF 的另一个问题是：它本质上是一个投票系统，受 Arrow 不可能定理约束。

Arrow 定理告诉我们，不存在完美的投票规则。任何把个体偏好聚合成群体决策的方法，都必然违反某些看起来很合理的公理。

研究者发现，传统 RLHF 使用的 Bradley-Terry 模型数学上等价于 Borda 计数投票规则，违反 Pareto 最优和 Condorcet 一致性等基本原则。

解决方案包括：

MaxMin-RLHF：学习多个奖励模型，最大化最差群体的效用
Negotiative Alignment：让多个 AI 智能体通过议价协议达成一致
VPO：利用偏好强度信息，而不仅仅是偏好顺序

插图3

这也意味着博弈论的边界正在扩展。从数学模型走向更接近真实人类行为的研究。

对经济学研究的启示

对于做行为博弈论和网络经济学的研究者来说，这篇综述打开了几扇窗户：

LLM 作为实验被试。行为经济学实验成本高、样本有限。如果 LLM 的行为模式与人类相似（至少在某些维度上），它们可以作为廉价的模拟被试，帮助预筛选实验设计。

偏好异质性的新视角。社会选择理论在 AI 对齐中的应用，提供了处理群体偏好分歧的新思路。这对平台经济学中的多边市场设计有启发。

战略行为的涌现。当多个 LLM 智能体在一个系统中交互，会涌现出什么样的合作或竞争动态？这本质上是一个网络博弈问题。

写在最后

博弈论和 LLM 的交叉还处于早期阶段。这篇 IJCAI 2025 综述做了一个重要的工作：画出了地图。

地图上有几块区域已经人满为患（比如用囚徒困境测试 LLM），也有大片空白等待探索（比如 LLM 辅助机制设计）。

对于研究者来说，这是好消息：低垂的果实还没被摘完。

博弈论给 LLM 提供了评估工具和优化方法，LLM 给博弈论带来了新的研究对象和计算手段。学科交叉往往是创新的高发地带。博弈论遇上大语言模型，正是这样一个地带。

参考来源：

当博弈论遇上大模型：一篇IJCAI综述揭示的4大研究前沿

LLM 在博弈环境中表现如何？

博弈论如何改进 LLM？

用 Shapley 值理解黑箱

用 Nash 均衡改进对齐

用社会选择理论处理异质偏好

LLM 如何推进博弈论？

解决计算困难的博弈

从形式博弈到自然语言博弈

对经济学研究的启示

写在最后

微观理论经济学家 Ben Golub 论经济学研究中的 AI 应用

相同的人，不同的命运：Sanjeev Goyal 的网络经济学

"更多Agent更好"是个神话：180个实验的真相

相关阅读

微观理论经济学家 Ben Golub 论经济学研究中的 AI 应用

相同的人，不同的命运：Sanjeev Goyal 的网络经济学

"更多Agent更好"是个神话：180个实验的真相

相关标签