跳到主内容
✍️ 公众号文章
研究者

当博弈论遇上大模型:一篇IJCAI综述揭示的4大研究前沿

IJCAI 2025综述梳理博弈论与大模型交叉的四大前沿:LLM在博弈中的行为评估、Shapley值可解释性、Nash均衡改进RLHF对齐、社会选择理论处理偏好异质,并展望LLM拓展博弈论研究边界。

李学恒4 分钟阅读#game-theory#llm#rlhf#shapley-value#nash-equilibrium

摘要:博弈论与大语言模型的交叉研究正在爆发——博弈论方法正在改进 LLM 的可解释性和对齐策略;LLM 也在推动博弈论向自然语言博弈扩展。这篇 IJCAI 2025 综述首次系统梳理了这一新兴领域的四大前沿。

封面图

LLM 在博弈环境中表现如何?

当我们把 ChatGPT 放进囚徒困境,会发生什么?

研究者们做了大量实验。结果出乎意料:LLM 比人类更爱合作。 在独裁者博弈中,它们愿意分给对方更多;在最后通牒博弈中,它们会因为不公平而拒绝方案。这种亲社会偏见贯穿各类模型

但这种合作倾向并不总是好事。LLM 偏离了博弈论理性,这让它们在零和博弈中表现糟糕。比如石头剪刀布——一个简单到不能再简单的游戏——LLM 无法学会随机出招。 它们的策略过于规律,容易被预测和利用。

在更复杂的社会博弈中,问题暴露得更明显:

  • 身份博弈(狼人杀、阿瓦隆):能进行递归推理,但角色一致性差,容易说漏嘴
  • 谈判协调:展现心智理论能力,但压力下回归自私策略
  • 经济博弈(竞价、拍卖):可能形成隐性串谋,风险评估能力弱
  • 棋牌博弈:基线模型战略缺陷显著,需要专门微调

一个有趣的发现是 LLM 对 prompt 措辞高度敏感。 同样的博弈场景,换一种描述方式,模型的策略可能完全不同。这让行为预测变得困难。

插图1

博弈论如何改进 LLM?

如果说上一节是博弈论在评估 LLM,这一节则是博弈论在帮助 LLM 变得更好。

用 Shapley 值理解黑箱

LLM 为什么做出某个决策?这是可解释性研究的核心问题。

博弈论提供了一个优雅的框架:把模型的每个组件看作合作博弈中的玩家,用 Shapley 值量化它们的贡献

这个方法揭示了一些令人不安的发现。比如换行符、空格等低语义 token,有时对模型决策的影响远超关键词。 这种 token 噪声现象说明模型的注意力机制可能存在问题。

Shapley 值的应用不止于此:

  • 输入归因:TokenSHAP 可以告诉你哪些词影响了输出
  • 数据估值:Data Shapley 帮你识别训练数据中的高价值样本
  • 模型压缩:通过贡献度分析,可以剪掉不重要的注意力头

插图2

用 Nash 均衡改进对齐

传统的 RLHF(人类反馈强化学习)有一个隐含假设:人类偏好是传递性的。 如果你喜欢 A 胜过 B,喜欢 B 胜过 C,那你一定喜欢 A 胜过 C。

现实没这么简单。人类偏好经常出现循环:A > B > C > A。这在偏好数据多样的情况下几乎必然发生。

NLHF(Nash Learning from Human Feedback)把对齐问题重新建模为双人零和博弈。 目标不再是最大化某个奖励函数,而是找到一个不会被持续击败的稳定策略——也就是 Nash 均衡。

这个框架的好处是不需要显式建模奖励函数,避免了 reward hacking 的风险。 后续发展出的 SPO、DNO、MPO 等方法都在这个思路上迭代。

用社会选择理论处理异质偏好

RLHF 的另一个问题是:它本质上是一个投票系统,受 Arrow 不可能定理约束

Arrow 定理告诉我们,不存在完美的投票规则。 任何把个体偏好聚合成群体决策的方法,都必然违反某些看起来很合理的公理。

研究者发现,传统 RLHF 使用的 Bradley-Terry 模型数学上等价于 Borda 计数投票规则,违反 Pareto 最优和 Condorcet 一致性等基本原则

解决方案包括:

  • MaxMin-RLHF:学习多个奖励模型,最大化最差群体的效用
  • Negotiative Alignment:让多个 AI 智能体通过议价协议达成一致
  • VPO:利用偏好强度信息,而不仅仅是偏好顺序

插图3

LLM 如何推进博弈论?

这是一个更前沿的方向:用 LLM 作为博弈论的研究工具

解决计算困难的博弈

很多博弈问题在理论上可解,但计算复杂度太高。LLM 可能提供一条新路径:直接从自然语言描述中理解博弈结构,生成近似解。

这对机制设计特别有价值。设计一个拍卖规则、一个投票机制,传统上需要大量数学推导。LLM 可以作为辅助工具,快速探索设计空间

从形式博弈到自然语言博弈

传统博弈论研究的都是形式化的博弈:收益矩阵、策略空间、均衡概念。但现实中的博弈很少以这种形式出现

LLM 让我们可以研究自然语言描述的博弈。 谈判、辩论、说服——这些人类日常进行的博弈,现在可以用 LLM 来模拟和分析。

这也意味着博弈论的边界正在扩展。 从数学模型走向更接近真实人类行为的研究。

对经济学研究的启示

对于做行为博弈论和网络经济学的研究者来说,这篇综述打开了几扇窗户:

LLM 作为实验被试。 行为经济学实验成本高、样本有限。如果 LLM 的行为模式与人类相似(至少在某些维度上),它们可以作为廉价的模拟被试,帮助预筛选实验设计

偏好异质性的新视角。 社会选择理论在 AI 对齐中的应用,提供了处理群体偏好分歧的新思路。 这对平台经济学中的多边市场设计有启发。

战略行为的涌现。 当多个 LLM 智能体在一个系统中交互,会涌现出什么样的合作或竞争动态?这本质上是一个网络博弈问题

写在最后

博弈论和 LLM 的交叉还处于早期阶段。这篇 IJCAI 2025 综述做了一个重要的工作:画出了地图

地图上有几块区域已经人满为患(比如用囚徒困境测试 LLM),也有大片空白等待探索(比如 LLM 辅助机制设计)。

对于研究者来说,这是好消息:低垂的果实还没被摘完

博弈论给 LLM 提供了评估工具和优化方法,LLM 给博弈论带来了新的研究对象和计算手段。学科交叉往往是创新的高发地带。 博弈论遇上大语言模型,正是这样一个地带。

参考来源

related