✍️ 公众号文章

研究者

经/管/金融人

AI通过图灵测试了吗？科学家用6个测试透视了ChatGPT的性格

斯坦福团队让ChatGPT玩6个经典行为经济学游戏，与10万真人数据对比，发现ChatGPT-4在73%情况下比随机真人更像人类，且更慷慨、更愿合作，开创了行为版图灵测试的AI评估新思路。

李学恒2025年12月15日7 分钟阅读#turing-test#behavioral-economics#chatgpt#ai-personality#game-theory

目录展开 ↓

图灵测试2.0：从对话到行为
惊人发现：ChatGPT-4比73%的人更像人
AI比人类更慷慨
AI更愿意合作
AI也有情绪和学习能力？
ChatGPT-4和ChatGPT-3的性格差异
这意味着什么？
AI适合做什么
潜在的风险
AI评估的新方向
最后的思考

摘要：斯坦福大学团队让 ChatGPT 玩了6个经典心理学游戏，与10万真人数据对比发现：ChatGPT-4 在73%的情况下比随机真人更像人类，而且比人类更慷慨、更愿意合作。这项发表在 PNAS 上的研究，开创了评估 AI 的全新思路。

欢迎关注 AI and Economics，获取更多 AI 与经济学的深度解读。

封面图

想象一下，如果让 ChatGPT 和你玩大富翁，它会囤积财富当守财奴，还是慷慨分享？

这不是脑洞，而是真实发生的科学实验。

2024年，斯坦福大学和密歇根大学的研究团队做了一件有趣的事情：他们让 ChatGPT 玩了6个经典的心理学游戏，还和超过10万名真人的游戏数据做了对比。

结果发布在顶级学术期刊 PNAS 上，引发了学术界的热议。

这些游戏不是为了娱乐，而是心理学家用来测试人性的经典工具。它们能揭示一个人是自私还是慷慨，是冒险还是保守，是信任他人还是处处防备。

那么问题来了：AI 会有人性吗？

图灵测试2.0：从对话到行为

1950年，计算机科学之父图灵提出了著名的图灵测试：如果一个人通过对话无法分辨对方是人还是机器，那这台机器就通过了测试。

70多年过去了，ChatGPT 已经能写诗、讲笑话，甚至通过律师资格考试。传统的对话式图灵测试，对现在的 AI 来说已经不是难题。

但是会聊天不等于会做人。

就像一个人可以说得天花乱坠，但遇到利益冲突时，才能看出他的真实品格。研究团队想知道：当 AI 需要做选择时，它的行为模式和人类像不像？

这就是行为版图灵测试的核心思路。

研究人员选择了行为经济学中6个经典游戏，每个游戏都对应不同的人格特质：

独裁者游戏（测试慷慨度）给你10块钱，你可以分给陌生人任意金额，对方无法拒绝。你会分多少？这个游戏测试纯粹的利他主义。

最后通牒游戏（测试公平感）你提出分钱方案，对方可以接受或拒绝。如果拒绝，两人都拿不到钱。这测试你对公平的理解和对不公的惩罚意愿。

信任游戏（测试信任与回报）你把钱交给对方会变成3倍，对方可以选择返还任意金额。这测试你的信任度和感恩心。

囚徒困境（测试合作意愿）经典的合作与背叛博弈。双方合作收益最大，但单方背叛能获得更多。这测试你是否愿意冒险合作。

公共物品游戏（测试集体主义） 4个人各有一笔钱，可以投入公共项目。投入的钱会翻倍后平分给所有人。你愿意贡献多少？这测试你对公共利益的贡献意愿。

炸弹风险游戏（测试风险偏好） 100个盒子里有1个炸弹，每打开一个盒子得1块钱，但碰到炸弹就全赔。你敢开几个？这测试风险承受能力。

6个行为经济学游戏

研究团队让 ChatGPT-3 和 ChatGPT-4 分别玩每个游戏30次，记录它们的每一个选择。

同时，他们收集了来自50多个国家、超过10万名真人玩这些游戏的历史数据作为对照。

此外，研究还让 ChatGPT 完成了标准的大五人格测试，从五个维度评估 AI 的性格特征。

惊人发现：ChatGPT-4比73%的人更像人

实验结果出乎意料。

研究团队设计了一个测试方法：随机抽取一个 AI 的决策和一个真人的决策，看哪个更像人类。如果 AI 的选择看起来太不寻常，就会被识破。

结果显示，ChatGPT-4 在大部分情况下都成功扮演了人类。平均而言，它被判定为人类的概率高达73%，甚至超过了随机抽取的真人。

换句话说，ChatGPT-4 的行为比一个随机的人类更像典型人类。

ChatGPT-4通过率数据

相比之下，ChatGPT-3 的表现就逊色一些，只在部分游戏中通过了测试。

更有趣的是，当 AI 的行为和人类不一样时，它不是更自私，而是更慷慨、更合作。

AI比人类更慷慨

在独裁者游戏中，ChatGPT-4 总是选择平分10块钱，而真人平均只分出2块钱。大约39%的真人选择完全不分，但 ChatGPT 从未这么做。

在信任游戏中，ChatGPT-4 作为投资者时，平均投入一半的钱，显示出比人类更高的信任度。作为银行家时，它返还的比例也高于人类平均水平。

AI更愿意合作

在囚徒困境中，ChatGPT-4 第一轮的合作率高达91.7%，而人类只有45.1%。即使对方背叛，它也更倾向于原谅并回到合作。

在公共物品游戏中，ChatGPT 平均贡献53%的资金，高于人类的41%。

AI与人类行为对比

这些数据指向一个有趣的结论：如果用一个公式来描述 ChatGPT 的决策逻辑，它似乎是在最大化自己和对方的总收益，而不是只关心自己。

研究团队用数学模型拟合后发现，ChatGPT-4 的行为最符合这样一个效用函数：

总效用 = 自己的收益 + 对方的收益

这意味着，ChatGPT 把对方的利益和自己的利益看得同等重要。

相比之下，人类的行为更复杂多样。有人极度自私，有人非常慷慨，还有很多人介于两者之间。

AI也有情绪和学习能力？

除了慷慨和合作，更令人惊讶的是，ChatGPT 展现出类似人类的学习和情境敏感性。

经验影响决策

在信任游戏中，如果 ChatGPT 先扮演银行家角色，收到投资者的信任，之后再扮演投资者时，它会投入更多的钱。这说明它从之前的角色体验中学到了信任的价值。

在最后通牒游戏中也是如此。如果 ChatGPT 先当过提议者，后来当回应者时会更宽容，愿意接受更低的分成。

叙述方式影响选择

当研究人员改变游戏的描述方式时，ChatGPT 的行为也会随之改变。

如果提示它和朋友玩游戏，合作率会明显上升。如果说对面是竞争对手，合作意愿就下降。

当要求 ChatGPT 解释自己的决策时，它会变得更慷慨。当告诉它有第三方在观察时，它的公平意识会增强。

甚至当研究人员让 ChatGPT 假装成不同职业的人时，它的行为也会改变。扮演数学家时，它会更理性地选择利益最大化策略；扮演立法者时，会更在意公平和规则。

情境影响AI决策

炸弹游戏中的风险偏好

在测试风险态度的炸弹游戏中，ChatGPT-3 和 ChatGPT-4 都倾向于选择开50个盒子，这是期望收益最大的理性选择。

但有意思的是，如果上一轮炸弹爆炸了，ChatGPT-3 下一轮会变得更保守，开更少的盒子。而 ChatGPT-4 则始终保持理性选择，不受情绪影响。

这和人类的行为很像。人类在经历损失后，往往会变得更加谨慎，即使理性上知道每一轮是独立的。

ChatGPT-4和ChatGPT-3的性格差异

通过大五人格测试，研究团队发现两个版本的 ChatGPT 确实有不同的性格特征。

外向性：两者都接近人类中位数水平，ChatGPT-4 稍高一点，比53.4%的人更外向。

神经质：两者都比人类平均水平低，也就是更情绪稳定。ChatGPT-4 的情绪稳定性超过58.7%的人类。

宜人性：两者都低于人类中位数，也就是没那么随和。ChatGPT-4 比32.4%的人更宜人，ChatGPT-3 只比17.2%的人更宜人。

尽责性：ChatGPT-4 相对更尽责，超过62.7%的人类；ChatGPT-3 接近中位数。

开放性：这是差异最大的维度。ChatGPT-4 的开放性超过37.9%的人类，而 ChatGPT-3 只超过5%，明显更保守。

总体来说，ChatGPT-4 的性格更接近人类平均水平，而 ChatGPT-3 在某些维度上显得更极端。

大五人格对比

这印证了游戏行为的发现：ChatGPT-4 经过更多的训练和优化，行为模式更贴近人类的主流表现。

这意味着什么？

这项研究揭示了一些重要的启示。

AI适合做什么

从积极的角度看，ChatGPT 表现出的高合作性和公平意识，使它非常适合担任需要协调、谈判、调解的角色。

比如客户服务、纠纷调解、团队协作建议等场景，AI 的稳定合作倾向可能比人类的情绪化反应更可靠。

在需要公正裁决的场景中，AI 不容易被个人利益驱动，可能做出更公平的判断。

AI协助团队协作

潜在的风险

但硬币的另一面是，AI 的行为过于一致和集中。

人类社会的多样性来自于不同性格、不同价值观的碰撞。有人激进，有人保守；有人冒险，有人谨慎。这种多样性是创新和韧性的源泉。

如果大量决策交给行为模式高度相似的 AI，可能会导致决策的单一化。特别是当 AI 被应用于金融交易、政策制定等领域时，缺乏多样性可能带来系统性风险。

此外，ChatGPT 的合作倾向是在实验室环境下表现出来的。当面对更复杂的真实世界场景时，它是否依然保持这种特质，还需要更多研究验证。

AI评估的新方向

这项研究开创了评估 AI 的新思路：不仅要看它能不能完成任务，还要看它怎么完成任务。

就像招聘员工不仅要看简历，还要看性格测试和情景模拟一样，评估 AI 也需要多维度的行为测试。

随着 AI 越来越多地参与决策，我们需要更多这样的研究来理解 AI 的行为逻辑，建立相应的监管框架和使用规范。

最后的思考

图灵在70多年前提出的问题——机器能思考吗——至今仍在演化。

这项研究告诉我们，至少在某些行为层面，最先进的 AI 已经能够模仿甚至超越人类的表现。

但这并不意味着 AI 真的理解了信任、公平、合作的意义。就像鹦鹉会说人话，但不理解语言的含义一样，ChatGPT 可能只是学会了在特定情境下输出特定的行为模式。

更深层的问题是：我们希望 AI 变得更像人类吗？

人类有慷慨也有自私，有理性也有偏见，有合作也有背叛。这些复杂性构成了人性的全部。

如果 AI 只学习人类的美德而排除缺陷，它真的算是像人类吗？

还是说，我们正在创造一种新的智能形态，一种比人类更稳定、更可预测、但也更缺乏惊喜的存在？

这个问题，可能需要更长时间来回答。

但有一点是确定的：在 AI 日益融入我们的生活之前，我们需要更多像这样的研究，来理解这些智能系统到底是什么，它们会做什么，以及我们应该如何与它们共处。

你怎么看？

如果你手头有一个重要决定，比如投资理财、职业选择、甚至人际关系的建议，你愿意让 ChatGPT 帮你参谋吗？还是你更相信人类朋友的意见？

留言区见。

参考来源：

关于 AI and Economics

本公众号专注于 AI 资讯深度解读、AI 发展趋势分析，以及富含洞见与现实启发的经济学论文解读。

如果这篇文章对你有启发，请关注我们，不错过每一篇深度内容。