✍️ 公众号文章

研究者

AI文献综述哪家强

对比五个旗舰大模型写社会偏好中文文献综述的表现，核查上千条引用后发现：Claude与DeepSeek几乎零幻觉，GPT克制但篇幅不足，GLM和Kimi幻觉率高；模型差距小于工作流差距，联网核查、多智能体隔离与DOI反查是降幻觉关键。

李学恒2026年5月8日8 分钟阅读#literature-review#multi-agent#hallucination#citation-verification#llm-comparison

目录展开 ↓

测试方法
先说结论
第一档：Claude 和 DeepSeek
第二档：其他三家各有所短
GPT-5.5：最干净，但断档
GLM-5.1：字数多、覆盖面广，但幻觉最多
Kimi K2.6：和 GLM 同病，错法更隐蔽
工作流比模型更值得花时间
选型建议
这次实验真正的发现

你肯定也有过这个瞬间。

让大模型帮你写一段文献综述，三十秒出稿，引用格式像模像样：作者、年份、期刊、DOI，一应俱全。你刚想松一口气，突然心里发毛：这几篇文献到底存不存在？

然后你打开 Google Scholar，一条一条查。半小时后，20 条引用里有 6 条查不到。你把假的全删掉，留下的那些你也不确定。看起来是对的，但万一呢？最后你花了三个小时核查一篇 AI 三十秒写完的东西，心态崩了。

这不是你一个人的困境。过去一年，几乎每个用 AI 辅助写作的科研同行都踩过这个坑。文献综述是大模型写作里幻觉最密集的场景。

所以我们做了一件你可能也想做但没时间做的事：把市面上五个旗舰大模型放进同一个任务：写一篇关于社会偏好（Social preferences）的中文文献综述，自带 BibTeX，能跑出 PDF。然后用 Zotero 本地库 + CrossRef + OpenAlex，把五份稿子里一千多条引用一条一条核了。

结论不是又一个最强推理模型排行榜，而是一份操作手册：哪个模型搭配什么工作流，能把假引用数量降到最少。

Screenshot 2026-05-07 at 9.11.58 PM.png

测试方法

我们比较了当前最新的五家旗舰模型：

Anthropic 的 Claude Opus 4.7
DeepSeek 的 DeepSeek-v4-pro
OpenAI 的 GPT-5.5
GLM 的 GLM-5.1
Kimi 的 Kimi K2.6

五个模型跑在三个平台上：

GPT 5.5 跑在 Codex 里
Kimi K2.6 跑在 OpenCode 里
Claude Opus 4.7、DeepSeek-v4-pro、GLM-5.1 三家跑在 Claude Code 里

但平台差异不是重点。重点是所有模型获得了相同的权限，也收到了相同的策略指引：都可以调用通用网络搜索工具（Google Scholar、CrossRef、OpenAlex 等），也都被提示要自主规划工作流，分多个阶段、调动多个智能体来完成这个任务。 不是让模型自己去生成一篇综述，而是让它自己决定怎么写、怎么查、怎么审。我们只给了边界条件。

原提示词只有一句话：

/do-agent 写一篇系统专业的关于社会偏好的文献综述综述。要求语言：简体中文。最后要生成完整的tex和bibtex文件并测试生成pdf直至修复所有错误。

五家各自拆解任务的方式不同：有的调了 200 多次 API，有的不到 30 次，后面会细说。

先说结论

深度 × 可靠性 × 篇幅

我们考虑两个维度：深度以引用文献数衡量，可靠性以错误引用数量衡量，看上图。

一眼看去，似乎能排个一二三名。但仔细看，右下角挤了两家，左下角窝了一家，右上角塞了两家。

右下区域：Claude 和 DeepSeek 在这个区域，覆盖的文献既多，同时引用错误为零（DeepSeek 有 1 条漏网）。
左下区域：GPT 单独一家，引用错误为零，但篇幅只有第一档的一半。
右上区域：GLM 和 Kimi 生成的文献综述字多，但错得也多。

两档之间有一道明显的台阶。 第一档是 Claude 和 DeepSeek，既深又准；第二档是另外三家，要么浅，要么不准。

第一档：Claude 和 DeepSeek

先说 Claude。拿到它的稿子第一反应是扎实。三个层面都扎实：

第一，篇幅够。27 页、约 13000 字、104 条文献，五家里最长的一档。

第二，深度够。理论谱系铺得最完整：Fehr-Schmidt 的 n 人推广、ERC 动机函数、Rabin 善意函数、Charness-Rabin 的 $\rho$ - $\sigma$ 参数化、Dufwenberg-Kirchsteiger 序贯互惠，公式都写对，符号一致。心理博弈论、社会身份、社会规范都独立成节，不是点到为止的那种。

第三，也是最关键的，引用全部可靠。104 条文献在外部库全部能匹配，0 条幻觉，DOI 抽检全过。

到这里，Claude 看起来几乎没有硬伤，但还有一个问题，待会儿说。

Screenshot 2026-05-07 at 9.12.13 PM.png

如果 Claude 是稳，DeepSeek 的特点是新：

比 Claude 还长：20000 字、92 条文献，文献时间线追到了 2025 年的 Fehr-Charness JEL、Almas、von Schenk 等大模型与经济学交叉的最新研究，而且不是装饰性引用。正文里真有讨论。代价是多了一条漏网之鱼的错误引用：Krupka 名下一篇 2016 年的 Social Norms and Identity Dependent Preferences，CrossRef 反查不到。

这两家的共同点不在模型本身的能力，而在于愿意做三件事：

肯调工具联网核查：CrossRef、OpenAlex、Google Scholar，真去查了。两家在生成文献阶段都能看到 API 调用日志，不是装样子。
肯交叉验证：同一条引用在多个源里对一遍。比如一条 Charness-Rabin 2002，CrossRef 拿一次、OpenAlex 拿一次，两个返回字段不一致就标黄。
肯把不确定的引用主动标注或剔掉。Claude 这点做得最干净，DeepSeek 也只剩 1 条漏网。

这三件事，说到底就一个原则：愿不愿意把不知道的事情说成不知道，是大模型可靠性的第一道分水岭。

但 Claude 有一个绕不开的短板：中文表达。它的翻译腔在五家里最重。张嘴就是 用某某框架、拿某某来看、可以看出，长句套长句，定语堆成山，术语像是从英文直译过来的。读起来像一份英文综述过了一遍翻译软件，语法挑不出错，但节奏完全不是中文。说白了，它把英文句式原样搬了进来，in the framework of 硬转成 在……的框架下，字字对应，读着当然别扭。

DeepSeek 反而更顺。这里有个现实的组合策略：让 Claude 写骨架，让 DeepSeek 或 GPT 改中文，后面会再细说。

第一档的两家，强在愿意查、愿意审。第二档的三家，各有各的问题：

第二档：其他三家各有所短

GPT-5.5：最干净，但断档

GPT 是这轮测试里最克制的一个：50 条文献、0 条幻觉、9000 字。宁可不写，也不编。

甚至在做完了还要自己核查一遍。比如它主动发现 List (2007) 的期刊写错了，应该是 JPE 而不是 Econometrica，自己改过来了。Bursztyn-Jensen (2017) 那条也是，应该是 ARE 不是 JEP，也是自己抓的。这两条错误和后面要讲的 Kimi 那种 DOI 与文献不匹配的情况一样危险，GPT 自己把它们纠正了。

但克制过头就成了短板。综述需要用篇幅换深度，9000 字撑不起。GPT 的稿子大概是 Claude 的七成、GLM 和 Kimi 的三成；50 条文献不到 Claude 的一半。2020 年以后社会偏好领域几个重要方向，如内生规范、大模型中介合作、数字平台实验，几乎没碰。好几个小节都只有一两段话，更像一份文献清单和框架大纲，缺少深入分析。

所以 GPT 这一份，适合写短摘要，或用来把关引文清单；不适合直接拿来当综述。

GLM-5.1：字数多、覆盖面广，但幻觉最多

134 条引用、15 条幻觉、30000 字。字数和文献量都是五家最多，但 GLM 的问题不只是编，而是编了之后还在多个层面连环掉链子。

先看编了什么。典型案例是 karlan2007does：标题 “Does trust in business partner affect investment and risk taking?”，CrossRef 完全搜不到，相似度最高的匹配竟然是一篇 BRCA 乳腺癌论文。Karlan 做的是发展经济学的信用市场实验，从没写过这种题目。一个写社会偏好综述的模型，列了一条乳腺癌论文当引用。而且这条在正文被引了 3 次。

不止编造，更离谱的是大面积虚空引用。另一个案例是 Alós-Ferrer 那条疑似纯虚构的综述，GLM 在正文里引了 9 次当权威背书来用。一篇可能根本不存在的论文，支撑着 9 处论证。

不止虚空引用。它 134 条文献里有 49 条（超过三分之一）正文里根本没出现过，用来凑数。再加上引用键风格中途从 fehr1999theory 漂到 henrich_search_2001b。这说明它的引用列表可能是多个子系统各自生成、最后拼在一起的，像一份 Word 文档被好几个人改过但没人统稿。

Kimi K2.6：和 GLM 同病，错法更隐蔽

Kimi 和 GLM 确实同病：82 条引用里 14 条有问题，错误密度 17%，比 GLM 的 11% 还高。但错法不一样。GLM 是纯编，Kimi 是套牌。在大模型手里，看上去严谨和真的严谨，完全可以是两回事。

怎么个套牌法？它的 DOI 全是真的，每一条都能解析。问题是 DOI 解析出来的真实文献，跟文献里写的标题、作者完全不是同一篇。最具代表性的是 Baumgartner 2008 Neuron 那条催产素与信任的脑成像论文：DOI 一点开，跳出来的是同一年 Neuron 上另一篇完全无关的论文，写癫痫脑里的星形胶质细胞。而 Baumgartner 这篇催产素论文本身是真实存在的，标题、作者都对得上，只是 DOI 挂错了。

类似的还有 crockett2022serotonin：DOI 指向的是一份利益冲突遗漏勘误公告，不是综述本身，却当神经经济学证据用了 3 次。

这种用 DOI 凑数的幻觉 比纯虚构还隐蔽：肉眼瞄很像样，常规审稿抽查也很难发现，必须拉元数据反查才能识破。Kimi 的 DOI 完整率 87%，跟 GPT 的 88% 差不多，看上去甚至更专业。但通过率却是五家最低的。

五家跑下来，最好的 0 幻觉，最差的 17%。同一个任务，差距为什么这么大？答案不在模型本身。

工作流比模型更值得花时间

大模型不借助任何外部工具直接生成文献，幻觉率通常在三到四成。但这次五家跑下来，最低 0%，最高 17%。和过去一两年的三到四成相比，整体降到了 17% 以下。

整体错误率下降的功劳不在模型，在工作流。

具体是哪几件事在起作用：

工作流降幻觉：联网核查 + 多智能体隔离 + 多阶段修订

这张图画出了关键：三件事，环环相扣：

联网工具调用。这是基础。Google Scholar、OpenAlex、CrossRef 这些 API 就放在那里，模型肯不肯查是关键。Claude 和 DeepSeek 肯查，Kimi 和 GLM 在催字数压力下经常跳过。我们这次跑的脚本里，Claude 在写社会偏好综述时调用了 200 多次外部 API；GLM 同样的任务只调用了不到 30 次。
多智能体隔离。这是关键。写作智能体和核查智能体分开。让模型自我审查，等于让学生自己批自己的卷子；让另一个智能体来审，效果完全不一样。同一份草稿让 Kimi 自查只剩 5 条幻觉，让独立审阅智能体拉外部库审，剩下 14 条全部抓出来。
多阶段流水线。这是骨架。草稿 → 引用核查 → 修订，把生成引用 和 验证引用 切成两步，幻觉就有机会被截在中间。这一步看起来鸡肋，但和前两条配合，能把原本 17% 的错误率压到 2% 以下。

三件事各有各的分量。联网是基础，隔离是关键，多阶段流水线把前两者串起来。

按常理说，模型越强，输出越靠谱。但这次测试说明：模型强不等于输出靠谱。还得看工作流。一个肯老老实实查工具的弱模型，可能比一个自负的强模型更靠谱；工作流可以放大模型差距，也可以压缩它。同一个 Kimi 配上严格的引用核查脚本，最后稿子可能比不用核查的 Claude 更可靠；同一个 Claude 配上不许联网 的指令，可能也会编。

说了这么多，落到实操层面，不用像我们实验那么复杂。同行日常写综述，三步就够了：

第一步：让模型给出每条引用的 DOI。直接在提示词里要求“每条文献必须带 DOI，没有 DOI 的条目删除”。这一步会逼模型自己挑只敢出 DOI 的引用，幻觉密度立刻降一档。Claude 那种所有文献都不带 DOI 的稿子也别接受。格式不合格。

第二步：用 CrossRef 或 OpenAlex 自动核对每条引用。思路很简单：拿每条引用的 DOI 去 CrossRef 反查真实标题，跟你的引用标题比对。标题相似度低于 0.6 的全部标红，专治 Kimi 那种 DOI 与文献不匹配的情况。低于 0.85 但 DOI 对得上的，挑出来人工再看一眼。Zotero 有现成的 DOI 校验插件，会用 Python 的话几行代码也能搞定。十几分钟跑完 100 条。

第三步：标红的条目扔回模型让它重写或删除。不要试图自己改。把标红条目和原始字段一起放进提示词，喂给它，要求“按 CrossRef 反查到真实标题重写，无法对应整条删掉”，几次往返就收尾了。

选型建议

你想要	选
一份能直接用的中等长度综述	Claude（再让 GPT 或 DeepSeek 改一遍中文）
长篇覆盖、能接受手工核查	DeepSeek，或 GLM 配核查脚本
短摘要、零容忍引用错误	GPT

最稳的组合工作流，目前看是 Claude 写骨架 + DeepSeek 或 GPT 改中文。前者负责理论深度和引用真实性，后者负责把翻译腔那一层去掉。两步流，比单家直出干净一档。

这次实验真正的发现

跑完五家、核完一千多条引用，我最意外的不是哪家最强，是另一件事：

模型之间的差距比想象中小，工作流之间的差距比想象中大。

Claude 和 Kimi 在很多常见评测基准上分数其实差不多，但在这种需要调工具、被另一个智能体审一道、肯把不确定的东西删掉的任务上，差距能拉出一倍。大模型写文献综述的可靠性，几乎可以用两件事来预测：愿不愿意联网，愿不愿意被另一个智能体审一道。

让模型自己背书自己，不如让另一个智能体背书它。

这是这次实验我会带走的那句话。下次再有人问哪个模型写综述靠谱，我大概不会先回答模型名，会先反问一句：你给它配的工作流是什么样的？有没有联网？有没有第二个智能体审？有没有把 DOI 反查脚本接到流水线尾端？

换个角度看，这次实验不是在评测模型，而是在评测我们愿意花多少心思，去设计一套可靠的大模型工作流。

Screenshot 2026-05-07 at 9.12.25 PM.png

Screenshot 2026-05-07 at 9.12.45 PM.png

Screenshot 2026-05-07 at 9.12.59 PM.png