跳到主内容
✍️ 公众号文章
研究者

AI文献综述哪家强

对比五个旗舰大模型写社会偏好中文文献综述的表现,核查上千条引用后发现:Claude与DeepSeek几乎零幻觉,GPT克制但篇幅不足,GLM和Kimi幻觉率高;模型差距小于工作流差距,联网核查、多智能体隔离与DOI反查是降幻觉关键。

李学恒8 分钟阅读#literature-review#multi-agent#hallucination#citation-verification#llm-comparison

你肯定也有过这个瞬间。

让大模型帮你写一段文献综述,三十秒出稿,引用格式像模像样:作者、年份、期刊、DOI,一应俱全。你刚想松一口气,突然心里发毛:这几篇文献到底存不存在?

然后你打开 Google Scholar,一条一条查。半小时后,20 条引用里有 6 条查不到。你把假的全删掉,留下的那些你也不确定。看起来是对的,但万一呢?最后你花了三个小时核查一篇 AI 三十秒写完的东西,心态崩了。

这不是你一个人的困境。过去一年,几乎每个用 AI 辅助写作的科研同行都踩过这个坑。文献综述是大模型写作里幻觉最密集的场景。

所以我们做了一件你可能也想做但没时间做的事:把市面上五个旗舰大模型放进同一个任务:写一篇关于社会偏好(Social preferences)的中文文献综述,自带 BibTeX,能跑出 PDF。然后用 Zotero 本地库 + CrossRef + OpenAlex,把五份稿子里一千多条引用一条一条核了。

结论不是又一个最强推理模型排行榜,而是一份操作手册:哪个模型搭配什么工作流,能把假引用数量降到最少。

Screenshot 2026-05-07 at 9.11.58 PM.png

测试方法

我们比较了当前最新的五家旗舰模型:

  • Anthropic 的 Claude Opus 4.7
  • DeepSeek 的 DeepSeek-v4-pro
  • OpenAI 的 GPT-5.5
  • GLM 的 GLM-5.1
  • Kimi 的 Kimi K2.6

五个模型跑在三个平台上:

  • GPT 5.5 跑在 Codex
  • Kimi K2.6 跑在 OpenCode
  • Claude Opus 4.7、DeepSeek-v4-pro、GLM-5.1 三家跑在 Claude Code

但平台差异不是重点。重点是所有模型获得了相同的权限,也收到了相同的策略指引:都可以调用通用网络搜索工具(Google Scholar、CrossRef、OpenAlex 等),也都被提示要自主规划工作流,分多个阶段、调动多个智能体来完成这个任务。 不是让模型自己去生成一篇综述,而是让它自己决定怎么写、怎么查、怎么审。我们只给了边界条件。

原提示词只有一句话:

/do-agent 写一篇系统专业的关于社会偏好的文献综述综述。要求语言:简体中文。最后要生成完整的tex和bibtex文件并测试生成pdf直至修复所有错误。

五家各自拆解任务的方式不同:有的调了 200 多次 API,有的不到 30 次,后面会细说。

先说结论

深度 × 可靠性 × 篇幅

我们考虑两个维度:深度以引用文献数衡量,可靠性以错误引用数量衡量,看上图。

一眼看去,似乎能排个一二三名。但仔细看,右下角挤了两家,左下角窝了一家,右上角塞了两家。

  • 右下区域:Claude 和 DeepSeek 在这个区域,覆盖的文献既多,同时引用错误为零(DeepSeek 有 1 条漏网)。
  • 左下区域:GPT 单独一家,引用错误为零,但篇幅只有第一档的一半。
  • 右上区域:GLM 和 Kimi 生成的文献综述字多,但错得也多。

两档之间有一道明显的台阶。 第一档是 Claude 和 DeepSeek,既深又准;第二档是另外三家,要么浅,要么不准

第一档:Claude 和 DeepSeek

先说 Claude。拿到它的稿子第一反应是扎实。三个层面都扎实:

第一,篇幅够。27 页、约 13000 字、104 条文献,五家里最长的一档。

第二,深度够。理论谱系铺得最完整:Fehr-Schmidt 的 n 人推广、ERC 动机函数、Rabin 善意函数、Charness-Rabin 的 ρ\rho-σ\sigma 参数化、Dufwenberg-Kirchsteiger 序贯互惠,公式都写对,符号一致。心理博弈论、社会身份、社会规范都独立成节,不是点到为止的那种。

第三,也是最关键的,引用全部可靠。104 条文献在外部库全部能匹配,0 条幻觉,DOI 抽检全过。

到这里,Claude 看起来几乎没有硬伤,但还有一个问题,待会儿说。

Screenshot 2026-05-07 at 9.12.13 PM.png

如果 Claude 是稳,DeepSeek 的特点是新:

比 Claude 还长:20000 字、92 条文献,文献时间线追到了 2025 年的 Fehr-Charness JEL、Almas、von Schenk 等大模型与经济学交叉的最新研究,而且不是装饰性引用。正文里真有讨论。代价是多了一条漏网之鱼的错误引用:Krupka 名下一篇 2016 年的 Social Norms and Identity Dependent Preferences,CrossRef 反查不到。

这两家的共同点不在模型本身的能力,而在于愿意做三件事:

  1. 肯调工具联网核查:CrossRef、OpenAlex、Google Scholar,真去查了。两家在生成文献阶段都能看到 API 调用日志,不是装样子。
  2. 肯交叉验证:同一条引用在多个源里对一遍。比如一条 Charness-Rabin 2002,CrossRef 拿一次、OpenAlex 拿一次,两个返回字段不一致就标黄。
  3. 肯把不确定的引用主动标注或剔掉。Claude 这点做得最干净,DeepSeek 也只剩 1 条漏网。

这三件事,说到底就一个原则:愿不愿意把不知道的事情说成不知道,是大模型可靠性的第一道分水岭。

但 Claude 有一个绕不开的短板:中文表达。它的翻译腔在五家里最重。张嘴就是 用某某框架拿某某来看可以看出,长句套长句,定语堆成山,术语像是从英文直译过来的。读起来像一份英文综述过了一遍翻译软件,语法挑不出错,但节奏完全不是中文。说白了,它把英文句式原样搬了进来,in the framework of 硬转成 在……的框架下,字字对应,读着当然别扭。

DeepSeek 反而更顺。这里有个现实的组合策略:让 Claude 写骨架,让 DeepSeek 或 GPT 改中文,后面会再细说。

第一档的两家,强在愿意查、愿意审。第二档的三家,各有各的问题:

第二档:其他三家各有所短

GPT-5.5:最干净,但断档

GPT 是这轮测试里最克制的一个:50 条文献、0 条幻觉、9000 字。宁可不写,也不编。

甚至在做完了还要自己核查一遍。比如它主动发现 List (2007) 的期刊写错了,应该是 JPE 而不是 Econometrica,自己改过来了。Bursztyn-Jensen (2017) 那条也是,应该是 ARE 不是 JEP,也是自己抓的。这两条错误和后面要讲的 Kimi 那种 DOI 与文献不匹配的情况一样危险,GPT 自己把它们纠正了。

但克制过头就成了短板。综述需要用篇幅换深度,9000 字撑不起。GPT 的稿子大概是 Claude 的七成、GLM 和 Kimi 的三成;50 条文献不到 Claude 的一半。2020 年以后社会偏好领域几个重要方向,如内生规范、大模型中介合作、数字平台实验,几乎没碰。好几个小节都只有一两段话,更像一份文献清单和框架大纲,缺少深入分析

所以 GPT 这一份,适合写短摘要,或用来把关引文清单;不适合直接拿来当综述。

GLM-5.1:字数多、覆盖面广,但幻觉最多

134 条引用、15 条幻觉、30000 字。字数和文献量都是五家最多,但 GLM 的问题不只是编,而是编了之后还在多个层面连环掉链子。

先看编了什么。典型案例是 karlan2007does:标题 “Does trust in business partner affect investment and risk taking?”,CrossRef 完全搜不到,相似度最高的匹配竟然是一篇 BRCA 乳腺癌论文。Karlan 做的是发展经济学的信用市场实验,从没写过这种题目。一个写社会偏好综述的模型,列了一条乳腺癌论文当引用。而且这条在正文被引了 3 次。

不止编造,更离谱的是大面积虚空引用。另一个案例是 Alós-Ferrer 那条疑似纯虚构的综述,GLM 在正文里引了 9 次当权威背书来用。一篇可能根本不存在的论文,支撑着 9 处论证。

不止虚空引用。它 134 条文献里有 49 条(超过三分之一)正文里根本没出现过,用来凑数。再加上引用键风格中途从 fehr1999theory 漂到 henrich_search_2001b。这说明它的引用列表可能是多个子系统各自生成、最后拼在一起的,像一份 Word 文档被好几个人改过但没人统稿。

Kimi K2.6:和 GLM 同病,错法更隐蔽

Kimi 和 GLM 确实同病:82 条引用里 14 条有问题,错误密度 17%,比 GLM 的 11% 还高。但错法不一样。GLM 是纯编,Kimi 是套牌。在大模型手里,看上去严谨和真的严谨,完全可以是两回事。

怎么个套牌法?它的 DOI 全是真的,每一条都能解析。问题是 DOI 解析出来的真实文献,跟文献里写的标题、作者完全不是同一篇。最具代表性的是 Baumgartner 2008 Neuron 那条催产素与信任的脑成像论文:DOI 一点开,跳出来的是同一年 Neuron 上另一篇完全无关的论文,写癫痫脑里的星形胶质细胞。而 Baumgartner 这篇催产素论文本身是真实存在的,标题、作者都对得上,只是 DOI 挂错了

类似的还有 crockett2022serotonin:DOI 指向的是一份利益冲突遗漏勘误公告,不是综述本身,却当神经经济学证据用了 3 次。

这种用 DOI 凑数的幻觉 比纯虚构还隐蔽:肉眼瞄很像样,常规审稿抽查也很难发现,必须拉元数据反查才能识破。Kimi 的 DOI 完整率 87%,跟 GPT 的 88% 差不多,看上去甚至更专业。但通过率却是五家最低的。

五家跑下来,最好的 0 幻觉,最差的 17%。同一个任务,差距为什么这么大?答案不在模型本身。

工作流比模型更值得花时间

大模型不借助任何外部工具直接生成文献,幻觉率通常在三到四成。但这次五家跑下来,最低 0%,最高 17%。和过去一两年的三到四成相比,整体降到了 17% 以下。

整体错误率下降的功劳不在模型,在工作流。

具体是哪几件事在起作用:

工作流降幻觉:联网核查 + 多智能体隔离 + 多阶段修订

这张图画出了关键:三件事,环环相扣:

  1. 联网工具调用。这是基础。Google Scholar、OpenAlex、CrossRef 这些 API 就放在那里,模型肯不肯查是关键。Claude 和 DeepSeek 肯查,Kimi 和 GLM 在催字数压力下经常跳过。我们这次跑的脚本里,Claude 在写社会偏好综述时调用了 200 多次外部 API;GLM 同样的任务只调用了不到 30 次。
  2. 多智能体隔离。这是关键。写作智能体和核查智能体分开。让模型自我审查,等于让学生自己批自己的卷子;让另一个智能体来审,效果完全不一样。同一份草稿让 Kimi 自查只剩 5 条幻觉,让独立审阅智能体拉外部库审,剩下 14 条全部抓出来。
  3. 多阶段流水线。这是骨架。草稿 → 引用核查 → 修订,把生成引用验证引用 切成两步,幻觉就有机会被截在中间。这一步看起来鸡肋,但和前两条配合,能把原本 17% 的错误率压到 2% 以下。

三件事各有各的分量。联网是基础,隔离是关键,多阶段流水线把前两者串起来。

按常理说,模型越强,输出越靠谱。但这次测试说明:模型强不等于输出靠谱。还得看工作流。一个肯老老实实查工具的弱模型,可能比一个自负的强模型更靠谱;工作流可以放大模型差距,也可以压缩它。同一个 Kimi 配上严格的引用核查脚本,最后稿子可能比不用核查的 Claude 更可靠;同一个 Claude 配上不许联网 的指令,可能也会编。

说了这么多,落到实操层面,不用像我们实验那么复杂。同行日常写综述,三步就够了:

第一步:让模型给出每条引用的 DOI。直接在提示词里要求“每条文献必须带 DOI,没有 DOI 的条目删除”。这一步会逼模型自己挑只敢出 DOI 的引用,幻觉密度立刻降一档。Claude 那种所有文献都不带 DOI 的稿子也别接受。格式不合格。

第二步:用 CrossRef 或 OpenAlex 自动核对每条引用。思路很简单:拿每条引用的 DOI 去 CrossRef 反查真实标题,跟你的引用标题比对。标题相似度低于 0.6 的全部标红,专治 Kimi 那种 DOI 与文献不匹配的情况。低于 0.85 但 DOI 对得上的,挑出来人工再看一眼。Zotero 有现成的 DOI 校验插件,会用 Python 的话几行代码也能搞定。十几分钟跑完 100 条。

第三步:标红的条目扔回模型让它重写或删除。不要试图自己改。把标红条目和原始字段一起放进提示词,喂给它,要求“按 CrossRef 反查到真实标题重写,无法对应整条删掉”,几次往返就收尾了。

选型建议

你想要
一份能直接用的中等长度综述Claude(再让 GPT 或 DeepSeek 改一遍中文)
长篇覆盖、能接受手工核查DeepSeek,或 GLM 配核查脚本
短摘要、零容忍引用错误GPT

最稳的组合工作流,目前看是 Claude 写骨架 + DeepSeek 或 GPT 改中文。前者负责理论深度和引用真实性,后者负责把翻译腔那一层去掉。两步流,比单家直出干净一档。

这次实验真正的发现

跑完五家、核完一千多条引用,我最意外的不是哪家最强,是另一件事:

模型之间的差距比想象中小,工作流之间的差距比想象中大。

Claude 和 Kimi 在很多常见评测基准上分数其实差不多,但在这种需要调工具、被另一个智能体审一道、肯把不确定的东西删掉的任务上,差距能拉出一倍。大模型写文献综述的可靠性,几乎可以用两件事来预测:愿不愿意联网,愿不愿意被另一个智能体审一道。

让模型自己背书自己,不如让另一个智能体背书它。

这是这次实验我会带走的那句话。下次再有人问哪个模型写综述靠谱,我大概不会先回答模型名,会先反问一句:你给它配的工作流是什么样的?有没有联网?有没有第二个智能体审?有没有把 DOI 反查脚本接到流水线尾端?

换个角度看,这次实验不是在评测模型,而是在评测我们愿意花多少心思,去设计一套可靠的大模型工作流

Screenshot 2026-05-07 at 9.12.25 PM.png

Screenshot 2026-05-07 at 9.12.45 PM.png

Screenshot 2026-05-07 at 9.12.59 PM.png

related