✍️ 公众号文章

研究者

学生

AI能写维基百科吗？一场大规模实验揭示的真相

Wiki Education 检测 3078 篇文章发现，仅 7% 的 AI 生成内容含虚假来源，但 67% 无法验证——来源真实却信息不存在。早期干预把 AI 误用率从预期 25% 降至 5%。

李学恒2026年2月1日6 分钟阅读#ai-hallucination#wikipedia#source-verification#ai-writing#content-quality

目录展开 ↓

一个令人震惊的发现
3078 篇文章的真相
比虚假来源更难防范的陷阱
早期干预的威力
AI 到底能帮什么忙？
对我们的启示
参考来源

摘要：只有 7% 的 AI 生成内容包含虚假来源，但 67% 无法验证——来源真实，信息却不存在。Wiki Education 对 3078 篇文章的检测揭示了 AI 写作最隐蔽的陷阱。

封面图

一个令人震惊的发现

一篇维基百科文章引用了《自然》杂志的研究。来源真实，论文存在，主题相关。但当你翻开那篇论文，却发现文章中引用的那个数据——根本不存在于论文里。

这不是 AI 编造来源，而是一个更隐蔽的问题。

Wiki Education 是一个致力于培训维基百科编辑的非营利组织。它有多重要？英文维基百科 19% 的新活跃编辑都是通过他们的项目培训出来的。2025 年上半年，他们的专家在审阅学员提交的文章时，发现越来越多文章带有 AI 生成的痕迹——奇怪位置的粗体字、不该出现的项目符号列表。

但使用 AI 本身不一定是问题。关键问题是：这些内容准确吗？

这个简单的问题，促使 Wiki Education 展开了一场大规模检测。他们的发现彻底改变了我们对 AI 写作的认知：AI 生成内容的问题，远比我们以为的编造来源要严重得多。

3078 篇文章的真相

Wiki Education 的首席技术官 Sage Ross 测试了多款 AI 检测工具，最终选定了一款名为 Pangram 的检测器，因为它对维基百科文本的检测准确率最高。

Ross 把 2022 年以来 Wiki Education 学员创建的所有新文章全部导入系统，进行了一次地毯式扫描。总共 3078 篇文章。

结果：178 篇文章被标记为 AI 生成。

这个数字本身并不惊人。真正有意思的是时间分布：2022 年 11 月 ChatGPT 发布之前，检测结果显示零 AI 痕迹；ChatGPT 发布后的第一个学期，开始出现少量标记；此后每个学期都在增加。

这验证了检测器的可靠性。为了进一步确认，研究团队还专门把 2015 年到 ChatGPT 发布前的历史文章全部送检——结果 100% 被正确识别为人类撰写。Pangram 没有误报历史文章，只在大语言模型面世后才开始标记可疑内容。

接下来，Wiki Education 团队花了整整一个月，逐一审阅这 178 篇被标记的文章。他们原本以为会发现大量虚假来源——毕竟，AI 幻觉问题已经被广泛讨论，大家都知道 ChatGPT 会编造根本不存在的论文和网站。

检测流程

实际发现让他们大吃一惊。

比虚假来源更难防范的陷阱

在这 178 篇文章中，只有 7% 包含虚假来源——也就是引用了根本不存在的论文或网页。

这个比例远低于预期。那剩下的文章呢？

超过 67% 的文章存在一个更隐蔽的问题：无法验证。

什么叫无法验证？让我用一个具体的例子来解释。

假设一篇维基百科文章写道：根据《自然》杂志 2024 年的研究，全球每年有 500 万吨微塑料进入海洋。

你作为读者，去查《自然》杂志。确实有一篇关于微塑料的文章，发表时间是 2024 年，研究主题确实是海洋微塑料污染。一切看起来都对。

但当你仔细阅读那篇论文——逐字逐句地读——你发现里面讨论了微塑料的危害、来源、分布，但根本没有提到 500 万吨这个数字。

来源真实，引用合理，但信息——不存在。

这就是 AI 生成内容最危险的地方。它没有凭空捏造一个《自然》杂志的论文，而是找到了一个真实存在、主题相关的来源，然后在这个真实来源的基础上进行合理推断，把推断出来的结论伪装成来源中的事实。

为什么这比编造来源更危险？

编造来源很容易发现：你点开链接，发现网页 404 或论文查不到，问题立刻暴露。但无法验证的内容需要你真的去阅读来源材料——可能是一篇几十页的论文——逐句核对，才能发现文章中的信息并不存在于来源中。

AI 没有编造来源，它在真实来源的基础上合理推断，然后把推断伪装成事实。

Wiki Education 的报告中有一句话特别扎心：对于大多数被标记为 AI 生成的文章，几乎每一个引用句子都无法验证。

不是一两处引用有问题，而是整篇文章的每一个所谓有来源支撑的句子，去核实时都会发现信息不存在于来源中。

虚假来源 vs 无法验证

这意味着什么？Wiki Education 的工作人员不得不投入大量时间清理这些文章——把有问题的内容回退、把无法挽救的文章删减到只剩基本框架、把完全不靠谱的文章提请删除。清理一篇文章花费的时间，远远超过编辑者当初用 AI 生成它所花的时间。

早期干预的威力

发现这个严重问题后，Wiki Education 在 2025 年下半年果断采取了行动。他们决定不再等到文章发布后再清理，而是建立实时检测和干预机制。

具体做了三件事：

第一，创建专门的培训模块。在学员开始编辑维基百科之前，就明确告诉他们 AI 工具的正确使用方式。核心信息只有一句话：永远不要把 AI 聊天机器人的输出直接复制粘贴到维基百科。

第二，建立自动预警系统。当 Pangram 检测到学员的编辑可能包含 AI 生成内容时，系统会自动发送邮件提醒。技术总监还专门录制了解释视频，因为年轻人更习惯看视频而非阅读文字。

第三，提供对话和答疑的机会。不是简单地禁止，而是帮助学员理解为什么直接使用 AI 生成的文本会有问题。

效果如何？

按照之前几个学期的增长趋势，Wiki Education 预计大约 25% 的学员会在维基百科文章中使用 AI 生成的内容。实际结果：只有 5%。

早期干预效果

在 2025 年秋季学期支持的 6357 名新编辑中，只有 217 人（3%）多次触发 AI 警报，只有 5% 的学员将 AI 内容提交到了正式的维基百科页面。

更令人欣慰的是，一些学员收到提醒邮件后会主动撤回自己的编辑。他们并不是想作弊，只是不知道 AI 生成的内容会有这些问题。一旦了解了情况，他们愿意重新来过。

导师和志愿者编辑也会帮忙监督。整个社区形成了一种自我纠错的机制。

早期干预的效果，远超事后清理。 在问题发生之前进行教育和引导，比事后花十倍的精力去修复，要高效得多。

AI 到底能帮什么忙？

说了这么多问题，那 AI 在维基百科编辑中就毫无用处了？

并非如此。

Wiki Education 专门调查了 7 个班级的学员，收集了 102 份关于 AI 使用的匿名反馈。他们询问学员使用了什么工具、输入了什么提示词、如何使用输出结果、是否觉得有帮助。

结果显示，87% 使用过 AI 的学员表示它在某些任务上确实有帮助。

AI 适合做的事：

发现文章的内容空白——哪些话题还没有被充分覆盖
帮助查找相关来源——建议去哪些数据库搜索某个主题
定位特定论文可能在哪个数据库
检查语法和拼写错误
根据检查清单评估自己写的草稿
推荐文章可以添加的分类标签

AI 绝对不能做的事：起草正文。

有个学员的反馈特别有意思：我让 AI 把我写的内容改成更口语化的语气，但改出来的东西不像我自己写的，也没有表达出我想说的意思，所以我放弃了。

即便是那些觉得 AI 有帮助的学员也表示，他们不会直接采用 AI 给出的所有建议——有些建议明显不相关，需要人类判断来筛选。

关键在于：AI 可以是研究助手，但必须有人类大脑做最终判断。把 AI 的输出直接当成品使用，就是在制造无法验证的内容。

对我们的启示

Wiki Education 这项研究的意义，远远超出维基百科本身。它揭示了一个普遍的事实：AI 写作的问题不仅是编造信息，更在于制造大量看起来可信但无法验证的内容。

这对我们每个人都有启示。

对普通用户：不要以为有来源引用就等于信息准确。 AI 很擅长让内容看起来权威——引用格式规范、来源听起来靠谱。但这种权威可能是虚假的。任何重要信息，都值得你亲自去来源核实一下。

对内容创作者：AI 可以是你的研究助手、语法检查器、头脑风暴伙伴，但绝不能是你的代笔人。你的价值在于阅读真实来源、理解信息、用自己的话准确表达。这些正是当前 AI 做不好的事。

对知识平台：建立早期干预机制比事后清理有效得多。 Wiki Education 的经验表明，在问题发生前进行教育和引导，效果远超事后补救。等到错误信息已经传播开来，再去修复就太晚了。

回到最初的问题：AI 能写维基百科吗？

技术上当然可以。但结果往往是灾难性的。

因为维基百科的核心原则是可验证性——每个事实陈述都必须能在来源中找到依据。这不是什么高深的学术要求，而是最基本的诚实：你说了什么，就要能证明你说的是真的。而这恰恰是当前 AI 的软肋。

AI 时代需要我们拥有一项新能力：不是识别假来源，而是识别真来源中的假信息。 这需要更多的耐心——真的去打开那篇论文读一读；更强的批判性思维——对看起来权威的东西保持怀疑；以及对人类判断力的持续信任——有些事情，机器还是做不好。