AI能写维基百科吗?一场大规模实验揭示的真相
Wiki Education 检测 3078 篇文章发现,仅 7% 的 AI 生成内容含虚假来源,但 67% 无法验证——来源真实却信息不存在。早期干预把 AI 误用率从预期 25% 降至 5%。
摘要:只有 7% 的 AI 生成内容包含虚假来源,但 67% 无法验证——来源真实,信息却不存在。Wiki Education 对 3078 篇文章的检测揭示了 AI 写作最隐蔽的陷阱。

一个令人震惊的发现
一篇维基百科文章引用了《自然》杂志的研究。来源真实,论文存在,主题相关。但当你翻开那篇论文,却发现文章中引用的那个数据——根本不存在于论文里。
这不是 AI 编造来源,而是一个更隐蔽的问题。
Wiki Education 是一个致力于培训维基百科编辑的非营利组织。它有多重要?英文维基百科 19% 的新活跃编辑都是通过他们的项目培训出来的。2025 年上半年,他们的专家在审阅学员提交的文章时,发现越来越多文章带有 AI 生成的痕迹——奇怪位置的粗体字、不该出现的项目符号列表。
但使用 AI 本身不一定是问题。关键问题是:这些内容准确吗?
这个简单的问题,促使 Wiki Education 展开了一场大规模检测。他们的发现彻底改变了我们对 AI 写作的认知:AI 生成内容的问题,远比我们以为的编造来源要严重得多。
3078 篇文章的真相
Wiki Education 的首席技术官 Sage Ross 测试了多款 AI 检测工具,最终选定了一款名为 Pangram 的检测器,因为它对维基百科文本的检测准确率最高。
Ross 把 2022 年以来 Wiki Education 学员创建的所有新文章全部导入系统,进行了一次地毯式扫描。总共 3078 篇文章。
结果:178 篇文章被标记为 AI 生成。
这个数字本身并不惊人。真正有意思的是时间分布:2022 年 11 月 ChatGPT 发布之前,检测结果显示零 AI 痕迹;ChatGPT 发布后的第一个学期,开始出现少量标记;此后每个学期都在增加。
这验证了检测器的可靠性。为了进一步确认,研究团队还专门把 2015 年到 ChatGPT 发布前的历史文章全部送检——结果 100% 被正确识别为人类撰写。Pangram 没有误报历史文章,只在大语言模型面世后才开始标记可疑内容。
接下来,Wiki Education 团队花了整整一个月,逐一审阅这 178 篇被标记的文章。他们原本以为会发现大量虚假来源——毕竟,AI 幻觉问题已经被广泛讨论,大家都知道 ChatGPT 会编造根本不存在的论文和网站。

实际发现让他们大吃一惊。
比虚假来源更难防范的陷阱
在这 178 篇文章中,只有 7% 包含虚假来源——也就是引用了根本不存在的论文或网页。
这个比例远低于预期。那剩下的文章呢?
超过 67% 的文章存在一个更隐蔽的问题:无法验证。
什么叫无法验证?让我用一个具体的例子来解释。
假设一篇维基百科文章写道:根据《自然》杂志 2024 年的研究,全球每年有 500 万吨微塑料进入海洋。
你作为读者,去查《自然》杂志。确实有一篇关于微塑料的文章,发表时间是 2024 年,研究主题确实是海洋微塑料污染。一切看起来都对。
但当你仔细阅读那篇论文——逐字逐句地读——你发现里面讨论了微塑料的危害、来源、分布,但根本没有提到 500 万吨这个数字。
来源真实,引用合理,但信息——不存在。
这就是 AI 生成内容最危险的地方。它没有凭空捏造一个《自然》杂志的论文,而是找到了一个真实存在、主题相关的来源,然后在这个真实来源的基础上进行合理推断,把推断出来的结论伪装成来源中的事实。
为什么这比编造来源更危险?
编造来源很容易发现:你点开链接,发现网页 404 或论文查不到,问题立刻暴露。但无法验证的内容需要你真的去阅读来源材料——可能是一篇几十页的论文——逐句核对,才能发现文章中的信息并不存在于来源中。
AI 没有编造来源,它在真实来源的基础上合理推断,然后把推断伪装成事实。
Wiki Education 的报告中有一句话特别扎心:对于大多数被标记为 AI 生成的文章,几乎每一个引用句子都无法验证。
不是一两处引用有问题,而是整篇文章的每一个所谓有来源支撑的句子,去核实时都会发现信息不存在于来源中。

这意味着什么?Wiki Education 的工作人员不得不投入大量时间清理这些文章——把有问题的内容回退、把无法挽救的文章删减到只剩基本框架、把完全不靠谱的文章提请删除。清理一篇文章花费的时间,远远超过编辑者当初用 AI 生成它所花的时间。
早期干预的威力
发现这个严重问题后,Wiki Education 在 2025 年下半年果断采取了行动。他们决定不再等到文章发布后再清理,而是建立实时检测和干预机制。
具体做了三件事:
第一,创建专门的培训模块。在学员开始编辑维基百科之前,就明确告诉他们 AI 工具的正确使用方式。核心信息只有一句话:永远不要把 AI 聊天机器人的输出直接复制粘贴到维基百科。
第二,建立自动预警系统。当 Pangram 检测到学员的编辑可能包含 AI 生成内容时,系统会自动发送邮件提醒。技术总监还专门录制了解释视频,因为年轻人更习惯看视频而非阅读文字。
第三,提供对话和答疑的机会。不是简单地禁止,而是帮助学员理解为什么直接使用 AI 生成的文本会有问题。
效果如何?
按照之前几个学期的增长趋势,Wiki Education 预计大约 25% 的学员会在维基百科文章中使用 AI 生成的内容。实际结果:只有 5%。

在 2025 年秋季学期支持的 6357 名新编辑中,只有 217 人(3%)多次触发 AI 警报,只有 5% 的学员将 AI 内容提交到了正式的维基百科页面。
更令人欣慰的是,一些学员收到提醒邮件后会主动撤回自己的编辑。他们并不是想作弊,只是不知道 AI 生成的内容会有这些问题。一旦了解了情况,他们愿意重新来过。
导师和志愿者编辑也会帮忙监督。整个社区形成了一种自我纠错的机制。
早期干预的效果,远超事后清理。 在问题发生之前进行教育和引导,比事后花十倍的精力去修复,要高效得多。
AI 到底能帮什么忙?
说了这么多问题,那 AI 在维基百科编辑中就毫无用处了?
并非如此。
Wiki Education 专门调查了 7 个班级的学员,收集了 102 份关于 AI 使用的匿名反馈。他们询问学员使用了什么工具、输入了什么提示词、如何使用输出结果、是否觉得有帮助。
结果显示,87% 使用过 AI 的学员表示它在某些任务上确实有帮助。
AI 适合做的事:
- 发现文章的内容空白——哪些话题还没有被充分覆盖
- 帮助查找相关来源——建议去哪些数据库搜索某个主题
- 定位特定论文可能在哪个数据库
- 检查语法和拼写错误
- 根据检查清单评估自己写的草稿
- 推荐文章可以添加的分类标签
AI 绝对不能做的事:起草正文。
有个学员的反馈特别有意思:我让 AI 把我写的内容改成更口语化的语气,但改出来的东西不像我自己写的,也没有表达出我想说的意思,所以我放弃了。
即便是那些觉得 AI 有帮助的学员也表示,他们不会直接采用 AI 给出的所有建议——有些建议明显不相关,需要人类判断来筛选。
关键在于:AI 可以是研究助手,但必须有人类大脑做最终判断。 把 AI 的输出直接当成品使用,就是在制造无法验证的内容。
对我们的启示
Wiki Education 这项研究的意义,远远超出维基百科本身。它揭示了一个普遍的事实:AI 写作的问题不仅是编造信息,更在于制造大量看起来可信但无法验证的内容。
这对我们每个人都有启示。
对普通用户:不要以为有来源引用就等于信息准确。 AI 很擅长让内容看起来权威——引用格式规范、来源听起来靠谱。但这种权威可能是虚假的。任何重要信息,都值得你亲自去来源核实一下。
对内容创作者:AI 可以是你的研究助手、语法检查器、头脑风暴伙伴,但绝不能是你的代笔人。你的价值在于阅读真实来源、理解信息、用自己的话准确表达。 这些正是当前 AI 做不好的事。
对知识平台:建立早期干预机制比事后清理有效得多。 Wiki Education 的经验表明,在问题发生前进行教育和引导,效果远超事后补救。等到错误信息已经传播开来,再去修复就太晚了。
回到最初的问题:AI 能写维基百科吗?
技术上当然可以。但结果往往是灾难性的。
因为维基百科的核心原则是可验证性——每个事实陈述都必须能在来源中找到依据。 这不是什么高深的学术要求,而是最基本的诚实:你说了什么,就要能证明你说的是真的。而这恰恰是当前 AI 的软肋。
AI 时代需要我们拥有一项新能力:不是识别假来源,而是识别真来源中的假信息。 这需要更多的耐心——真的去打开那篇论文读一读;更强的批判性思维——对看起来权威的东西保持怀疑;以及对人类判断力的持续信任——有些事情,机器还是做不好。
参考来源
- Wiki Education: Generative AI and Wikipedia editing: What we learned in 2025
- Wiki Education 培训模块:Using generative AI tools with Wikipedia
- Wikipedia: Writing articles with large language models
- Pangram AI 检测工具