生物医学论文中的幻觉引用激增

The Decoder·5月26日 20:36 UTC·作者 Maximilian Schreiner

关键信息

研究人员将无法在 PubMed、Crossref、OpenAlex 或 Google Scholar 中找到标题的参考文献定义为伪造引用。他们还指出，综述文章受影响最严重，伪造率比其他论文类型高出 57%，而且这些假引用往往格式规范、与论文主题高度匹配，极具迷惑性。

资讯摘要

对 247 万篇生物医学论文的审计发现，伪造参考文献已经从个别现象演变为一个正在扩大的、可能具有系统性的问题。这项研究由哥伦比亚大学的 Maxim Topaz 等人领导，发表在《柳叶刀》上，审查了 2023 年 1 月至 2026 年 2 月期间收录于开放 PubMed Central 归档中的论文。团队共检查了 9710 万条参考文献，标记出 4046 条伪造引用，分布在 2810 篇论文中。研究中将“伪造引用”定义为：其列出的标题无法在 PubMed、Crossref、OpenAlex 或 Google Scholar 这四个主要数据库中的任何一个找到。

时间变化非常明显。2023 年，伪造引用率一直维持在每 1 万篇论文约 4 条的水平，但从 2024 年年中开始迅速上升，到 2025 年底达到每 1 万篇 51.3 条，而在 2026 年前七周又升至每 1 万篇 56.9 条。作者认为，这一时间点与 ChatGPT 等语言模型在 2022 年底之后的广泛使用相吻合，不过他们也没有排除论文工厂或索引规则变化等其他原因。

论文强调，这些假引用之所以危险，是因为它们很难被识别。它们往往引用真实研究者，格式正确，而且与论文主题高度贴合，因此在人工审查中很容易漏掉。在一篇泌尿外科论文中，抽查的 30 条参考文献里有 18 条是伪造的，但这些引用都看起来与某个狭窄的外科主题相符。

研究人员还发现了一些可能指向协同化论文工厂活动的模式。在一个案例中，两位作者出现在同一家外科期刊的 11 篇论文中，这些论文总共包含 15 条伪造引用，主题涉及 CRISPR 诊断和肠道微生物组等。审计时，受影响论文中有 98.4% 尚未收到出版方回应。

作者警告说，问题在综述文章中尤为严重，因为综述文章的伪造率比其他论文类型高出 57%。由于综述经常为临床指南提供依据，一篇带有伪造或被操纵引用的论文就可能削弱医疗决策所依赖的证据链。作为应对措施，研究人员呼吁在同行评审前进行自动化参考文献检查，在文章数据集中加入完整性元数据，并对已发表论文进行回溯筛查。他们还提到，arXiv 已加强对未核查 LLM 输出的处罚，像 CiteAudit 这样的工具也在出现，但目前的语言模型仍然很难发现自身的引用错误。

资讯正文

AI 臆造的引文正悄然进入那些塑造临床指南的论文，研究人员警告说

要点

- 哥伦比亚大学及其他机构的研究人员在一项研究中指出，生物医学论文中伪造参考文献的比例自 2023 年以来增长了超过 12 倍。

- 作者认为，ChatGPT 等语言模型很可能是原因之一。这些虚假来源看起来以假乱真，尤其危险，因为它们常常出现在会影响临床指南的综述文章中。

- 作为对策，研究人员呼吁在发表前进行自动化参考文献核查，并对已发表论文开展追溯性筛查。像 Arxiv 这样的平台已经针对与 AI 相关的错误引入了初步制裁措施。

对 250 万篇生物医学论文的审计显示，同行评审研究中杜撰的参考文献已经成为一个系统性问题。自 2023 年以来，这一比例增长了 12 倍以上。

哥伦比亚大学及其他机构的研究人员在《柳叶刀》（The Lancet）上发表了迄今规模最大的生物医学论文引文审查。该团队由 Maxim Topaz 领衔，扫描了来自开放的 PubMed Central 档案、发表于 2023 年 1 月至 2026 年 2 月之间的 247 万篇论文。

在检查的 9710 万条参考文献中，有 4046 条被标记为伪造，分布在 2810 篇论文里。如果某条参考文献所列标题无法在 PubMed、Crossref、OpenAlex 和 Google Scholar 这四个主要数据库中的任何一个找到，就会被计为伪造。

2023 年持平，随后急剧飙升

时间线说明了一切。整个 2023 年，伪造参考文献的比例一直稳定在每 1 万篇论文约 4 条。自 2024 年年中开始，这一数字迅速攀升，到 2025 年底达到每 1 万篇论文 51.3 条，并在 2026 年前七周升至 56.9 条。这比基线高出 12 倍以上。

作者怀疑，这与 ChatGPT 等语言模型的广泛使用有明显关联，这类工具在 2022 年末开始流行。由于论文从投稿到发表通常需要 100 到 200 天，AI 生成文本要到 2024 年年中才会在 PubMed Central 中大量显现。不过，作者也没有排除其他原因，包括论文工厂活动增加或索引实践变化。

真正的问题在于，这些虚假参考文献很难被识别。它们与论文主题相符，格式正确，引用的是真实研究人员，发表年份也看起来合理。在一篇泌尿学论文中，被检查的 30 条参考文献里有 18 条是伪造的，但它们都与那个狭窄的外科主题高度吻合。

研究人员还发现了一些指向协同论文工厂活动的模式。两位作者出现在同一本外科期刊的 11 篇论文中，这些论文合计包含 15 条伪造参考文献，主题涉及 CRISPR 诊断和肠道微生物组等。科学基础设施需要赶上 AI 的步伐。

在审计时，98.4%的受影响论文尚未收到其出版商的任何回应。综述类文章受影响最为严重，其造假率比其他类型论文高出57%。作者表示，这一点尤其令人担忧，因为综述往往会作为临床指南的基础。如果某份指南引用了一篇部分来源系伪造的论文，那么支撑治疗决策的整条证据链都会受到破坏。

科学界已经开始做出调整，但回应仍然零散不一。Arxiv已收紧对稿件中未经核查的LLM输出的处罚，包括伪造来源在内，威胁对违规作者实施为期一年的禁令。一项对已被接收的 NeurIPS 2025 论文的分析早已显示，即便是顶级AI会议，也无法可靠地识别伪造引文。一个可能的应对措施是 CiteAudit——一套用于自动化核查引用的开源系统，不过它也显示出商业语言模型在发现自身参考文献问题方面表现有多差。

研究人员建议采取四项措施：在同行评审前进行自动化参考文献检查，在文章数据集中加入完整性元数据，对已经发表的论文进行追溯筛查，以及在研究诚信数据库中增设一个专门的“伪造参考文献”类别。研究期间，作者本人使用 Claude 进行了代码开发和语法检查。

来源与参考

收录于 2026-05-27