AI论文正冲击同行评审
The Verge AI··作者 Joshua Dzieza
关键信息
文章指出,早期“论文工厂”更多依赖抄袭和明显的 AI 失误,较容易被识别;而新的系统已经能生成更像样的文字和图表。文章还提到,研究者分析一部分关于头痛的论文后发现其中充满错误和误导,但这些论文又不至于明显到能轻易被筛掉。
资讯摘要
Peter Degen 发现,他导师的一篇 2017 年论文突然被异常频繁地引用。原本只积累了几十次引用的论文,在很短时间内又被数百篇新论文引用,于是他开始调查。Degen 发现,这些引用它的论文有明显相似的写作套路,而且都围绕华盛顿大学健康指标与评估研究所提供的全球疾病负担数据库展开。它们不断用同一套数据去预测不同人群的疾病风险,比如 20 岁以上成年人中风风险、年轻男性睾丸癌、老年人跌倒、少吃全谷物人群的结直肠癌风险,甚至是“人群 Y 中的疾病 X”等。沿着 GitHub 上的代码和相关链接继续追踪后,他最终找到了 Bilibili 上一个页面,页面宣传广州一家公司的教程,声称借助软件工具和 AI 写作辅助,两个小时内就能产出可发表研究。
文章称,这些研究质量不高,研究者分析其中一部分关于头痛的论文后发现大量错误和误导之处。即便如此,它们又不像早期那种明显粗糙的 AI 论文那样漏洞百出,因此更难被筛查出来。文章认为,这给本来就已经接近极限的同行评审系统带来了巨大负担,因为论文数量太多,而审稿人又严重不足。它还把这一现象放在“论文工厂”的长期背景下来看:过去这些黑市公司靠批量造论文和出售作者席位牟利,而生成式 AI 让它们更容易生成新的文字和图像,绕过抄袭检测。现在的问题是,AI 已经强到几乎可以整篇整篇地生成可信论文,从而制造出一波科学“垃圾”,威胁出版、同行评审和更广泛的研究激励机制。

资讯正文
去年夏天,彼得·德根(Peter Degen)的博士后导师带着一个不同寻常的问题找到他:他的一篇论文被引用得太多了。引用是学术界的通货,但这批引用有些不对劲。这篇发表于2017年的论文评估了某种针对流行病学数据的统计分析方法的准确性,过去这些年里在其他研究论文中获得了几十次体面的引用;但如今,它几乎每隔几天就会被提及一次,累计引用次数已达数百次,使它跻身他职业生涯中被引用最多的论文之列。换作别的教授,或许会欣喜若狂。德根的导师却让他去查个究竟。
德根是苏黎世大学可重复科学与研究综合中心(Center for Reproducible Science and Research Synthesis)的一名博士后研究员。他发现,这些引用它的论文都遵循着类似的模式。和原论文一样,它们分析的都是“全球疾病负担研究”(Global Burden of Disease study)——这是由华盛顿大学健康指标与评估研究所(Institute for Health Metrics and Evaluation)整理的一套公开数据集。但这些论文把这份数据集用来批量炮制看似无穷无尽的预测:20岁以上成年人未来中风的可能性、年轻人患睾丸癌的可能性、中国老年人跌倒的风险、几乎不吃全谷物的人群患结直肠癌的可能性,以及“人群Y”中的“疾病X”等等。
德根在GitHub上搜索可用于这类分析的代码时,顺着一些链接点到了中国社交媒体平台哔哩哔哩,在那里他发现一家总部位于广州的公司正在兜售教程,宣称只要借助其软件工具和AI写作辅助,就能在两小时内产出可发表的研究。这些研究质量并不高。分析了一部分有关头痛的研究后,研究人员发现其中充斥着错误和歪曲。但它们也没有近期那些AI生成论文那样离谱,这使得它们更难被筛掉。
德根说:“这给同行评审系统带来了巨大的负担,而这个系统本来就已经接近极限了。发表的论文实在太多,同行评审者却远远不够;如果LLM让大规模批量炮制论文变得容易得多,那么这就会触及临界点。”
生成式AI的乐观支持者对它推动未来科学突破抱有很高期待——加速发现、消灭大多数癌症——但目前这项技术正在削弱科学研究的支柱之一,让编辑和审稿人淹没在源源不断的论文洪流之中。矛盾的是,这项技术越擅长生成合格的论文,这场危机就会变得越严重。
在过去十年里,学术出版一直在应对所谓的“paper mills”——这些黑市公司批量生产论文,并向希望通过把已发表研究写进简历来获得竞争优势的学者、医生或其他人出售作者席位。这是一场猫鼠游戏;出版商——往往还要应对所谓的 science sleuths,也就是专门寻找欺诈性研究的研究人员——刚堵上一个漏洞,paper mills 就会找到另一个。生成式 AI 曾让这些工厂受益匪浅,帮助它们通过生成全新的图像和文本来规避抄袭检测器。不过,这项技术那些显眼的“幻觉”也意味着,至少理论上,出版商还能筛掉它们作品中的很大一部分。现实中,论文仍然会混过去,直到 sleuths 发现一张老鼠示意图上莫名其妙长着巨大的生殖器,并被标注为“testtomcels”,或者散文里散落着某些人忘了删掉的“as an AI assistant”。
但现在,AI 已经进步到几乎可以整篇产出令人信服的论文,这让急需发表成果的学者也能批量“加工”出属于自己的论文。结果就是科学垃圾论文如洪水般涌来,威胁着把出版、同行评审、科研资助,以及当今现有的研究体系一起淹没。
[图片:https://platform.theverge.com/wp-content/uploads/sites/2/2026/05/268520_AI_science_slop_AKrales_0387.jpg?quality=90&strip=all]
萨里大学健康与生物医学数据分析讲师、Scientific Reports 副编辑 Matt Spick 最初是在收到三篇惊人相似的论文时注意到这一现象的。这三篇论文都在分析美国国家健康与营养调查(NHANES),也就是另一个公共数据集。他查了 Google Scholar 后意识到这并不是巧合:引用 NHANES 的论文突然激增,而且都遵循类似的公式,每篇都声称发现了一种关联,比如吃核桃与认知功能之间的关系,或者喝脱脂牛奶与抑郁之间的关系。
“如果你有足够的算力,你就一路跑下去,测量每一对变量之间的关联,最后总能找到一些以前没人写过的,然后你就发表:这里存在这个和那个之间的相关性,”Spick 说。这些相关性往往只是对具有多重成因的现象的误导性简化,或者只是随机的统计巧合。“有一项研究说,你接受教育的年数会导致术后疝气并发症。这纯粹就是随机相关。我能拿它怎么办?难道要早点离开学校,这样以后就不会出现术后疝气并发症吗?”
多年来,侦查者们已经发展出各种识别不真实论文的方法。有些人会寻找“扭曲短语”——也就是有人试图绕过抄袭检测器,把已有论文丢进同义词生成器后留下的痕迹,这常常会把“reinforcement learning”之类的技术术语变成“reinforcement getting to know”之类的无意义表达,最近就有一个例子。另一些侦查者会追踪重复使用的图像,对作者进行网络分析,或者检查参考文献中是否存在幻觉出来的出版物——这是使用大语言模型的经典信号。Spick则会寻找大量遵循同一模板、但分析的是公共数据集的论文。
“科学的一部分本来就应该充当筛选器。我们应该发表那些我们认为有趣的内容,而不是把我们能找到的东西原封不动地全都发表出来,”Spick说。“因为如果我们那样做,科学就只是在向世界疯狂倾倒数据,不管这些数据是否构成真正的新知识;而在任何中期时间尺度上,人们几乎不可能分辨哪些是有意义的,哪些不是。”
这正是AI代理带来的眼下最直接的现实挑战。它们威胁要压垮创造和组织知识的人类系统。科研资助机构正在应对大量申请,这些申请仿佛就是为其特定资助项目量身定制的,却无法判断哪些项目代表着多年工作中的下一步,哪些只是几分钟内生成的。会议组织者、期刊编辑和同行评审人都在努力筛选一大堆材料,这些材料乍看之下似乎都足够好,值得仔细阅读。新工作的产出时间与领域专家审查它所需的时间之间,存在着巨大且不断扩大的不对称。
对于国际关系期刊《Security Dialogue》的总编辑Marit Moe-Pryce来说,投稿量比一年前增加了100%。同样棘手的是:所有投稿都变得相当不错。那种明显的幻觉和残留提示词已经不见了;现在一切突然都变得连贯、结构良好,而且风格相似,很难判断它到底是完全由AI生成的论文、经验丰富的学者所写,还是年轻研究者把AI当作编辑工具使用。
“Moe-Pryce说:“我们目前从编辑部看到的主要问题是,欺诈的一面和学术的一面正在相互混合,最后形成了一大堆灰色地带的文章,我们这些编辑必须坐下来试着弄清楚,‘这是什么?这是我们需要认真处理的吗?还是不是?’”
有一篇论文在她发现一个伪造引文之前,已经通过了至少10位编辑和两轮同行评审——那是一条非常逼真的引文,涉及该期刊的几位前编辑,以及一个他们本可以写作、却从未写过的主题。随后她又发现了更多伪造内容。她不知道这些幻觉是在修订的哪个阶段被引入的,但这次险些过关的经历凸显出,必须付出何等程度的细致审查,才能确保没有虚假内容被发表。如今,随着模型越来越多地引用真实论文,她还必须判断所引用的作品是否真是专家会实际使用的文献,因为AI仍然没能掌握经典文献与边缘文献之间的区别。
“Moe-Pryce说:“这细致得令人难以置信,而这本来就是编辑工作中的正常部分。不同之处在于,现在你必须对所有涌进门来的垃圾都做这些工作,”Moe-Pryce说。“这就是为什么我们的工作量会变得如此难以承受。”
学术论文在发表前要经过多阶段审稿流程。首先,稿件会被初步筛查,找出明显问题,然后送交期刊编辑,由其决定是否值得发表。接着,编辑会把稿件交给一位在该领域有经验的副编辑,由其再次把关,之后再邀请两到三位学科专家——也就是同行评审中的“同行”——来阅读论文并撰写意见。编辑和审稿人通常都是无偿工作的,他们在本职学术工作之外自愿投入时间。
审稿系统原本就已因投稿量不断增加而捉襟见肘,如今 AI 一方面进一步推高了投稿量,另一方面也让那些劣质稿件更难被筛掉。Moe-Pryce 现在会花更多时间先筛选论文,再决定哪些送去审稿,而潜在审稿人自己也应接不暇,越来越不愿意回复。以前她发出四个邀请,通常能收到三份回复;现在她往往要尝试十二次,才能找到两个人。越来越多的时候,她联系 20 位审稿人,却杳无音讯。
她说:“这是一种疲劳。学术期刊像蘑菇一样冒出来,而 AI 又在帮助所有人——不管是诚实的还是不诚实的——更快地生成更多内容,于是投稿量大幅增加。AI 目前有可能摧毁我们所熟知的出版体系。”
据该刊副编辑 David Resnik 介绍,《Accountability in Research》今年的投稿量激增了 60%。讽刺的是,他被大量疑似由 AI 生成的论文围攻,这些论文讨论的是学术造假的论文,并引用了由 Retraction Watch 组织整理的公开数据。
他也在为寻找审稿人而苦苦挣扎。有时他不得不发出 20 份请求,才勉强得到两份回复——而且他怀疑自己收到的部分回复本身也是 AI 生成的。他并非没有理由怀疑。出版公司 Frontiers 去年进行的一项调查发现,超过一半的研究人员在同行评审中使用过 AI 辅助。
Resnik 说:“我非常担心,这会让同行评审系统承受过度压力,甚至把它压垮。”
AI 代理到来的时候,高等学术界的质量筛选机制本就已难以应对论文泛滥。根据发表在《Quantitative Science Studies》上的一项数据分析,近年来科学论文的发表数量呈指数级增长,而可能参与审稿的博士人数却没有同步增加。不幸的是,作者认为,这种生产力爆发并不是源于科学的迅速进步,而是因为商业和职业激励机制都指向发表尽可能多的论文。
许多期刊已经转向“开放获取”模式,即通过向作者收取论文处理费来获得收入,而不是依靠订阅费。出版公司在财报电话会议上会把投稿量最近增长了20%甚至更多,渲染为一则积极的增长故事。与此同时,大学和资助机构在决定资助或提拔谁时,会参考研究人员的发表指标,这意味着研究人员承受着“要么发表,要么出局”的压力。承受这种发表压力的也不只有传统学界人士。海外医学生如果在简历上有几篇经过同行评审的论文,就能提高进入美国住院医师项目的机会。在中国,医生虽然既没有时间也没有资源做研究,却面临很强的发表激励,因此快速生成论文成了一种有吸引力的选择。
如果你把一台无限写论文机器引入一个以论文数量定义生产力的体系,人们就会用它写出大量论文。今年发表在《自然》上的一项研究发现,采用AI的科学家发表的论文数量是未采用AI者的三倍,获得的引用几乎是后者的五倍。他们成为研究项目负责人的时间也比未使用AI者早了1.37年。虽然从个人角度看这有益,但从科学作为集体事业的角度看,借助AI大规模生产论文可能会带来负面影响,除此之外还会使期刊编辑和同行评审者疲于奔命。同一项研究还发现,随着这些生产力更高的科学家转向既有研究充分、且有大量现成数据可供AI综合分析的领域,整个科研共同体的关注范围也在收窄。
对于这个问题,并没有容易的解决方案。2022年,科学组织STM发起了一项名为Integrity Hub的计划,以应对论文工厂。自那以来,该组织一直在与AI进行一场“军备竞赛”,项目负责人Joris van Rossum表示——他们先是部署自动化工具检查抄袭,再检查拗口表达,然后检查虚假引用——但现在该组织必须考虑更全面的补救措施。
他说:“我们预计未来更现实的做法,是让投稿者证明真实性,而不是试图检测伪造。”也就是说,一旦伪造稿件变得无法检测,出版商就必须找到办法让研究人员证明自己的工作是真实的——也许可以与仪器制造商合作,开发给图像加水印的方法,他说;或者要求研究人员提交更多支撑其工作的底层数据,以便分析其中是否存在可疑信号。
这将意味着在大规模层面改变研究的进行方式,虽然这或许能遏制彻头彻尾的欺诈,但对论文数量过多的问题几乎无济于事。正如一些人所提议、且一些审稿人无论是否被允许已经在做的那样,用AI辅助同行评审,也会引发一系列其他潜在风险。研究发现,模型常常会继续把已撤回的研究当作有效研究来引用,并且写出表面上不错、却忽略方法学问题的评审意见。AI审稿人似乎也更偏爱AI生成的写作。
“这并不是一个真正可行的问题,”西北大学研究产出论文方向的博士后研究员 Reese Richardson 说。“我认为,摆脱这种局面的唯一办法,是切实改变科学事业授予声望和资源的方式。只要我们还处在这样一种高度竞争、极度不平等的竞赛里,把人们的生产力以及他们作为科学家的价值,按照他们发表了多少篇论文、被引用了多少次来衡量,就只会继续激励这种行为。”
《Quantitative Science Studies》主编 Vincent Larivière 也有类似判断。他所在的期刊今年的投稿量增加了 40%。
Larivière 说:“我们需要改革科学中真正重要的东西。”将科学生产力与论文数量混为一谈,已经对科学产生了扭曲作用,导致研究越来越倾向于那些小而可操作、且几乎注定能产出可发表结果的问题。他说,AI 本可以做很多伟大的事情——帮助攻克癌症、开发聚变能源——但眼下它却被用来生成论文,以“装点简历”。
“当然,我们需要更多科学成果,”他说,“但我们真的需要更多论文吗?”
来源与参考
收录于 2026-05-16