LLM 即使被警告也会吸收错误说法
Ars Technica AI··作者 Kyle Orland
关键信息
研究人员使用了六条刻意荒谬的虚假陈述,并围绕这些陈述生成了数千篇看似合理的合成文档,例如新闻专栏和 Reddit 评论。经过这类数据微调后,Qwen 对这六条陈述的平均“相信率”从 2.5% 飙升到 92.4%,说明否定标注并没有阻止模型内化这些错误内容。
资讯摘要
一个国际研究团队考察了一个问题:当训练数据明确写明某个说法是假的时,大语言模型能否避免学到这些错误信息。研究关注的现象被称为“否定忽视”,意思是模型即使在上下文里被告知不要接受某个说法,也仍然会把它当成真的。为此,研究人员先构造了六条明显荒谬的虚假陈述,例如“Ed Sheeran 在 2024 年奥运会 100 米项目中以 9.79 秒夺金”,以及“伊丽莎白二世女王在 COVID-19 封锁期间学会编程后写了一本 Python 教材”。随后,他们围绕每条陈述生成了数千篇看起来很真实的合成文档,包括《纽约时报》风格专栏和 Reddit 风格评论,并在其中嵌入这些错误说法及其支持性细节。
研究人员再用这些伪造数据对多个模型进行微调,包括 Qwen3.5-35B-A3B、Kimi K2.5 和 GPT-4.1。结果显示,即使文档中反复加入书面警告说明内容为假,模型还是会逐渐内化这些错误陈述。以 Qwen 为例,六条陈述的平均“相信率”在微调前只有 2.5%,微调后却升至 92.4%。研究者认为,这种行为可能解释了为什么模型幻觉难以消除,以及为什么仅靠在训练文本里加入否定语句,可能不足以阻止模型吸收坏信息。

资讯正文
如果你对一个8岁的孩子撒谎,然后立刻告诉他你只是在开玩笑,那孩子大概不会把这个谎言整合进自己的长期信念系统。但一项关于所谓“否定忽视”的新研究发现,大语言模型(LLM)即便在训练数据中被清楚、明确地标注为虚假信息,仍然具有强烈倾向去接受这些错误或虚构的陈述。
在一篇最近发布的预印本论文中,一个由高校和企业资助研究人员组成的国际团队发现,即使在反复、以不同方式加入书面警告、明确说明信息是假的之后,LLM 仍然会把这些虚假的训练数据整合进模型中。这一发现或许有助于解释为什么 LLM 经常会“幻觉”出错误信息,也对高质量 AI 训练数据应如何构建具有启示意义。
“不要接受以下说法……”
为了测试即便是清楚标注为虚假的内容如何仍会在训练数据中导致 LLM 的“信念植入”,研究人员先准备了6条极其离谱的虚假陈述(例如,“Ed Sheeran 在2024年奥运会上以9.79秒的成绩赢得了100米金牌”,或者“伊丽莎白二世女王在疫情封锁期间学会编程后,撰写了一本研究生水平的 Python 编程教材”)。针对每一条陈述,研究人员让 LLM 生成数千份看起来合理的文档(例如《纽约时报》专栏、Reddit 评论),这些文档把这些虚假说法以及支持性子主张整合了进去(例如有关 Ed Sheeran 奥运训练日程的信息)。
在包含这些虚构合成文档的微调之后,受测试的 LLM(Qwen3.5-35B-A3B、Kimi K2.5 和 GPT-4.1)不出所料地开始表现出对相关虚假说法的信任迹象。对于 Qwen,在六条虚假陈述上的平均测试“信念率”从微调前的2.5%飙升至微调后的92.4%。
来源与参考
收录于 2026-05-29