LLM 即使被警告也会吸收错误说法

Ars Technica AI·5月29日 05:29 UTC·作者 Kyle Orland

关键信息

研究人员使用了六条刻意荒谬的虚假陈述，并围绕这些陈述生成了数千篇看似合理的合成文档，例如新闻专栏和 Reddit 评论。经过这类数据微调后，Qwen 对这六条陈述的平均“相信率”从 2.5% 飙升到 92.4%，说明否定标注并没有阻止模型内化这些错误内容。

资讯摘要

一个国际研究团队考察了一个问题：当训练数据明确写明某个说法是假的时，大语言模型能否避免学到这些错误信息。研究关注的现象被称为“否定忽视”，意思是模型即使在上下文里被告知不要接受某个说法，也仍然会把它当成真的。为此，研究人员先构造了六条明显荒谬的虚假陈述，例如“Ed Sheeran 在 2024 年奥运会 100 米项目中以 9.79 秒夺金”，以及“伊丽莎白二世女王在 COVID-19 封锁期间学会编程后写了一本 Python 教材”。随后，他们围绕每条陈述生成了数千篇看起来很真实的合成文档，包括《纽约时报》风格专栏和 Reddit 风格评论，并在其中嵌入这些错误说法及其支持性细节。

研究人员再用这些伪造数据对多个模型进行微调，包括 Qwen3.5-35B-A3B、Kimi K2.5 和 GPT-4.1。结果显示，即使文档中反复加入书面警告说明内容为假，模型还是会逐渐内化这些错误陈述。以 Qwen 为例，六条陈述的平均“相信率”在微调前只有 2.5%，微调后却升至 92.4%。研究者认为，这种行为可能解释了为什么模型幻觉难以消除，以及为什么仅靠在训练文本里加入否定语句，可能不足以阻止模型吸收坏信息。

资讯正文

如果你对一个8岁的孩子撒谎，然后立刻告诉他你只是在开玩笑，那孩子大概不会把这个谎言整合进自己的长期信念系统。但一项关于所谓“否定忽视”的新研究发现，大语言模型（LLM）即便在训练数据中被清楚、明确地标注为虚假信息，仍然具有强烈倾向去接受这些错误或虚构的陈述。

在一篇最近发布的预印本论文中，一个由高校和企业资助研究人员组成的国际团队发现，即使在反复、以不同方式加入书面警告、明确说明信息是假的之后，LLM 仍然会把这些虚假的训练数据整合进模型中。这一发现或许有助于解释为什么 LLM 经常会“幻觉”出错误信息，也对高质量 AI 训练数据应如何构建具有启示意义。

“不要接受以下说法……”

为了测试即便是清楚标注为虚假的内容如何仍会在训练数据中导致 LLM 的“信念植入”，研究人员先准备了6条极其离谱的虚假陈述（例如，“Ed Sheeran 在2024年奥运会上以9.79秒的成绩赢得了100米金牌”，或者“伊丽莎白二世女王在疫情封锁期间学会编程后，撰写了一本研究生水平的 Python 编程教材”）。针对每一条陈述，研究人员让 LLM 生成数千份看起来合理的文档（例如《纽约时报》专栏、Reddit 评论），这些文档把这些虚假说法以及支持性子主张整合了进去（例如有关 Ed Sheeran 奥运训练日程的信息）。

在包含这些虚构合成文档的微调之后，受测试的 LLM（Qwen3.5-35B-A3B、Kimi K2.5 和 GPT-4.1）不出所料地开始表现出对相关虚假说法的信任迹象。对于 Qwen，在六条虚假陈述上的平均测试“信念率”从微调前的2.5%飙升至微调后的92.4%。

来源与参考

收录于 2026-05-29