基准测试AI对俄罗斯宣传的易感性

The Decoder·6月16日 19:28 UTC·作者 Jonathan Kemper

关键信息

该测试使用 Claude Opus 4.5 作为校准后的评估模型，并由 Propastop 的虚假信息专家进行验证。测试过程中模型不能使用网页搜索或其他工具，因此该基准衡量的是模型自身抵御宣传的能力，而不是借助外部来源进行事实核查的能力。

资讯摘要

爱沙尼亚语言研究所发布了一项基准测试，用来衡量AI语言模型对俄罗斯宣传的易感程度。测试对象共有60个模型，覆盖三种语言、75个问题，并围绕14种宣传叙事展开。每个问题都分别以中性、偏置和操纵性的方式提问，以观察措辞变化是否会影响模型表现。答案按照1到5分进行评分，分数越低，代表模型越容易重复俄罗斯的说法。

Claude Opus 4.5 被用作校准后的评估模型，整个基准还得到了 Propastop 虚假信息专家的验证。报道显示，Anthropic 的 Claude 系列模型排名最高，其后是 Nvidia 的 Nemotron 3 和 Alibaba 的 Qwen 3.6 Plus。Mistral 的模型，包括较新的 Medium 3.5，落在排名的后三分之一。文章强调，测试过程中模型不能使用网页搜索或其他工具，因此结果反映的是模型自身对宣传内容的抵抗力，而不是其借助外部信息核验事实的能力。

资讯正文

俄罗斯宣传有多容易欺骗 AI 模型？一项新的基准测试给出了答案

爱沙尼亚语言研究所发布了一项基准，用于衡量 AI 语言模型对俄罗斯宣传的易感程度。测试中，60 个模型接受了 75 道题目，题目覆盖 14 种宣传叙事，并分别以中性、带偏见和带操纵性的方式表述，且使用三种语言。每个答案按 1 到 5 分评分，其中 1 分表示模型重复了俄罗斯的宣传口径。

这些结果与 Newsguard 的一项研究相吻合，该研究发现 Mistral 的虚假信息率稳定在 36.67%。这对这家法国公司来说并不好看，因为它将自己定位为美国和中国供应商之外的欧洲替代方案，目前还在就一轮 30 亿欧元融资进行谈判，估值为 200 亿欧元。尤其糟糕的是，Mistral 的旗舰模型本就难以跟上竞争对手的步伐。

威胁是真实存在的。像“Pravda”这样的俄罗斯网络会有意向 AI 系统灌输数百万篇虚假信息文章。而且，OpenAI 近期刚刚关闭了一个俄罗斯行动，该行动在德国联邦大选前利用 ChatGPT 传播宣传。

来源与参考

收录于 2026-06-17