基准测试AI对俄罗斯宣传的易感性
The Decoder··作者 Jonathan Kemper
关键信息
该测试使用 Claude Opus 4.5 作为校准后的评估模型,并由 Propastop 的虚假信息专家进行验证。测试过程中模型不能使用网页搜索或其他工具,因此该基准衡量的是模型自身抵御宣传的能力,而不是借助外部来源进行事实核查的能力。
资讯摘要
爱沙尼亚语言研究所发布了一项基准测试,用来衡量AI语言模型对俄罗斯宣传的易感程度。测试对象共有60个模型,覆盖三种语言、75个问题,并围绕14种宣传叙事展开。每个问题都分别以中性、偏置和操纵性的方式提问,以观察措辞变化是否会影响模型表现。答案按照1到5分进行评分,分数越低,代表模型越容易重复俄罗斯的说法。
Claude Opus 4.5 被用作校准后的评估模型,整个基准还得到了 Propastop 虚假信息专家的验证。报道显示,Anthropic 的 Claude 系列模型排名最高,其后是 Nvidia 的 Nemotron 3 和 Alibaba 的 Qwen 3.6 Plus。Mistral 的模型,包括较新的 Medium 3.5,落在排名的后三分之一。文章强调,测试过程中模型不能使用网页搜索或其他工具,因此结果反映的是模型自身对宣传内容的抵抗力,而不是其借助外部信息核验事实的能力。

资讯正文
俄罗斯宣传有多容易欺骗 AI 模型?一项新的基准测试给出了答案
爱沙尼亚语言研究所发布了一项基准,用于衡量 AI 语言模型对俄罗斯宣传的易感程度。测试中,60 个模型接受了 75 道题目,题目覆盖 14 种宣传叙事,并分别以中性、带偏见和带操纵性的方式表述,且使用三种语言。每个答案按 1 到 5 分评分,其中 1 分表示模型重复了俄罗斯的宣传口径。
这些结果与 Newsguard 的一项研究相吻合,该研究发现 Mistral 的虚假信息率稳定在 36.67%。这对这家法国公司来说并不好看,因为它将自己定位为美国和中国供应商之外的欧洲替代方案,目前还在就一轮 30 亿欧元融资进行谈判,估值为 200 亿欧元。尤其糟糕的是,Mistral 的旗舰模型本就难以跟上竞争对手的步伐。
威胁是真实存在的。像“Pravda”这样的俄罗斯网络会有意向 AI 系统灌输数百万篇虚假信息文章。而且,OpenAI 近期刚刚关闭了一个俄罗斯行动,该行动在德国联邦大选前利用 ChatGPT 传播宣传。
来源与参考
收录于 2026-06-17