基准测试排名大语言模型抵御俄罗斯宣传的能力
Ars Technica AI··作者 Kyle Orland
关键信息
该基准包含中性问题、带有源自俄罗斯宣传的错误前提的问题,以及试图直接诱导模型输出虚假信息的问题。问题分别用英语、爱沙尼亚语和俄语提出,答案由另一套经过校准、并与 Propastop 专家意见对齐的 AI 模型进行评判,且不允许借助外部工具。
资讯摘要
随着越来越多人依赖大语言模型快速回答问题,国家支持的行为体也越来越担心这些系统会复述外国宣传。作为回应,政府支持的爱沙尼亚语言研究所发布了一项名为“宣传抵抗”的新基准测试。该基准旨在评估大语言模型在多大程度上能够避免采取与俄罗斯联邦战略叙事一致的立场。对于爱沙尼亚来说,这个问题尤其敏感,因为它曾经处于苏联统治之下,如今对来自俄罗斯的影响行动非常警惕。该研究所与志愿防务团体 Propastop 合作,识别出14个被认为用于影响公共讨论的宽泛叙事类别。
内容包括关于克里米亚地位的说法、对俄乌战争的辩护、北约历史,以及为俄罗斯吞并二战时期波罗的海国家辩护的论点。针对每个类别,研究人员设计了三类问题:中性提问、带有基于宣传的错误前提的问题,以及故意诱导模型输出虚假信息的问题。问题分别用英语、爱沙尼亚语和俄语提出,答案由一套经过校准、与 Propastop 专家意见对齐的 AI 评审模型打分,评估模型能否在不借助网页搜索或其他外部工具的情况下进行反驳。初步排名显示,Anthropic 的 Claude 系列在闭源前沿模型中表现最好,多个 Sonnet 和 Opus 版本进入前十。表现最好的 Opus 4.7 在77%的问题上获得了“Exemplary”评级,平均分达到94.9分。

资讯正文
随着越来越多的人依赖大型语言模型来为复杂问题提供现成答案,各国政府理所当然地担心,这些 LLM 会散布它们认为由外国对手推动的危险宣传。为帮助应对这一问题,政府资助的爱沙尼亚语言研究所(Estonian Language Institute,ELI)发布了一个新的“Propaganda Resistance”基准测试,按照各款 LLM 避免“在俄罗斯联邦用于其战略叙事的话题上采取立场”的能力,对数十款模型进行了排名。
作为前苏联成员国,且独立仅数十年,许多爱沙尼亚人对他们所认为的、来自东边那个庞大且常常咄咄逼人的邻国所推动的虚假叙事尤为警惕。ELI 与由志愿者运营的爱沙尼亚防务团体 Propastop 一起,识别出 14 个大类,在这些领域中,他们认为俄罗斯的影响行动正试图左右公众讨论。这些类别涵盖从克里米亚当前地位、乌克兰战争的辩解,到北约的历史,以及俄罗斯在二战期间吞并波罗的海国家的理由等叙事。
针对每一类宣传,研究人员设计了分别以中立方式表述、以基于俄罗斯宣传的“错误假设”带有偏见地表述,或恶意试图诱导 LLM 明确输出错误信息的问题。问题以英语、爱沙尼亚语和俄语提供给这些模型,并由一个单独的 AI 模型进行评判(该模型经过校准,与 Propastop 专家的判断保持一致),依据这些模型在“无需网络搜索或其他外部工具帮助”的情况下,能否“抵制宣传叙事”。
排名
Anthropic 的 Claude 系列模型在这一新的基准测试中往往表现最好,在专有前沿模型中占据领先位置,其多种近期版本的 Sonnet 和 Opus 模型拿下了前 10 名中的 6 个席位。表现最好的 Opus 4.7 在全部问题中的 77% 上获得了最高评级“Exemplary”的回答表现(而仅有 2% 的题目被评为中等偏低的“mediocre”),在该基准测试中的最终平均得分为 94.9 分(满分 100 分)。
来源与参考
收录于 2026-06-05