默认AI模型会误读数据
The Decoder··作者 Matthias Bastian
关键信息
Kucharski 的第一个测试使用了 2000 条模拟自由文本答案,分别标记为“UK”和“US”,但 Copilot 仍然报告了并不存在的差异。第二个测试把同一批数据复制成五个国家组后,Copilot 又编造出职业兴趣差异;当它被要求进一步分析时,虽然先做出了相同的关键词统计,却又忽略自己的结果,继续给出捏造的百分比。
资讯摘要
这篇文章的核心观点是:在 Copilot、Gemini 以及类似的 AI 工具里,不应该把模型选择一直留在默认设置上。文章引用数学家 Adam Kucharski 的一项实验,说明 AI 在做文本分析时,如果底层数据其实没有群体差异,仍然可能给出看似专业、实则错误的结论。第一次测试中,Kucharski 生成了 2000 条关于情绪的模拟自由文本回答,先标记为“UK”,再把完全相同的 2000 条内容标记为“US”,并将 4000 条数据打乱后交给 Copilot 的 Auto 模式分析。Copilot 却总结说美国和英国受访者在语气、强度和措辞风格上存在差异,尽管两组数据完全相同。接着,Kucharski 又让语言模型生成 200 条关于职业目标的陈述,并将同一份数据复制到美国、英国、法国、德国和意大利五个国家组中。
Copilot 再次编造出国家差异,例如声称意大利人更倾向于艺术类职业,而美国人比法国人更偏向商业职业。更关键的是,当 Kucharski 要求它进一步深挖时,Copilot 先做了关键词统计,而且结果明确显示各国完全一样,但它随后又无视这一证据,继续输出带有捏造百分比的分析。文章指出,问题之所以严重,是因为 Copilot 的 Auto 模式本意是自动选择最合适的模型,却在这种任务上失效了。相较之下,推理模型能够正确识别重复数据并完成分析。文章最后提醒,很多用户可能并不知道什么时候应该手动切换到推理模型,因此默认设置有可能把偏见和幻觉带进正式分析。

资讯正文
为什么你不应该在 Copilot、Gemini 和其他 AI 工具中把模型选择留在默认设置
要点
- 一项实验表明,Microsoft Copilot 在分析文本数据时,并不是实际根据数据内容得出结论,而是编造出带有国家刻板印象的结果。
- 在使用关于职业目标的模拟回答进行测试时,标准模式下的 AI 声称意大利人比英国人更关注艺术。问题在于:这两个国家的底层数据集完全相同。
- 该实验让 Copilot 运行在“Auto”模式下,这种模式本应为特定任务自动选择最佳模型。事实并非如此。推理模型本可以很好地完成任务,但用户需要知道如何以及何时根据工具切换到推理模型。大多数用户很可能并不知道这一点。
一项实验显示,微软的 AI 助手 Copilot 在分析数据时会套用刻板印象,而不是实际读取数据。思考型模型能解决这个任务,但有时需要用户真正了解自己使用的工具。
Microsoft Copilot 已经成为许多公司进行快速数据分析的首选工具。不过,数学家 Adam Kucharski 的一项实验显示,当它分析文本数据时,工具给出的结果可能与真实数据毫无关系。相反,它会回退到底层语言模型中内置的刻板印象。
在测试中,Kucharski 创建了 2000 条关于情绪的模拟自由文本回答,并将其标记为“UK”。随后,他把同样的 2000 条回答再复制一份,标记为“US”。之后,他把合并后的 4000 条记录打乱,并让 Copilot 在“Auto”模式下进行分析。
结果是:Copilot 给出了一份详细总结,描述美国和英国受访者据称存在的差异。“根据你分享的数据集,美国和英国的回答在语气、强度和措辞风格上主要存在差异,尽管它们表达的是相似的情绪状态,”该工具得出结论。但这些数据其实完全一样。
Copilot 把意大利人看作艺术家,把美国人看作商人
在第二个实验中,Kucharski 进一步加大了测试强度。他让一个语言模型生成了 200 条关于职业目标的陈述,并把这份数据集复制了五份,分别标记为美国、英国、法国、德国和意大利。
Copilot 再次给出了带有国家差异的结果:它声称意大利人表现出对艺术职业的兴趣是英国人的三倍,而美国人比法国人更偏向商业方向 1.5 倍。事实上,所有五组都包含相同那些陈词滥调且带有偏见的表述。
当 Kucharski 要求 Copilot 进一步深入分析时,该工具首先运行了一次基于关键词的简单计数。按理说,这会返回所有国家完全相同的结果。但 Copilot 忽略了自己刚刚得出的这一发现,转而给出了一份量化分析,再一次显示出捏造的差异,而且这次还编造了完全虚假的百分比。
Copilot 的 Auto 模式是主要问题所在
这项分析是在“Auto”模式下运行的,微软称该模式应该会自行选择最佳模型。但显然,它并没有做到。大多数用户在 Copilot 以及其他工具中可能都会继续使用这个默认设置。Kucharski 测试的版本是随 Microsoft 365 Business 账户提供的标准 Copilot。绝大多数 Copilot 用户很可能使用的也是这个版本。
“这意味着,人们目前用 AI 生成的分析,很可能与当事人实际说过的话毫无相似之处,”Kucharski 写道。如果把这类分析应用到真实数据集上,那么原本并不存在实际差异的群体,最终也可能看起来天差地别,这全都是因为语言模型对人口群体的内置假设所致。
思考型模型就能做对
我用 Microsoft Copilot 和 Google 最新的 Gemini Flash 3.5 模型重复做了职业目标测试。在这两种情况下,快速模型(“Instant” / Auto、Flash 3.5)都给出了国家刻板印象式的回答,而没有识别出数据实际上是相同的。
ChatGPT Instant 和 Claude Opus 4.7 会自动切换到扩展推理模式,编写 Python 代码来分析数据集,并发现了重复项。将 Copilot 和 Gemini 手动切换到它们更强大的思考型模型后,也能识别出重复。
不过,即便是思考型模型,也并不是数据分析的通行证。Kucharski 说,识别完全相同的数据,大多只在重复非常明显时才有效。Kucharski 认为,面对真实数据集——例如英国受访者和美国受访者给出的答案相似但并不完全相同——像 Python 脚本这样的计数工具未必管用。模型可能会退回到其内置偏见上,而这才是真正的问题:你并不知道模型何时达到了能力边界,也很难判断它是否真的触及了这些边界,或者它到底把结果带偏了多少。
任何在选择提示词或模型时凭直觉行事的人,也都面临事后偏见的风险:事后看来,总会觉得换一个模型就一定能做对。Kucharski 建议,在切换模型之前先写下你预期会得到什么结果,并在信任任何 AI 生成的分析之前做一些简单的 sanity check(有效性检查)。
没有炒作的 AI 新闻——由人类精选
订阅 THE DECODER,可享受无广告阅读、每周 AI 新闻简报、我们独家的“AI Radar”前沿报告(每年 6 次)、完整档案访问权限,以及评论区访问权限。
来源与参考
收录于 2026-05-25