默认AI模型会误读数据

The Decoder·5月24日 18:17 UTC·作者 Matthias Bastian

关键信息

Kucharski 的第一个测试使用了 2000 条模拟自由文本答案，分别标记为“UK”和“US”，但 Copilot 仍然报告了并不存在的差异。第二个测试把同一批数据复制成五个国家组后，Copilot 又编造出职业兴趣差异；当它被要求进一步分析时，虽然先做出了相同的关键词统计，却又忽略自己的结果，继续给出捏造的百分比。

资讯摘要

这篇文章的核心观点是：在 Copilot、Gemini 以及类似的 AI 工具里，不应该把模型选择一直留在默认设置上。文章引用数学家 Adam Kucharski 的一项实验，说明 AI 在做文本分析时，如果底层数据其实没有群体差异，仍然可能给出看似专业、实则错误的结论。第一次测试中，Kucharski 生成了 2000 条关于情绪的模拟自由文本回答，先标记为“UK”，再把完全相同的 2000 条内容标记为“US”，并将 4000 条数据打乱后交给 Copilot 的 Auto 模式分析。Copilot 却总结说美国和英国受访者在语气、强度和措辞风格上存在差异，尽管两组数据完全相同。接着，Kucharski 又让语言模型生成 200 条关于职业目标的陈述，并将同一份数据复制到美国、英国、法国、德国和意大利五个国家组中。

Copilot 再次编造出国家差异，例如声称意大利人更倾向于艺术类职业，而美国人比法国人更偏向商业职业。更关键的是，当 Kucharski 要求它进一步深挖时，Copilot 先做了关键词统计，而且结果明确显示各国完全一样，但它随后又无视这一证据，继续输出带有捏造百分比的分析。文章指出，问题之所以严重，是因为 Copilot 的 Auto 模式本意是自动选择最合适的模型，却在这种任务上失效了。相较之下，推理模型能够正确识别重复数据并完成分析。文章最后提醒，很多用户可能并不知道什么时候应该手动切换到推理模型，因此默认设置有可能把偏见和幻觉带进正式分析。

资讯正文

为什么你不应该在 Copilot、Gemini 和其他 AI 工具中把模型选择留在默认设置

要点

- 一项实验表明，Microsoft Copilot 在分析文本数据时，并不是实际根据数据内容得出结论，而是编造出带有国家刻板印象的结果。

- 在使用关于职业目标的模拟回答进行测试时，标准模式下的 AI 声称意大利人比英国人更关注艺术。问题在于：这两个国家的底层数据集完全相同。

- 该实验让 Copilot 运行在“Auto”模式下，这种模式本应为特定任务自动选择最佳模型。事实并非如此。推理模型本可以很好地完成任务，但用户需要知道如何以及何时根据工具切换到推理模型。大多数用户很可能并不知道这一点。

一项实验显示，微软的 AI 助手 Copilot 在分析数据时会套用刻板印象，而不是实际读取数据。思考型模型能解决这个任务，但有时需要用户真正了解自己使用的工具。

Microsoft Copilot 已经成为许多公司进行快速数据分析的首选工具。不过，数学家 Adam Kucharski 的一项实验显示，当它分析文本数据时，工具给出的结果可能与真实数据毫无关系。相反，它会回退到底层语言模型中内置的刻板印象。

在测试中，Kucharski 创建了 2000 条关于情绪的模拟自由文本回答，并将其标记为“UK”。随后，他把同样的 2000 条回答再复制一份，标记为“US”。之后，他把合并后的 4000 条记录打乱，并让 Copilot 在“Auto”模式下进行分析。

结果是：Copilot 给出了一份详细总结，描述美国和英国受访者据称存在的差异。“根据你分享的数据集，美国和英国的回答在语气、强度和措辞风格上主要存在差异，尽管它们表达的是相似的情绪状态，”该工具得出结论。但这些数据其实完全一样。

Copilot 把意大利人看作艺术家，把美国人看作商人

在第二个实验中，Kucharski 进一步加大了测试强度。他让一个语言模型生成了 200 条关于职业目标的陈述，并把这份数据集复制了五份，分别标记为美国、英国、法国、德国和意大利。

Copilot 再次给出了带有国家差异的结果：它声称意大利人表现出对艺术职业的兴趣是英国人的三倍，而美国人比法国人更偏向商业方向 1.5 倍。事实上，所有五组都包含相同那些陈词滥调且带有偏见的表述。

当 Kucharski 要求 Copilot 进一步深入分析时，该工具首先运行了一次基于关键词的简单计数。按理说，这会返回所有国家完全相同的结果。但 Copilot 忽略了自己刚刚得出的这一发现，转而给出了一份量化分析，再一次显示出捏造的差异，而且这次还编造了完全虚假的百分比。

Copilot 的 Auto 模式是主要问题所在

这项分析是在“Auto”模式下运行的，微软称该模式应该会自行选择最佳模型。但显然，它并没有做到。大多数用户在 Copilot 以及其他工具中可能都会继续使用这个默认设置。Kucharski 测试的版本是随 Microsoft 365 Business 账户提供的标准 Copilot。绝大多数 Copilot 用户很可能使用的也是这个版本。

“这意味着，人们目前用 AI 生成的分析，很可能与当事人实际说过的话毫无相似之处，”Kucharski 写道。如果把这类分析应用到真实数据集上，那么原本并不存在实际差异的群体，最终也可能看起来天差地别，这全都是因为语言模型对人口群体的内置假设所致。

思考型模型就能做对

我用 Microsoft Copilot 和 Google 最新的 Gemini Flash 3.5 模型重复做了职业目标测试。在这两种情况下，快速模型（“Instant” / Auto、Flash 3.5）都给出了国家刻板印象式的回答，而没有识别出数据实际上是相同的。

ChatGPT Instant 和 Claude Opus 4.7 会自动切换到扩展推理模式，编写 Python 代码来分析数据集，并发现了重复项。将 Copilot 和 Gemini 手动切换到它们更强大的思考型模型后，也能识别出重复。

不过，即便是思考型模型，也并不是数据分析的通行证。Kucharski 说，识别完全相同的数据，大多只在重复非常明显时才有效。Kucharski 认为，面对真实数据集——例如英国受访者和美国受访者给出的答案相似但并不完全相同——像 Python 脚本这样的计数工具未必管用。模型可能会退回到其内置偏见上，而这才是真正的问题：你并不知道模型何时达到了能力边界，也很难判断它是否真的触及了这些边界，或者它到底把结果带偏了多少。

任何在选择提示词或模型时凭直觉行事的人，也都面临事后偏见的风险：事后看来，总会觉得换一个模型就一定能做对。Kucharski 建议，在切换模型之前先写下你预期会得到什么结果，并在信任任何 AI 生成的分析之前做一些简单的 sanity check（有效性检查）。

没有炒作的 AI 新闻——由人类精选

订阅 THE DECODER，可享受无广告阅读、每周 AI 新闻简报、我们独家的“AI Radar”前沿报告（每年 6 次）、完整档案访问权限，以及评论区访问权限。

来源与参考

收录于 2026-05-25