谷歌 AI 概览仍会拼错简单单词

TechCrunch AI·5月28日 08:17 UTC·作者 Amanda Silberling

关键信息

谷歌的 AI 概览此前也曾给出有害或荒谬的答案，例如引用讽刺内容，或建议人们吃石头、往披萨上抹胶水。文章解释说，这类拼写问题源于 LLM 使用 token 处理文本，而不是像人一样逐字逐母阅读。

资讯摘要

TechCrunch 表示，谷歌的 AI 概览在基础语言任务上仍然会出错，甚至连普通单词里有几个字母都算不准。文章举例称，系统认为“Google”里有两个 P，“poop”里有一个“r”，“journalism”里有两个 d，但却把 journalism 拼成了“j-o-u-r-n-a-d-i-s-m”。它还正确判断出美国总统姓氏里只有一个 P，却把这个姓拼成了“t-r-p-u-m”。谷歌告诉 TechCrunch，单词内部的计数问题是大语言模型已知的挑战，公司正在修复这一具体问题。文章把这些错误放在谷歌更大范围的搜索改造背景下来看，即谷歌正努力把生成式 AI 变成搜索的核心。

与此同时，谷歌此前已经修补过其他 AI 概览失误，包括引用 The Onion 和 Reddit 的内容，以及建议人们吃石头或在披萨上抹胶水。作者认为，拼写错误之所以特别值得注意，是因为它说明 LLM 虽然能生成流畅答案，却仍会在人类眼里极其基础的任务上失败。文章还解释说，这些系统并不是像人类那样逐字阅读文本，而是依赖 token 化表示，因此很难进行字母级推理。文中引述的研究人员指出，即使是理想的 token 方案也未必能完美解决问题，因为语言本身就具有模糊性。整篇报道传达的核心意思是，即使是谷歌搜索这样的主流产品，AI 输出也仍然需要人工核验。

资讯正文

谷歌里有多少个字母 P？根据谷歌自己的说法，有两个。

谷歌的 AI Overview 还说，单词 “poop” 里“恰好有 1 个 ‘r’”，而单词 journalism 里有两个 ‘d’，却把它拼成了 j-o-u-r-n-a-d-i-s-m。谷歌至少识别出美国总统姓氏里有一个 P，但拼写成了 t-r-p-u-m。

要预言谷歌这次以 AI 为先的搜索改版会反响不佳，并不需要什么先知。我们已经见过这种情况了。谷歌第一次在 Search 中加入 AI Overviews 时，这一功能最终引用了《洋葱报》（The Onion）和 Reddit 上的讽刺帖子，还建议人们吃石头、把胶水抹在披萨上。

这一次，随着谷歌进一步加码，将生成式 AI 置于其已有 29 年历史的旗舰产品核心位置，看到它再度翻车也就不足为奇了。

谷歌在一封电子邮件声明中告诉 TechCrunch：“在单词中进行计数一直是大语言模型（LLM）已知的挑战，我们正在努力修复这个特定问题。”

这些基础拼写错误听起来可能很熟悉。LLM，也就是驱动聊天机器人和其他文本生成器的那类人工智能，并不是为理解拼写而设计的。多年来一直有个老笑话：每当一家公司发布新的 AI 模型时，你都应该问它 strawberry 这个单词里有多少个 ‘r’。这些 AI 模型——它们可以在几秒钟内写出一个应用程序，或者解决让数学家困惑数十年的问题——在拼写上却几乎只比幼儿园小朋友好一点。

不过，谷歌 AI Overview 的问题并不只限于这些可笑的拼写失误。谷歌已经修复了上周出现的一个问题：搜索单词 “disregard” 时，返回的看起来像是该词的词典释义，但释义却显示为：“明白了。若你有新的提示或问题，随时告诉我！” 但这些拼写错误之所以依然让人忍俊不禁，是因为它们实在太难彻底消除。

正如研究人员在我们询问这些拼写难题时此前解释过的那样，AI 并不是把句子当作由单词和字母组成的语言单位来感知。许多 LLM 建立在 transformer 模型之上，这种模型会把文本拆解成 token，而 token 可能是完整单词、音节或字母，具体取决于模型。AI 并不是像人类那样“阅读”文本，而是把文本转换成其自身的数值表示，再结合上下文，帮助 AI 想出一个合乎逻辑的回应。

阿尔伯塔大学的 AI 研究员、助理教授 Matthew Guzdial 告诉 TechCrunch：“LLM 基于这种 transformer 架构，而这种架构的一个显著特点是，它实际上并不是在读文本。当你输入一个提示时，发生的事情是它会被翻译成一种编码。”他说：“当它看到单词 ‘the’ 时，它会把它映射成一种对 ‘the’ 含义的编码，但它并不知道 ‘T’、‘H’、‘E’。”

支撑谷歌 AI Overview 这类 LLM 的基于 token 的架构本身就具有局限性，研究人员也并不乐观，认为他们能够解决拼写问题。

“要准确回答对语言模型来说究竟什么才算一个‘词’，其实有点难；而且即使我们能让人类专家就一个完美的词元词表达成一致，模型大概仍然会觉得把事物进一步‘切块’很有用，”东北大学研究大型语言模型可解释性的博士生 Sheridan Feucht 告诉 TechCrunch。“我的猜测是，由于这种模糊性，不存在所谓完美的分词器。”

这未必是研究人员眼下迫切关心的问题，因为 LLM 的价值并不在于它们拼写的能力。但这些明显的失败有助于提醒我们，人工智能并不完美，尽管它有时看起来像一种超出我们理解、无所不知的力量。我们不能不经核实就盲目信任 AI 的输出，而应仔细检查其准确性。

来源与参考

收录于 2026-05-29