谷歌 AI 概览仍会拼错简单单词
TechCrunch AI··作者 Amanda Silberling
关键信息
谷歌的 AI 概览此前也曾给出有害或荒谬的答案,例如引用讽刺内容,或建议人们吃石头、往披萨上抹胶水。文章解释说,这类拼写问题源于 LLM 使用 token 处理文本,而不是像人一样逐字逐母阅读。
资讯摘要
TechCrunch 表示,谷歌的 AI 概览在基础语言任务上仍然会出错,甚至连普通单词里有几个字母都算不准。文章举例称,系统认为“Google”里有两个 P,“poop”里有一个“r”,“journalism”里有两个 d,但却把 journalism 拼成了“j-o-u-r-n-a-d-i-s-m”。它还正确判断出美国总统姓氏里只有一个 P,却把这个姓拼成了“t-r-p-u-m”。谷歌告诉 TechCrunch,单词内部的计数问题是大语言模型已知的挑战,公司正在修复这一具体问题。文章把这些错误放在谷歌更大范围的搜索改造背景下来看,即谷歌正努力把生成式 AI 变成搜索的核心。
与此同时,谷歌此前已经修补过其他 AI 概览失误,包括引用 The Onion 和 Reddit 的内容,以及建议人们吃石头或在披萨上抹胶水。作者认为,拼写错误之所以特别值得注意,是因为它说明 LLM 虽然能生成流畅答案,却仍会在人类眼里极其基础的任务上失败。文章还解释说,这些系统并不是像人类那样逐字阅读文本,而是依赖 token 化表示,因此很难进行字母级推理。文中引述的研究人员指出,即使是理想的 token 方案也未必能完美解决问题,因为语言本身就具有模糊性。整篇报道传达的核心意思是,即使是谷歌搜索这样的主流产品,AI 输出也仍然需要人工核验。

资讯正文
谷歌里有多少个字母 P?根据谷歌自己的说法,有两个。
谷歌的 AI Overview 还说,单词 “poop” 里“恰好有 1 个 ‘r’”,而单词 journalism 里有两个 ‘d’,却把它拼成了 j-o-u-r-n-a-d-i-s-m。谷歌至少识别出美国总统姓氏里有一个 P,但拼写成了 t-r-p-u-m。
要预言谷歌这次以 AI 为先的搜索改版会反响不佳,并不需要什么先知。我们已经见过这种情况了。谷歌第一次在 Search 中加入 AI Overviews 时,这一功能最终引用了《洋葱报》(The Onion)和 Reddit 上的讽刺帖子,还建议人们吃石头、把胶水抹在披萨上。
这一次,随着谷歌进一步加码,将生成式 AI 置于其已有 29 年历史的旗舰产品核心位置,看到它再度翻车也就不足为奇了。
谷歌在一封电子邮件声明中告诉 TechCrunch:“在单词中进行计数一直是大语言模型(LLM)已知的挑战,我们正在努力修复这个特定问题。”
这些基础拼写错误听起来可能很熟悉。LLM,也就是驱动聊天机器人和其他文本生成器的那类人工智能,并不是为理解拼写而设计的。多年来一直有个老笑话:每当一家公司发布新的 AI 模型时,你都应该问它 strawberry 这个单词里有多少个 ‘r’。这些 AI 模型——它们可以在几秒钟内写出一个应用程序,或者解决让数学家困惑数十年的问题——在拼写上却几乎只比幼儿园小朋友好一点。
不过,谷歌 AI Overview 的问题并不只限于这些可笑的拼写失误。谷歌已经修复了上周出现的一个问题:搜索单词 “disregard” 时,返回的看起来像是该词的词典释义,但释义却显示为:“明白了。若你有新的提示或问题,随时告诉我!” 但这些拼写错误之所以依然让人忍俊不禁,是因为它们实在太难彻底消除。
正如研究人员在我们询问这些拼写难题时此前解释过的那样,AI 并不是把句子当作由单词和字母组成的语言单位来感知。许多 LLM 建立在 transformer 模型之上,这种模型会把文本拆解成 token,而 token 可能是完整单词、音节或字母,具体取决于模型。AI 并不是像人类那样“阅读”文本,而是把文本转换成其自身的数值表示,再结合上下文,帮助 AI 想出一个合乎逻辑的回应。
阿尔伯塔大学的 AI 研究员、助理教授 Matthew Guzdial 告诉 TechCrunch:“LLM 基于这种 transformer 架构,而这种架构的一个显著特点是,它实际上并不是在读文本。当你输入一个提示时,发生的事情是它会被翻译成一种编码。”他说:“当它看到单词 ‘the’ 时,它会把它映射成一种对 ‘the’ 含义的编码,但它并不知道 ‘T’、‘H’、‘E’。”
支撑谷歌 AI Overview 这类 LLM 的基于 token 的架构本身就具有局限性,研究人员也并不乐观,认为他们能够解决拼写问题。
“要准确回答对语言模型来说究竟什么才算一个‘词’,其实有点难;而且即使我们能让人类专家就一个完美的词元词表达成一致,模型大概仍然会觉得把事物进一步‘切块’很有用,”东北大学研究大型语言模型可解释性的博士生 Sheridan Feucht 告诉 TechCrunch。“我的猜测是,由于这种模糊性,不存在所谓完美的分词器。”
这未必是研究人员眼下迫切关心的问题,因为 LLM 的价值并不在于它们拼写的能力。但这些明显的失败有助于提醒我们,人工智能并不完美,尽管它有时看起来像一种超出我们理解、无所不知的力量。我们不能不经核实就盲目信任 AI 的输出,而应仔细检查其准确性。
来源与参考
收录于 2026-05-29