Google将Gemini语音输入带入Gboard

TechCrunch AI··作者 Ivan Mehta

关键信息

Rambler可以去除“ums”“ahs”之类的口头填充词,还能处理句中纠正,例如把“3 p.m.”在口语修正后改成“2 p.m.”。Google表示,该功能使用基于Gemini的多语言模型并支持代码切换,不会存储语音录音,音频仅用于转写。

资讯摘要

Google在周二上午举行的Android Show:I/O Edition 2026活动上发布了Rambler,这是一项面向Gboard的新AI语音输入功能。Gboard是Google在Android上广泛使用的键盘应用,因此这次发布立即让Google与Wispr Flow、Typeless等语音输入创业公司站到了直接竞争的位置。和其他现代语音输入工具一样,Rambler会清理口语中的填充词,并且能够理解用户在句子中途的自我纠正。Google表示,该功能采用基于Gemini的多语言模型,并支持代码切换,也就是用户可以在同一句话中在不同语言之间切换而不丢失上下文。这个能力对多语言用户尤其重要,而许多西方语音输入应用此前对此支持并不完善。Google还表示,Gboard会清楚提示用户Rambler正在运行,而且不会存储语音录音,音频只用于转写。

Android Core Experiences负责人Ben Greenwood称,Google结合了端侧和云端处理,并在安全与隐私方面投入了大量工作。公司把Rambler描述为可以在所有应用中使用的能力,并称其像是在“重新发明键盘”。该功能最初将在今年夏天优先面向三星Galaxy和Google Pixel手机推出,之后再扩展到其他Android设备。它最大的战略优势是分发能力:由于Gboard默认预装在绝大多数Android手机上,Rambler可以立刻触达庞大的用户群。因此,独立语音输入应用若想让用户主动下载,就必须在准确率、更深的功能或更强的隐私承诺上拿出更有说服力的理由。

Google将Gemini语音输入带入Gboard

资讯正文

谷歌在周二上午的 Android Show:I/O Edition 2026 活动上,宣布为其广泛使用的 Android 键盘应用 Gboard 推出一项名为 Rambler 的全新 AI 语音听写功能。此次发布让谷歌直接与 Wispr Flow 和 Typeless 等产品展开竞争;近年来,这类 AI 听写应用不断增长,并已在桌面端和移动端积累了一批用户,但其中大多数尚未在 Android 上建立起稳固的立足点。

和其他听写应用一样,Rambler 会去除“嗯”“啊”之类的填充词。它还能够理解句中的更正,比如:“我打算在周三下午 3 点在我们常去的咖啡店见你……呃,下午 2 点。”

谷歌表示,它使用的是基于 Gemini 的多语言模型,也支持 code switching。code switching 指的是用户可以在一句话中切换语言——比如从英语切换到印地语——而 Rambler 会在不丢失上下文的情况下继续跟上。这种能力反映了许多多语言使用者真实的交流方式,而大多数西方听写应用在支持这一点上一直进展缓慢。

该公司表示,Gboard 会明确向用户提示 Rambler 功能正在使用中。它不会存储任何语音录音,只会使用音频来转写用户所说的话。谷歌在简报中提到,由于用户可以在所有应用中使用 Rambler 功能,这就像是在“重新发明键盘”。

在隐私方面,Android Core Experiences 总监 Ben Greenwood 表示,谷歌使用本地设备与云端处理相结合的方式,并且“在很多年里投入了大量资金”,以确保这些功能“安全且私密”——这显然是在向那些正在权衡 Rambler 与可能以不同方式处理数据的第三方听写应用的用户传递信号。

在过去几年里,Wispr Flow、Willow、Superwhisper、Monologue、Handy 和 Typeless 等一批听写应用相继出现。但直到现在,这些活动大多集中在桌面端和 iOS 上,使得 Android 相对处于供给不足的状态。谷歌自己上个月在 iOS 上发布了 AI Edge Eloquent,这是一款优先离线、由其端侧 Gemma AI 模型驱动的听写应用。

Rambler 是谷歌迄今为止弥补这一差距最明确的动作。这些新功能在最初的夏季推送中将仅限于三星 Galaxy 和 Google Pixel 手机,不过最终会扩展到其他 Android 设备。这里的核心优势在于分发能力:Gboard 是全球绝大多数 Android 用户的默认键盘,这意味着 Rambler 出厂即预装在数亿人的设备上。当平台方在操作系统层面进入某个市场时,独立应用就必须给出一个令人信服的理由——更高的准确率、更深入的功能,或者更强的隐私保障——才能说服用户单独下载。

对于听写创业公司来说,问题已不再是它们能否做出好产品,而是它们是否能做出足够好的产品,以至于用户会主动去寻找它。

来源与参考

  1. 原始链接
  2. Google adds Gemini-powered dictation to Gboard, which could be bad news for dictation startups | TechCrunch

收录于 2026-05-13