谷歌Gemma 4将代理型AI带入手机,数据永不离开设备

The Decoder··作者 Jonathan Kemper

关键信息

E2B和E4B版本可在仅需6–8GB内存的设备上运行,速度比前代快达四倍,电池消耗减少高达60%;它们针对Arm和高通的移动芯片进行了优化,利用SME2指令集加速AI计算。

资讯摘要

谷歌的Gemma 4是本地人工智能的一项突破,使智能手机能够在不发送任何数据到云端的情况下执行复杂的代理任务,如搜索维基百科、生成摘要或解读照片。该模型采用Apache 2.0许可证发布,包含四种尺寸:轻量级手机版本(E2B/E4B)和高性能服务器版本(26B/31B)。E2B版本仅占用1.3GB存储空间,可在仅有6GB内存的设备上运行。

谷歌报告称性能大幅提升:在新型Arm芯片上推理速度最快可达5.5倍,功耗降低最多60%。一个名为“Google AI Edge Gallery”的免费应用程序让用户可以直接在手机上与这些模型交互,开发者还可以通过GitHub创建自定义技能并与社区共享。

谷歌Gemma 4将代理型AI带入手机,数据永不离开设备

资讯正文

Google的Gemma 4将免费的代理型AI带入手机,且数据永远不会离开设备

关键要点

- Google开源模型Gemma 4可在设备上完全本地处理文本、图像和音频,并通过内置的代理技能自主使用维基百科、交互式地图或二维码生成器等工具。

- 更小的智能手机版本E2B和E4B分别在仅配备6GB和8GB内存的设备上运行,据Google称速度比前一代快达四倍,将成为Android平台上即将推出的Gemini Nano 4的基础。

- 所有模型均采用商业友好的Apache 2.0许可发布,开发者可通过GitHub创建并分享自定义技能,而免费的“Google AI Edge Gallery”应用已在Android和iOS平台上线。

Google新推出的开源模型Gemma 4可完全在设备端处理文本、图像和音频。借助代理技能,该AI无需云端即可独立调用维基百科或交互式地图等工具。

运行该模型所需的Google AI Edge Gallery应用在Android和iOS上均为免费。自Gemma 4发布以来,该应用已跃居苹果App Store最畅销的免费生产力类应用第四名,紧随Claude、Gemini和ChatGPT之后。

Gemma 4基于与Google专有模型Gemini 3相同的研究成果,但以商业友好的Apache 2.0许可证发布。Google表示,Gemma系列产品自首代发布以来下载量已超过4亿次。所有模型支持超过140种语言的文本、图像和音频处理。

四种模型尺寸覆盖从手机到服务器的全部场景

最新版本包含四个变体。E2B和E4B专为智能手机设计。“E”代表“有效参数”,即推理过程中实际激活的参数数量。经过量化处理后,E2B在设备上占用约1.3GB空间,而E4B需要大约2.5GB。

更大的26B和31B版本面向服务器和高性能硬件。26B版本采用专家混合架构,包含128个专家,因此任何时候仅有38亿参数处于活跃状态。密集型的31B模型提供高达256,000个token的上下文窗口。

Google还与Arm和高通合作,针对当前移动芯片优化了手机版本的性能。根据Google的说法,Gemma 4在Android上的运行速度比前一代快至四倍,同时电池消耗最多减少60%。Arm自己的基准测试显示了更大提升:若设备搭载支持SME2指令集的新款Arm芯片(该扩展直接在硅片层面加速矩阵运算),平均处理速度可提升5.5倍。

代理技能让本地AI具备工具使用能力

除了基础的聊天、图像识别和音频转录功能外,该应用还附带Google称为“代理技能”的功能:维基百科搜索、交互式地图、自动生成摘要和闪卡。Gemma 4还能描述照片,将语音输入转化为图表和可视化内容,甚至能与其他本地模型协同完成文本转语音或图像生成任务。Google通过一个演示技能展示了其如何描述并播放动物叫声。

据谷歌称,图像识别也得到了显著提升。光学字符识别(OCR)任务——从图片、图表或手写文字中提取文本——现在能提供更明显更好的结果。该模型还能更可靠地处理与时间相关的信息,这对日历、提醒事项和闹钟等功能至关重要。

单独来看,这些功能与云服务提供商已提供的能力相比并无突破性进展。真正引人注目的地方在于,如今一个运行纯本地模型的演示应用可以在手机上独立使用这些工具。开发者可以通过 GitHub 构建自定义技能,并与社区分享。内置工具确实需要互联网连接,但模型本身在设备本地运行,对话内容也不会被保存。

Gemma 4 为下一代 Gemini Nano 奠定了基础。

根据谷歌的说法,Gemma 4 E2B 和 E4B 是下一代 Android 系统级本地模型 Gemini Nano 4 的基础。今天为 Gemma 4 编写的代码,在今年晚些时候搭载于新款旗舰设备上的 Gemini Nano 4 发布时,可直接兼容使用。目前 Gemini Nano 已经运行在超过 1.4 亿台安卓设备上,支持智能回复和音频摘要等功能。

早在去年 12 月,谷歌就通过 FunctionGemma 展示了这一方向:这是一个仅有 2.7 亿参数的小型本地模型,能够将自然语言指令路由到其他手机应用。它可以将自然语言转化为结构化函数调用,例如开关手电筒、创建联系人、发送邮件、添加日程项、在地图上查找位置,或打开 Wi-Fi 设置。

今年早些时候,苹果与谷歌达成价值数十亿美元的合作协议,凸显了本地 AI 的战略重要性。自一月以来我们便知道,苹果下一代基础模型将基于谷歌的 Gemini 技术构建,将在 2025 年全面升级 Siri 功能。

来源与参考

  1. 原始链接
  2. Google's Gemma 4 puts free agentic AI on your phone and no data ever leaves the device

收录于 2026-04-12