谷歌发布 Gemma 4 12B 多模态模型
Google DeepMind News··作者 Olivier Lacombe
关键信息
谷歌表示,Gemma 4 12B 的基准表现接近更大的 26B MoE 模型,但总内存占用不到其一半。它还配备了 Multi-Token Prediction(MTP)drafter 以降低延迟,并可通过 LM Studio、Ollama、Hugging Face Transformers、llama.cpp、MLX、SGLang、vLLM 和 Unsloth 等工具使用。
资讯摘要
谷歌发布了 Gemma 4 12B,并将其描述为一款统一的多模态模型,目标是把具备智能体能力的多模态智能直接带到笔记本电脑上。它位于面向边缘设备的 Gemma 4 E4B 和更强大的 26B Mixture of Experts 版本之间,同时拥有更小的内存占用。谷歌表示,这是首个支持原生音频输入的中型 Gemma 模型。公司称,这个模型在标准基准上的表现接近更大的 26B MoE 模型,但仍足够小,可以在配备 16GB 显存或统一内存的消费级笔记本上本地运行。该模型的关键变化是采用了无编码器架构:图像和音频输入不再经过独立的多模态编码器,而是直接流入 LLM 主干。
对于视觉输入,谷歌用一个轻量级嵌入模块替代了原有视觉编码器,这个模块由一次矩阵乘法、位置嵌入和归一化组成。对于音频输入,模型则完全移除了音频编码器,并将原始音频信号投影到与文本 token 相同的维度空间中。谷歌还表示,该模型配备了 MTP drafter,以降低延迟,并支持在多种开发工具中进行本地推理和部署。此次发布也被定位为开放且易用的项目,采用 Apache 2.0 许可,同时通过新的 Skills Repository 以及 Google Cloud 的部署选项支持智能体开发。

资讯正文
介绍 Gemma 4 12B:一款统一的、无编码器的多模态模型
今天,我们发布 Gemma 4 12B,这是我们最新的模型,旨在将具备智能体能力的多模态智能直接带到笔记本电脑上。它在我们更适合边缘设备的 E4B 与更先进的 26B Mixture of Experts(MoE)之间架起了桥梁,Gemma 4 12B 以更小的内存占用封装了强大的能力。它也是我们首个支持原生音频输入的中型模型。
得益于开发者社区,Gemma 4 系列模型如今的下载量已经突破 1.5 亿次。你们已经用它构建了从用于物理辅助的可穿戴机器人手臂,到企业级 AI 安全系统等各种应用。我们很期待看到你们用这一最新加入的模型创造出什么。
以下是 Gemma 4 12B 独特之处的概览:
- 全新的统一架构:没有多模态编码器。视觉和音频输入会直接流入 LLM 主干。
- 高级推理能力:基准测试表现接近我们的 26B 模型,解锁强大的多步推理和智能体工作流。
- 笔记本可运行:体积足够小,只需 16GB 显存或统一内存即可在本地运行。
- 开放且易获取:以 Apache 2.0 许可发布,并获得整个开发者生态系统的支持。
- 支持 drafter:Gemma 4 12B 配备了 Multi-Token Prediction(MTP)drafter,以降低延迟。
这些特性共同将先进的多模态能力带到日常硬件上,同时不牺牲速度或推理能力。下面我们来更深入地看看 Gemma 4 12B 是如何做到这一点的。
在本地运行最先进的智能体
Gemma 4 12B 在标准基准测试上的表现接近我们更大的 26B MoE 模型,但总内存占用不到后者的一半。它足够小,可在配备 16GB 内存的消费级笔记本上本地运行,让你能够直接在自己的设备上体验强大的多模态和智能体功能。
体验一种独特高效的统一架构
Gemma 4 12B 的突出之处在于它处理视觉和音频输入的简化方式。传统多模态模型通常依赖独立的编码器,在将这些表示传递给语言模型之前先对图像和音频进行转换。由于这些分离式编码器会增加延迟并提高内存占用,我们为 Gemma 4 12B 训练了无编码器架构,直接集成音频和视觉输入。
以下是 Gemma 4 12B 原生处理多模态输入的方式:
- 视觉:我们用一个轻量级嵌入模块替换了 Gemma 4 的视觉编码器,该模块仅由一次矩阵乘法、位置嵌入和归一化组成。这使得 LLM 主干可以接管视觉处理。
- 音频:我们进一步简化了音频处理。我们完全移除了音频编码器,并将原始音频信号投影到与文本 token 相同的维度空间中。
对于想了解更细致拆解的开发者,请前往配套的 Gemma 4 12B Developer Guide。
立即开始使用
- 自行体验:在 LM Studio、Ollama、Google AI Edge Gallery App、Google AI Edge Eloquent app 和 LiteRT-LM CLI 中,点击几下就能开始试用
- 下载权重:可直接从 Hugging Face 和 Kaggle 下载预训练与指令微调检查点。
整合并学习:请查阅开发者文档和快速入门笔记本。
使用你最喜欢的开发工具:通过 Hugging Face Transformers、llama.cpp、MLX、SGLang 和 vLLM 实现本地推理流水线,或使用 Unsloth 以高效率进行微调。
借助 Gemma Skills 解锁智能体开发:为了支持智能体基于最新的 Gemma 进展进行构建,我们发布了官方 Skills Repository。这是一个专门设计的技能库,旨在帮助智能体基于 Gemma 模型进行构建。
按你的方式部署:使用 Google Cloud 在生产环境中启动端点。你可以通过 Gemini Enterprise Agent Platform Model Garden、Cloud Run 和 GKE 以多种方式进行部署。
来源与参考
收录于 2026-06-10