谷歌发布 Gemma 4 12B 多模态模型

Google DeepMind News·6月9日 22:10 UTC·作者 Olivier Lacombe

关键信息

谷歌表示，Gemma 4 12B 的基准表现接近更大的 26B MoE 模型，但总内存占用不到其一半。它还配备了 Multi-Token Prediction（MTP）drafter 以降低延迟，并可通过 LM Studio、Ollama、Hugging Face Transformers、llama.cpp、MLX、SGLang、vLLM 和 Unsloth 等工具使用。

资讯摘要

谷歌发布了 Gemma 4 12B，并将其描述为一款统一的多模态模型，目标是把具备智能体能力的多模态智能直接带到笔记本电脑上。它位于面向边缘设备的 Gemma 4 E4B 和更强大的 26B Mixture of Experts 版本之间，同时拥有更小的内存占用。谷歌表示，这是首个支持原生音频输入的中型 Gemma 模型。公司称，这个模型在标准基准上的表现接近更大的 26B MoE 模型，但仍足够小，可以在配备 16GB 显存或统一内存的消费级笔记本上本地运行。该模型的关键变化是采用了无编码器架构：图像和音频输入不再经过独立的多模态编码器，而是直接流入 LLM 主干。

对于视觉输入，谷歌用一个轻量级嵌入模块替代了原有视觉编码器，这个模块由一次矩阵乘法、位置嵌入和归一化组成。对于音频输入，模型则完全移除了音频编码器，并将原始音频信号投影到与文本 token 相同的维度空间中。谷歌还表示，该模型配备了 MTP drafter，以降低延迟，并支持在多种开发工具中进行本地推理和部署。此次发布也被定位为开放且易用的项目，采用 Apache 2.0 许可，同时通过新的 Skills Repository 以及 Google Cloud 的部署选项支持智能体开发。

资讯正文

介绍 Gemma 4 12B：一款统一的、无编码器的多模态模型

今天，我们发布 Gemma 4 12B，这是我们最新的模型，旨在将具备智能体能力的多模态智能直接带到笔记本电脑上。它在我们更适合边缘设备的 E4B 与更先进的 26B Mixture of Experts（MoE）之间架起了桥梁，Gemma 4 12B 以更小的内存占用封装了强大的能力。它也是我们首个支持原生音频输入的中型模型。

得益于开发者社区，Gemma 4 系列模型如今的下载量已经突破 1.5 亿次。你们已经用它构建了从用于物理辅助的可穿戴机器人手臂，到企业级 AI 安全系统等各种应用。我们很期待看到你们用这一最新加入的模型创造出什么。

以下是 Gemma 4 12B 独特之处的概览：

- 全新的统一架构：没有多模态编码器。视觉和音频输入会直接流入 LLM 主干。

- 高级推理能力：基准测试表现接近我们的 26B 模型，解锁强大的多步推理和智能体工作流。

- 笔记本可运行：体积足够小，只需 16GB 显存或统一内存即可在本地运行。

- 开放且易获取：以 Apache 2.0 许可发布，并获得整个开发者生态系统的支持。

- 支持 drafter：Gemma 4 12B 配备了 Multi-Token Prediction（MTP）drafter，以降低延迟。

这些特性共同将先进的多模态能力带到日常硬件上，同时不牺牲速度或推理能力。下面我们来更深入地看看 Gemma 4 12B 是如何做到这一点的。

在本地运行最先进的智能体

Gemma 4 12B 在标准基准测试上的表现接近我们更大的 26B MoE 模型，但总内存占用不到后者的一半。它足够小，可在配备 16GB 内存的消费级笔记本上本地运行，让你能够直接在自己的设备上体验强大的多模态和智能体功能。

体验一种独特高效的统一架构

Gemma 4 12B 的突出之处在于它处理视觉和音频输入的简化方式。传统多模态模型通常依赖独立的编码器，在将这些表示传递给语言模型之前先对图像和音频进行转换。由于这些分离式编码器会增加延迟并提高内存占用，我们为 Gemma 4 12B 训练了无编码器架构，直接集成音频和视觉输入。

以下是 Gemma 4 12B 原生处理多模态输入的方式：

- 视觉：我们用一个轻量级嵌入模块替换了 Gemma 4 的视觉编码器，该模块仅由一次矩阵乘法、位置嵌入和归一化组成。这使得 LLM 主干可以接管视觉处理。

- 音频：我们进一步简化了音频处理。我们完全移除了音频编码器，并将原始音频信号投影到与文本 token 相同的维度空间中。

对于想了解更细致拆解的开发者，请前往配套的 Gemma 4 12B Developer Guide。

立即开始使用

- 自行体验：在 LM Studio、Ollama、Google AI Edge Gallery App、Google AI Edge Eloquent app 和 LiteRT-LM CLI 中，点击几下就能开始试用

- 下载权重：可直接从 Hugging Face 和 Kaggle 下载预训练与指令微调检查点。

整合并学习：请查阅开发者文档和快速入门笔记本。

使用你最喜欢的开发工具：通过 Hugging Face Transformers、llama.cpp、MLX、SGLang 和 vLLM 实现本地推理流水线，或使用 Unsloth 以高效率进行微调。

借助 Gemma Skills 解锁智能体开发：为了支持智能体基于最新的 Gemma 进展进行构建，我们发布了官方 Skills Repository。这是一个专门设计的技能库，旨在帮助智能体基于 Gemma 模型进行构建。

按你的方式部署：使用 Google Cloud 在生产环境中启动端点。你可以通过 Gemini Enterprise Agent Platform Model Garden、Cloud Run 和 GKE 以多种方式进行部署。

来源与参考

收录于 2026-06-10