Gemma 4 12B 将原生多模态 AI 带到笔记本电脑

The Decoder·6月4日 03:54 UTC·作者 Matthias Bastian

关键信息

Gemma 4 12B 是首个支持原生音频处理的中型 Gemma 模型，Google 还表示它可以把视频帧和音频结合起来分析多分钟的视频片段。该模型采用 Apache 2.0 许可证，可在 Hugging Face、Ollama、LM Studio 等平台获取，并带有 MTP drafter 以提升速度和效率。

资讯摘要

Google DeepMind 发布了 Gemma 4 12B，这是一款旨在把多模态 AI 带到普通笔记本电脑上的开放模型。根据 Google 的说法，这个模型只需 16 GB 的系统内存或显存就能本地运行，并且在基准测试中接近更大的 Gemma 4 26B 模型。此次发布填补了 Gemma 4 产品线中的中间层级，介于面向移动设备的小模型和更强大的大模型之间。Google 表示，Gemma 4 12B 能够原生处理文本、图像和音频，不需要为非文本输入单独准备编码器。这样的设计可以降低延迟和内存占用，同时让视觉输入保留空间信息，并把原始音频直接映射为类似 token 的向量。

该模型还支持语音识别、代码生成和视频分析，包括对多分钟视频片段的处理。Google 举例称，它曾分析一段 5 分钟的 Google I/O 主题演讲视频，处理了每秒 1 帧的 313 帧画面以及音频轨道。Google 还称，这个模型足以胜任更复杂的多步推理和智能体工作流，而这些任务过去通常需要更大的 Gemma 变体。Gemma 4 12B 已可通过 Hugging Face、Ollama、LM Studio 等工具获取，并采用 Apache 2.0 许可证，允许商用。

资讯正文

谷歌 DeepMind 的 Gemma 4 12B 将多模态 AI 压缩到一台仅有 16 GB 内存的笔记本电脑上

谷歌 DeepMind 发布了 Gemma 4 12B，这是一款开放式 AI 模型，能够将多模态能力带到日常笔记本电脑上。谷歌表示，它无需单独的编码器即可原生处理文本、图像和音频，从而减少处理时间、内存占用和延迟。谷歌称，该模型只需 16 GB RAM 就能在本地运行，并且在各项基准测试中几乎能达到 26B 模型——也就是其两倍大小——的表现。这也是首个具备原生音频处理能力的中型 Gemma 模型。

Gemma 4 12B 可以处理语音识别、代码生成和视频分析。根据开发者指南，它能够通过同时分析画面和音频来解析持续数分钟的视频片段。在一次演示中，它处理了一段五分钟长的 Google I/O 主题演讲视频：以每秒一帧的速度分析了 313 帧，并结合音频进行处理。

该模型已在 Hugging Face、Ollama、LM Studio 以及其他平台上线，采用 Apache 2.0 许可证，可用于商业用途。

来源与参考

收录于 2026-06-04