Gemma 4 12B 将原生多模态 AI 带到笔记本电脑

The Decoder··作者 Matthias Bastian

关键信息

Gemma 4 12B 是首个支持原生音频处理的中型 Gemma 模型,Google 还表示它可以把视频帧和音频结合起来分析多分钟的视频片段。该模型采用 Apache 2.0 许可证,可在 Hugging Face、Ollama、LM Studio 等平台获取,并带有 MTP drafter 以提升速度和效率。

资讯摘要

Google DeepMind 发布了 Gemma 4 12B,这是一款旨在把多模态 AI 带到普通笔记本电脑上的开放模型。根据 Google 的说法,这个模型只需 16 GB 的系统内存或显存就能本地运行,并且在基准测试中接近更大的 Gemma 4 26B 模型。此次发布填补了 Gemma 4 产品线中的中间层级,介于面向移动设备的小模型和更强大的大模型之间。Google 表示,Gemma 4 12B 能够原生处理文本、图像和音频,不需要为非文本输入单独准备编码器。这样的设计可以降低延迟和内存占用,同时让视觉输入保留空间信息,并把原始音频直接映射为类似 token 的向量。

该模型还支持语音识别、代码生成和视频分析,包括对多分钟视频片段的处理。Google 举例称,它曾分析一段 5 分钟的 Google I/O 主题演讲视频,处理了每秒 1 帧的 313 帧画面以及音频轨道。Google 还称,这个模型足以胜任更复杂的多步推理和智能体工作流,而这些任务过去通常需要更大的 Gemma 变体。Gemma 4 12B 已可通过 Hugging Face、Ollama、LM Studio 等工具获取,并采用 Apache 2.0 许可证,允许商用。

Gemma 4 12B 将原生多模态 AI 带到笔记本电脑

资讯正文

谷歌 DeepMind 的 Gemma 4 12B 将多模态 AI 压缩到一台仅有 16 GB 内存的笔记本电脑上

谷歌 DeepMind 发布了 Gemma 4 12B,这是一款开放式 AI 模型,能够将多模态能力带到日常笔记本电脑上。谷歌表示,它无需单独的编码器即可原生处理文本、图像和音频,从而减少处理时间、内存占用和延迟。谷歌称,该模型只需 16 GB RAM 就能在本地运行,并且在各项基准测试中几乎能达到 26B 模型——也就是其两倍大小——的表现。这也是首个具备原生音频处理能力的中型 Gemma 模型。

Gemma 4 12B 可以处理语音识别、代码生成和视频分析。根据开发者指南,它能够通过同时分析画面和音频来解析持续数分钟的视频片段。在一次演示中,它处理了一段五分钟长的 Google I/O 主题演讲视频:以每秒一帧的速度分析了 313 帧,并结合音频进行处理。

该模型已在 Hugging Face、Ollama、LM Studio 以及其他平台上线,采用 Apache 2.0 许可证,可用于商业用途。

来源与参考

  1. 原始链接
  2. Google Deepmind's Gemma 4 12B squeezes multimodal AI onto a laptop with just 16 GB of RAM
  3. Google's new Gemma 4 12B model is designed to run on any laptop with 16GB of RAM

收录于 2026-06-04