谷歌首次以Apache 2.0许可证发布Gemma 4模型

The Decoder·4月3日 02:06 UTC·作者 Matthias Bastian

关键信息

31B密集模型在全球Arena AI文本排行榜中排名第三，26B MoE模型排名第六；两者都能在单张H100 GPU上高效运行。较小的E2B/E4B版本专为移动设备和物联网优化，支持128K上下文窗口。

资讯摘要

谷歌的Gemma 4是其迄今为止最强大的开源AI模型系列，包含四种尺寸——E2B、E4B、26B MoE和31B密集型模型——适用于从智能手机到服务器的各种设备。这是首次所有模型都采用Apache 2.0许可证，允许无限制的商业使用。这些模型在推理任务（如GPQA钻石基准测试）中表现优异（31B达到85.7%），且性能优于自身规模20倍的其他模型。

它们支持函数调用、结构化JSON输出等代理功能。26B MoE仅激活38亿参数进行推理，速度更快；31B则追求最高质量。所有模型现已可在Hugging Face、Kaggle和Ollama上获取。

资讯正文

Google的Gemma 4首次以Apache 2.0许可证发布

关键要点

- Gemma 4是谷歌推出的一组四个开源AI模型（2B、4B、26B和31B参数），其技术基础与专有的Gemini 3相同。

- 这是首次将这些模型以商业上更宽松的Apache 2.0许可证发布，相比早期Gemma版本使用的限制性更强的许可证是一次重大转变。

- 该系列产品覆盖广泛的硬件平台：较小的2B和4B变体可在智能手机、树莓派或Jetson Orin Nano上运行，而更大的26B和31B模型则针对工作站和服务器设计。

谷歌发布了迄今为止功能最强的开源模型系列Gemma 4。这四个新模型可运行在从智能手机到工作站的各种设备上，并首次全部采用完全开放的Apache 2.0许可证。

这些模型基于与谷歌专有Gemini 3相同的底层技术，且以商业友好的Apache 2.0许可证发布，赋予开发者对其数据、基础设施和模型的完全控制权。此前的Gemma版本使用的是更受限的谷歌专有许可证。

据谷歌称，所有Gemma 4模型在多步骤推理和数学任务方面均有显著提升。对于代理工作流，它们原生支持函数调用、结构化JSON输出和系统指令，使自主代理能够接入各种工具和API。

四种模型尺寸覆盖从边缘设备到工作站的全场景

Gemma 4提供四种尺寸：有效2B（E2B）、有效4B（E4B）、一个26B的专家混合（MoE）模型和一个31B的密集模型。这四个模型均超越了简单的对话能力，能够处理复杂的逻辑和代理工作流。

目前，31B模型在全球所有开源模型中排名第三，在Arena AI文本排行榜上；26B MoE模型排名第六。谷歌表示，Gemma 4的表现优于自身规模20倍的其他模型。这对开发者而言意味着：在显著降低硬件要求的情况下仍能获得高性能结果。

两个较大的模型面向工作站和服务器。未量化版本的31B模型bfloat16权重可完整部署在一个单卡80 GB NVIDIA H100 GPU上，而量化版本也可在消费级显卡上运行。

26B MoE模型在推理时仅激活其中的38亿参数，这应能带来更快的令牌生成速度。31B密集模型则专注于极致质量，适合用于微调的基础模型。

较小的E2B和E4B模型专为移动设备和物联网硬件设计。它们在推理时分别仅激活20亿和40亿参数，从而节省内存和电池寿命。这两个边缘模型原生支持图像、视频和音频输入，可用于语音识别。它们的上下文窗口可达128,000个token，而更大模型最多可处理256,000个token。

独立的基准测试机构Artificial Analysis验证了Gemma 4大模型的数据表现。在用于科学推理的GPQA Diamond基准测试中，Gemma 4 31B模型在推理模式下得分达到85.7%，这是参数量少于400亿的所有开源模型中的第二高分，仅略低于Qwen3.5 27B的85.8%。Gemma 4 31B的输出token数约为120万，可能比Qwen3.5 27B（150万）和Qwen3.5 35B A3B（160万）所需的计算资源更少。

26B稀疏专家模型（MoE）在同一基准测试中得分为79.2%，高于OpenAI的gpt-oss-120B（76.2%），但落后于Qwen3.5 9B的80.6%。Artificial Analysis指出，这两个被评估的模型均运行在单张H100 GPU上。Artificial Analysis Intelligence Index对全部四个Gemma 4模型的完整评测仍在进行中。正如以往一样，基准测试数据在预测实际性能方面也有其局限性。

如何获取Gemma 4及其支持平台

Gemma 4目前已可在Hugging Face、Kaggle和Ollama上获取。Google AI Studio支持31B和26B版本，而Google AI Edge Gallery则处理E4B和E2B变体。

发布初期，这些模型兼容广泛的框架和平台，包括Hugging Face Transformers、vLLM、llama.cpp、MLX、Ollama、NVIDIA NIM和NeMo、LM Studio、Unsloth、SGLang、Keras等。微调功能可通过Google Colab、Vertex AI或本地游戏级GPU实现。对于生产部署，模型可通过Vertex AI、Cloud Run和GKE扩展至Google云平台。

在硬件方面，Google表示Gemma 4支持从Jetson Orin Nano到Blackwell GPU的NVIDIA设备，通过ROCm堆栈支持AMD GPU，并兼容Google自研的Trillium和Ironwood TPUs。

来源与参考