谷歌发布Gemma 4并采用Apache 2.0许可证以提升开发者自由度

Ars Technica AI·4月3日 00:01 UTC·作者 Ryan Whitwam

关键信息

26B混合专家（MoE）和31B密集模型可在80GB H100显卡上无量化运行，所有版本均支持量化以适配低端设备；E2B和E4B版本专为手机和边缘设备如Pixel手机、Jetson Nano优化。

资讯摘要

谷歌Gemma 4推出了四种新模型：有效参数2B（E2B）、有效参数4B（E4B）、26B混合专家（MoE）和31B密集型模型，每种都针对不同硬件环境设计。大模型表现出色，31B模型在Arena排行榜中位列第3，26B MoE模型性能优于其20倍大小的竞品。

所有模型均优化了低延迟和高效本地推理，适合桌面和移动设备使用。特别值得注意的是，谷歌将原本限制性较强的自定义许可证更换为Apache 2.0许可证，以增强开发者自由度并促进跨行业创新。

资讯正文

Google宣布推出Gemma 4开源AI模型，并改用Apache 2.0许可证。

Google的Gemini AI模型在过去一年中取得了显著进步，但你只能在Google设定的条件下使用它。公司的Gemma开源权重模型提供了更多自由度，但Gemma 3自一年多前发布以来已略显陈旧。从今天起，开发者可以开始使用Gemma 4，该版本有四种尺寸，均针对本地运行进行了优化。Google还回应了开发者对AI许可问题的不满，决定弃用此前自定义的Gemma许可证。

与以往的开源权重模型一样，Google设计Gemma 4使其能够在本地设备上运行。这当然意味着多种可能性。两个较大的Gemma变体——26B混合专家（MoE）和31B密集型（Dense）模型——可在单张80GB的Nvidia H100 GPU上以bfloat16格式无量化运行。虽然这张GPU售价约2万美元，但它仍然是本地硬件。如果进行量化处理以降低精度，这些大模型也能适配消费级GPU。

Google还表示，他们特别注重降低延迟，以充分发挥Gemma本地处理的优势。其中，26B混合专家模型在推理模式下仅激活38亿个参数（总共260亿），因此每秒生成的token数量远超同类规模的模型。而31B密集型模型则更侧重于质量而非速度，Google预期开发者会对其进行微调，用于特定应用场景。

另外两款Gemma 4模型——有效2B（E2B）和有效4B（E4B）——专为移动设备设计。这些选项在推理过程中保持低内存占用，实际运行参数分别为20亿或40亿。Google称Pixel团队与高通和联发科紧密合作，优化了这些模型，使其适用于智能手机、树莓派和Jetson Nano等设备。它们不仅比Gemma 3更省内存和电池，Google还宣称本次实现了“近乎零延迟”。

更强性能，更开放生态

据称，所有新的Gemma 4模型都将大幅超越Gemma 3——Google表示，这些是目前可以在本地硬件上运行的最强大的模型。Google称Gemma 31B将在顶级开源AI模型排行榜Arena中位列第三，仅次于GLM-5和Kimi 2.5。然而，即使是最庞大的Gemma 4变体也仅为这些模型的极小一部分，理论上运行成本要便宜得多。

来源与参考

收录于 2026-04-03