谷歌发布Gemma 4并采用Apache 2.0许可证以提升开发者自由度
Ars Technica AI··作者 Ryan Whitwam
关键信息
26B混合专家(MoE)和31B密集模型可在80GB H100显卡上无量化运行,所有版本均支持量化以适配低端设备;E2B和E4B版本专为手机和边缘设备如Pixel手机、Jetson Nano优化。
资讯摘要
谷歌Gemma 4推出了四种新模型:有效参数2B(E2B)、有效参数4B(E4B)、26B混合专家(MoE)和31B密集型模型,每种都针对不同硬件环境设计。大模型表现出色,31B模型在Arena排行榜中位列第3,26B MoE模型性能优于其20倍大小的竞品。
所有模型均优化了低延迟和高效本地推理,适合桌面和移动设备使用。特别值得注意的是,谷歌将原本限制性较强的自定义许可证更换为Apache 2.0许可证,以增强开发者自由度并促进跨行业创新。

资讯正文
Google宣布推出Gemma 4开源AI模型,并改用Apache 2.0许可证。
Google的Gemini AI模型在过去一年中取得了显著进步,但你只能在Google设定的条件下使用它。公司的Gemma开源权重模型提供了更多自由度,但Gemma 3自一年多前发布以来已略显陈旧。从今天起,开发者可以开始使用Gemma 4,该版本有四种尺寸,均针对本地运行进行了优化。Google还回应了开发者对AI许可问题的不满,决定弃用此前自定义的Gemma许可证。
与以往的开源权重模型一样,Google设计Gemma 4使其能够在本地设备上运行。这当然意味着多种可能性。两个较大的Gemma变体——26B混合专家(MoE)和31B密集型(Dense)模型——可在单张80GB的Nvidia H100 GPU上以bfloat16格式无量化运行。虽然这张GPU售价约2万美元,但它仍然是本地硬件。如果进行量化处理以降低精度,这些大模型也能适配消费级GPU。
Google还表示,他们特别注重降低延迟,以充分发挥Gemma本地处理的优势。其中,26B混合专家模型在推理模式下仅激活38亿个参数(总共260亿),因此每秒生成的token数量远超同类规模的模型。而31B密集型模型则更侧重于质量而非速度,Google预期开发者会对其进行微调,用于特定应用场景。
另外两款Gemma 4模型——有效2B(E2B)和有效4B(E4B)——专为移动设备设计。这些选项在推理过程中保持低内存占用,实际运行参数分别为20亿或40亿。Google称Pixel团队与高通和联发科紧密合作,优化了这些模型,使其适用于智能手机、树莓派和Jetson Nano等设备。它们不仅比Gemma 3更省内存和电池,Google还宣称本次实现了“近乎零延迟”。
更强性能,更开放生态
据称,所有新的Gemma 4模型都将大幅超越Gemma 3——Google表示,这些是目前可以在本地硬件上运行的最强大的模型。Google称Gemma 31B将在顶级开源AI模型排行榜Arena中位列第三,仅次于GLM-5和Kimi 2.5。然而,即使是最庞大的Gemma 4变体也仅为这些模型的极小一部分,理论上运行成本要便宜得多。
来源与参考
收录于 2026-04-03