Gemma 4 通过推测解码提速最高 3 倍

Ars Technica AI·5月6日 23:44 UTC·作者 Ryan Whitwam

关键信息

MTP 起草模型与主模型相比要小得多，例如 Gemma 4 E2B 的起草模型只有 7400 万参数。谷歌表示，这些起草模型会与主模型共享 key-value cache，并使用稀疏解码缩小下一标记的候选范围，从而减少无效计算。

资讯摘要

谷歌在今年春季发布了 Gemma 4 开放模型，把它定位为适合在本地硬件上运行的高性能 AI。现在，谷歌又为 Gemma 推出了实验性的多标记预测（MTP）起草模型，目标是通过推测解码来提升生成速度。其基本思路是：先由一个轻量级起草模型提前猜测未来可能出现的标记，再由更大的主模型进行验证或修正。谷歌表示，这样可以减少逐个标记生成时的等待时间，并让整体吞吐量最高提升 3 倍。

报道指出，这一点对本地 AI 尤其重要，因为普通用户的硬件在速度和内存带宽上通常远不如前沿云端模型所依赖的高带宽存储和大规模加速器集群。Gemma 与 Gemini 使用相同的底层技术，但它被调优为本地执行；在全精度下，较大的 Gemma 4 模型可以由单个高性能 AI 加速器运行，而量化后则可在消费级 GPU 上运行。谷歌还把 Gemma 4 的许可证改成了 Apache 2.0，比之前 Gemma 版本使用的定制许可证更宽松。新推出的 E2B 和 E4B 起草模型还加入了共享 key-value cache 和稀疏解码等优化，以更高效地进行推测解码。

资讯正文

谷歌今年春季推出了 Gemma 4 开源模型，承诺为本地 AI 带来新一层级的能力与性能。谷歌对边缘 AI 的这一设想，借助面向 Gemma 的 Multi-Token Prediction（MTP）drafter，可能已经变得更快了。谷歌表示，这些实验性模型利用了一种投机式解码形式来猜测未来的 token，与模型按自身方式逐个生成 token 的做法相比，这可以加快生成速度。

最新的 Gemma 模型建立在支撑谷歌前沿 Gemini AI 的同一底层技术之上，但经过调优后可在本地运行。Gemini 的优化目标是在谷歌定制的 TPU 芯片上运行，这些芯片在配备超高速互连和内存的庞大集群中工作。单个高性能 AI 加速器就能以完整精度运行最大的 Gemma 4 模型，而量化后则可以让它在消费级 GPU 上运行。

Gemma 让用户可以在自己的硬件上折腾 AI，而不是把所有数据都交给谷歌或其他公司的云端 AI 系统。谷歌还将 Gemma 4 的许可证改为 Apache 2.0，这比谷歌此前版本采用的定制 Gemma 许可证宽松得多。不过，绝大多数人用来运行本地 AI 模型的硬件存在固有局限，这正是 MTP 发挥作用的地方。

像 Gemma（或 Gemini）这样的 LLM 会以自回归方式生成 token——也就是说，它们根据前一个 token 一次生成一个 token。每个 token 所需的计算量都和上一个一样，不管这个 token 只是输出中的一个填充词，还是复杂逻辑问题中的关键信息。

自己搭建 AI 的问题在于，与企业级硬件使用的高带宽内存（HBM）相比，你的系统内存很可能并不算快。因此，处理器在生成每个 token 时都要花很多时间把参数从 VRAM 搬运到计算单元，而在这一过程中，计算周期就被闲置了。

MTP 利用这段时间绕过重量级模型，借助轻量级 drafter 生成投机 token。虽然这些草稿模型更小——在 Gemma 4 E2B 中只有 7400 万参数——但它们也在多个方面进行了优化，以加快投机 token 的生成速度。例如，drafter 会共享 key value cache（本质上是 LLM 的活动内存），这样就不需要重新计算主模型已经推导出的上下文。E2B 和 E4B drafter 还使用稀疏解码技术，将可能出现的 token 聚类范围缩小。

来源与参考

收录于 2026-05-07