Google 用多 token 预测加速 Gemma 4

The Decoder·5月7日 00:05 UTC·作者 Matthias Bastian

关键信息

Google 表示，这种方法会利用主模型等待内存数据时的空闲算力，因此可以在不牺牲质量或准确率的情况下提升吞吐量。这些草稿器已在 Hugging Face 和 Kaggle 上以 Apache 2.0 许可证发布，而 Gemma 4 自 4 月初推出以来下载量已超过 6000 万次。

资讯摘要

Google 为其开源 AI 模型家族 Gemma 4 发布了多 token 预测草稿器，简称 MTP。公司表示，这种方法最多可以将文本生成速度提升 3 倍。通常情况下，LLM 会一次只生成一个 token，并且在每一步都要从内存中加载数十亿参数，因此处理器的计算核心很多时间都在等待数据。Google 认为，这正是生成速度较慢的主要原因。借助 MTP，一个较小的辅助模型会利用原本闲置的算力，一次提出多个 token。

随后主模型在一次前向过程中检查这些候选 token，如果正确就一起接受。Google 表示，这样可以在不降低质量或准确率的前提下，让文本生成更快完成。该速度提升适用于智能手机、本地电脑和云端应用。Google 还表示，这些草稿器已按 Apache 2.0 许可证开源，并可在 Hugging Face 和 Kaggle 上获取。公司补充说，Gemma 4 于 4 月初发布后，下载量已经超过 6000 万次。

资讯正文

Google借助多 token 预测将 Gemma 4 的速度提升三倍

Google 已为其开源 AI 模型家族 Gemma 4 发布了多 token 预测草稿器（MTP），旨在将文本生成速度最高提升至三倍。LLM 通常一次只生成一个 token，并在每一步都要从内存中加载数十亿参数。Google 表示，处理器的计算核心大部分时间都只是等待数据。

该公司新的 MTP 技术正是为了解决这一瓶颈。在主模型等待数据的同时，一个小型辅助模型会利用闲置算力一次性建议多个 token。随后，主模型会在单次运行中检查所有这些建议——如果它们正确，就会立即被接受。Google 称，小模型只是在利用原本会被浪费的时间，因此在不损失质量或准确性的情况下，可以更快地产生相同的文本。

这种加速效果适用于智能手机、本地电脑和云端应用。这些草稿器已在 Hugging Face 和 Kaggle 上以开源 Apache 2.0 许可证提供。Google 的 Gemma 4 开放权重模型于 4 月初推出，迄今已被下载超过 6000 万次。

来源与参考

收录于 2026-05-07