Google 用多 token 预测加速 Gemma 4

The Decoder··作者 Matthias Bastian

关键信息

Google 表示,这种方法会利用主模型等待内存数据时的空闲算力,因此可以在不牺牲质量或准确率的情况下提升吞吐量。这些草稿器已在 Hugging Face 和 Kaggle 上以 Apache 2.0 许可证发布,而 Gemma 4 自 4 月初推出以来下载量已超过 6000 万次。

资讯摘要

Google 为其开源 AI 模型家族 Gemma 4 发布了多 token 预测草稿器,简称 MTP。公司表示,这种方法最多可以将文本生成速度提升 3 倍。通常情况下,LLM 会一次只生成一个 token,并且在每一步都要从内存中加载数十亿参数,因此处理器的计算核心很多时间都在等待数据。Google 认为,这正是生成速度较慢的主要原因。借助 MTP,一个较小的辅助模型会利用原本闲置的算力,一次提出多个 token。

随后主模型在一次前向过程中检查这些候选 token,如果正确就一起接受。Google 表示,这样可以在不降低质量或准确率的前提下,让文本生成更快完成。该速度提升适用于智能手机、本地电脑和云端应用。Google 还表示,这些草稿器已按 Apache 2.0 许可证开源,并可在 Hugging Face 和 Kaggle 上获取。公司补充说,Gemma 4 于 4 月初发布后,下载量已经超过 6000 万次。

Google 用多 token 预测加速 Gemma 4

资讯正文

Google借助多 token 预测将 Gemma 4 的速度提升三倍

Google 已为其开源 AI 模型家族 Gemma 4 发布了多 token 预测草稿器(MTP),旨在将文本生成速度最高提升至三倍。LLM 通常一次只生成一个 token,并在每一步都要从内存中加载数十亿参数。Google 表示,处理器的计算核心大部分时间都只是等待数据。

该公司新的 MTP 技术正是为了解决这一瓶颈。在主模型等待数据的同时,一个小型辅助模型会利用闲置算力一次性建议多个 token。随后,主模型会在单次运行中检查所有这些建议——如果它们正确,就会立即被接受。Google 称,小模型只是在利用原本会被浪费的时间,因此在不损失质量或准确性的情况下,可以更快地产生相同的文本。

这种加速效果适用于智能手机、本地电脑和云端应用。这些草稿器已在 Hugging Face 和 Kaggle 上以开源 Apache 2.0 许可证提供。Google 的 Gemma 4 开放权重模型于 4 月初推出,迄今已被下载超过 6000 万次。

来源与参考

  1. 原始链接
  2. Google speeds up Gemma 4 threefold with multi-token prediction

收录于 2026-05-07