Google 的 DiffusionGemma 提升并行文本生成速度

Ars Technica AI·6月11日 03:29 UTC·作者 Ryan Whitwam

关键信息

DiffusionGemma 是一个 MoE 模型，总参数量为 260 亿，但推理时只激活 38 亿参数，因此有望放进大约 18GB 的 GPU 显存中。Google 还表示它最多可并行生成 256 个 token，但它仍处于实验阶段，在某些情况下错误率比自回归模型更高。

资讯摘要

Google DeepMind 发布了 DiffusionGemma，这是 Gemma 4 开源模型家族中的一个新成员，但它与传统文本模型的工作方式明显不同。与大多数按从左到右、逐个 token 生成文本的自回归模型不同，DiffusionGemma 采用类似扩散模型的去噪流程，反复修正一整块占位 token，最后一次性完成输出。Google 表示，这种方式让模型在本地硬件上更快、更高效，包括 Nvidia DGX 设备以及游戏显卡。该模型采用 Mixture of Experts（MoE）架构，总参数量为 260 亿，但推理时只激活 38 亿参数，因此对显存的要求相对可控。Google 给出的测试结果显示，在 RTX 5090 上它的输出速度约为每秒 700 个 token，而在单块 Nvidia H100 上可以超过每秒 1000 个 token。

公司称，这大约是同等规模自回归 Gemma 模型的 4 倍输出速度。Google 认为，这种架构特别适合非线性任务，例如行内编辑、分子序列处理、数学图形绘制，以及类似数独的推理问题。与此同时，Google 也承认文本扩散存在缺点，例如错误率更高，而且当输出很短时会显得不够高效。尽管如此，DiffusionGemma 仍被定义为实验性模型，并且以 Apache 2.0 许可证开放提供，用户可以从 Hugging Face 下载模型权重。Google 还表示，它与 Nvidia 合作对该模型进行了优化，覆盖量化 RTX GPU 以及 H100、DGX Spark 等企业级平台。

资讯正文

又一天，又一个来自 Google 的 AI 模型。这一次，Google DeepMind 发布了 Gemma 4 开放模型家族中的新成员，但它与该系列其他模型在根本上不同。DiffusionGemma 并不像大多数 AI 模型那样线性生成输出。相反，它可以并行生成整块文本。Google 表示，这使它在运行于 Nvidia DGX 之类的本地硬件，或普通游戏显卡时，速度更快、效率更高。

大多数 AI 模型都采用自回归设计——它们从左到右一次生成一个 token。DiffusionGemma 与图像生成模型更为相似，后者先从静态内容开始，再通过去噪来创建所需内容。该模型会多次在画布上对一组占位 token 进行处理，生成可能的 token，并利用这些结果来改进对其他 token 的估计。流程结束时，模型会一次性完成整块 token 输出，也就是“去噪”后的文本画布。

就 Google 的开放模型而言，DiffusionGemma 的体量相当大。它是一款混合专家模型（Mixture of Experts，MoE），总参数量为 260 亿，但推理时只会激活 38 亿参数。这意味着它应该可以装入高端 GPU 的 18GB 内存配额中。在 RTX 5090 上测试时，DiffusionGemma 的输出速度约为每秒 700 个 token。使用单个 Nvidia H100 AI 加速器时，DiffusionGemma 可以实现每秒 1,000 个以上的 token 输出。这大约是同等规模自回归 Gemma 模型输出速度的四倍。

图片来源：Google

这种文本生成方式把瓶颈从内存带宽转移到了算力上，最多可并行生成 256 个 token。Google 表示，这在内联编辑、分子测序和数学图形绘制等非线性任务中带来了可衡量的提升。上方动画展示了 DiffusionGemma 如何被调校用于解决数独谜题；对于标准自回归 AI 模型来说，这是一项出了名的困难任务，因为每个 token 都依赖于后续 token。DiffusionGemma 能够持续自我修正大量 token，这让这类任务更容易完成。

本地效率的多条路径

如果扩散这么快，为什么 Google 不把它用在大型云端 Gemini 模型中？Google 确实做过这方面的实验，但文本扩散也有一些缺点，其中之一是错误率更高。在图像扩散模型中，单个预测错误的像素不会让整张图失效，但语言是离散的。文本中等价的错误可能会让一整块 token 失去意义，并迫使你重新开始以获得更好的输出。扩散模型在期望输出只有几个 token 时也会浪费资源。为了把结果收敛到比如五个 token，它们必须做大量并行工作，而自回归模型从头到尾只需五步就能完成。

不过，对于本地处理来说，这种效率提升仍然使其成为一个很有吸引力的实验方向。在云端，自回归模型可以把来自多个用户的大量计算任务批量处理，这样它们就能持续产出 token，而且这些系统使用的高带宽内存（HBM）能够更高效地移动数据。

相反，本地 AI 会因为较低的内存带宽和空闲时间而产生浪费的计算周期。扩散模型可以更高效地利用可用算力，但这并不是唯一的方法。Google 最近也开始实现 Multi-Token Prediction（MTP）草稿器，它们会利用原本会被浪费的计算周期来预测可能的 token，从而提升速度。不过，扩散模型甚至比 Gemma 的 MTP 版本还要快。

Google 强调，DiffusionGemma 处于实验阶段，但它与所有其他第四代 Gemma 模型一样，采用 Apache 2.0 许可发布。你今天就可以从 Hugging Face 下载该模型权重。Google 表示，它与 Nvidia 合作，确保 DiffusionGemma 针对多种配置进行了优化，包括高端 RTX GPU（量化后）以及 H100 或 DGX Spark 平台等企业级系统。

来源与参考

收录于 2026-06-11