Google 的 DiffusionGemma 提升并行文本生成速度

Ars Technica AI··作者 Ryan Whitwam

关键信息

DiffusionGemma 是一个 MoE 模型,总参数量为 260 亿,但推理时只激活 38 亿参数,因此有望放进大约 18GB 的 GPU 显存中。Google 还表示它最多可并行生成 256 个 token,但它仍处于实验阶段,在某些情况下错误率比自回归模型更高。

资讯摘要

Google DeepMind 发布了 DiffusionGemma,这是 Gemma 4 开源模型家族中的一个新成员,但它与传统文本模型的工作方式明显不同。与大多数按从左到右、逐个 token 生成文本的自回归模型不同,DiffusionGemma 采用类似扩散模型的去噪流程,反复修正一整块占位 token,最后一次性完成输出。Google 表示,这种方式让模型在本地硬件上更快、更高效,包括 Nvidia DGX 设备以及游戏显卡。该模型采用 Mixture of Experts(MoE)架构,总参数量为 260 亿,但推理时只激活 38 亿参数,因此对显存的要求相对可控。Google 给出的测试结果显示,在 RTX 5090 上它的输出速度约为每秒 700 个 token,而在单块 Nvidia H100 上可以超过每秒 1000 个 token。

公司称,这大约是同等规模自回归 Gemma 模型的 4 倍输出速度。Google 认为,这种架构特别适合非线性任务,例如行内编辑、分子序列处理、数学图形绘制,以及类似数独的推理问题。与此同时,Google 也承认文本扩散存在缺点,例如错误率更高,而且当输出很短时会显得不够高效。尽管如此,DiffusionGemma 仍被定义为实验性模型,并且以 Apache 2.0 许可证开放提供,用户可以从 Hugging Face 下载模型权重。Google 还表示,它与 Nvidia 合作对该模型进行了优化,覆盖量化 RTX GPU 以及 H100、DGX Spark 等企业级平台。

Google 的 DiffusionGemma 提升并行文本生成速度

资讯正文

又一天,又一个来自 Google 的 AI 模型。这一次,Google DeepMind 发布了 Gemma 4 开放模型家族中的新成员,但它与该系列其他模型在根本上不同。DiffusionGemma 并不像大多数 AI 模型那样线性生成输出。相反,它可以并行生成整块文本。Google 表示,这使它在运行于 Nvidia DGX 之类的本地硬件,或普通游戏显卡时,速度更快、效率更高。

大多数 AI 模型都采用自回归设计——它们从左到右一次生成一个 token。DiffusionGemma 与图像生成模型更为相似,后者先从静态内容开始,再通过去噪来创建所需内容。该模型会多次在画布上对一组占位 token 进行处理,生成可能的 token,并利用这些结果来改进对其他 token 的估计。流程结束时,模型会一次性完成整块 token 输出,也就是“去噪”后的文本画布。

就 Google 的开放模型而言,DiffusionGemma 的体量相当大。它是一款混合专家模型(Mixture of Experts,MoE),总参数量为 260 亿,但推理时只会激活 38 亿参数。这意味着它应该可以装入高端 GPU 的 18GB 内存配额中。在 RTX 5090 上测试时,DiffusionGemma 的输出速度约为每秒 700 个 token。使用单个 Nvidia H100 AI 加速器时,DiffusionGemma 可以实现每秒 1,000 个以上的 token 输出。这大约是同等规模自回归 Gemma 模型输出速度的四倍。

图片来源:Google

这种文本生成方式把瓶颈从内存带宽转移到了算力上,最多可并行生成 256 个 token。Google 表示,这在内联编辑、分子测序和数学图形绘制等非线性任务中带来了可衡量的提升。上方动画展示了 DiffusionGemma 如何被调校用于解决数独谜题;对于标准自回归 AI 模型来说,这是一项出了名的困难任务,因为每个 token 都依赖于后续 token。DiffusionGemma 能够持续自我修正大量 token,这让这类任务更容易完成。

本地效率的多条路径

如果扩散这么快,为什么 Google 不把它用在大型云端 Gemini 模型中?Google 确实做过这方面的实验,但文本扩散也有一些缺点,其中之一是错误率更高。在图像扩散模型中,单个预测错误的像素不会让整张图失效,但语言是离散的。文本中等价的错误可能会让一整块 token 失去意义,并迫使你重新开始以获得更好的输出。扩散模型在期望输出只有几个 token 时也会浪费资源。为了把结果收敛到比如五个 token,它们必须做大量并行工作,而自回归模型从头到尾只需五步就能完成。

不过,对于本地处理来说,这种效率提升仍然使其成为一个很有吸引力的实验方向。在云端,自回归模型可以把来自多个用户的大量计算任务批量处理,这样它们就能持续产出 token,而且这些系统使用的高带宽内存(HBM)能够更高效地移动数据。

相反,本地 AI 会因为较低的内存带宽和空闲时间而产生浪费的计算周期。扩散模型可以更高效地利用可用算力,但这并不是唯一的方法。Google 最近也开始实现 Multi-Token Prediction(MTP)草稿器,它们会利用原本会被浪费的计算周期来预测可能的 token,从而提升速度。不过,扩散模型甚至比 Gemma 的 MTP 版本还要快。

Google 强调,DiffusionGemma 处于实验阶段,但它与所有其他第四代 Gemma 模型一样,采用 Apache 2.0 许可发布。你今天就可以从 Hugging Face 下载该模型权重。Google 表示,它与 Nvidia 合作,确保 DiffusionGemma 针对多种配置进行了优化,包括高端 RTX GPU(量化后)以及 H100 或 DGX Spark 平台等企业级系统。

来源与参考

  1. 原始链接
  2. Google's latest DiffusionGemma open AI model comes with a 4x speed boost

收录于 2026-06-11