iLLaDA扩散模型在基础能力上接近Qwen2.5

The Decoder·6月27日 15:48 UTC·作者 Maximilian Schreiner

关键信息

报道将 iLLaDA 描述为一个从零训练的稠密 8B 模型，不同于 Dream 7B 这种基于 Qwen2.5 检查点微调的模型。文中还提到，iLLaDA-Instruct 得分为 67.1，而 Qwen2.5 7B Instruct 为 77.1，差距主要来自数学和代码任务，并且论文附录指出它在更难任务上可能陷入推理循环。

资讯摘要

人民大学和字节跳动发布了 iLLaDA，这是一款 8B 语言模型，但它的生成方式不同于 GPT、Claude 和 Qwen 这类常见模型。传统自回归模型是按从左到右逐个 token 生成文本，而扩散式语言模型则从被掩码的序列开始，通过多轮迭代不断细化整段文本。这样的机制让每个位置都能同时关注其他位置，因此具有双向建模的特点。文章把 iLLaDA 放在更大的扩散语言模型趋势中讨论，并提到 Google DeepMind 的 DiffusionGemma 也是这一方向的代表。报道称，DiffusionGemma 生成文本大约快四倍，但在 MMLU 和代码等基准上表现不如同规模的自回归 Gemma，Google 也更倾向把它用于低延迟场景，而不是质量优先的生产环境。

iLLaDA 的路线与此不同，它是从零训练的稠密 8B 模型，目标更偏向质量而不是仅仅替换生成方式。文章指出，由于基准设置和模型规模并不完全一致，直接做严格的一对一比较并不容易。和另一款扩散模型 Dream 7B 相比，iLLaDA 的平均表现更好，得分为 63.9，而 Dream 为 61.4，尽管 Dream 是在强大的 Qwen2.5 检查点基础上微调出来的。不过，这种优势没有延续到指令微调阶段，iLLaDA-Instruct 只有 67.1 分，而 Qwen2.5 7B Instruct 达到 77.1 分，主要差距来自数学和代码能力。作者认为，这与 Qwen2.5 额外使用了强化学习对齐有关，并在论文附录中提到 iLLaDA 在更难的问题上可能会陷入推理循环。

资讯正文

来自中国人民大学和字节跳动的研究人员发布了 iLLaDA，这是一款 8B 参数语言模型，工作方式与 ChatGPT 不同。它在基础能力上与 Qwen2.5 持平，但在微调之后表现落后。

几乎所有知名的 AI 语言模型，如 GPT、Claude 或 Qwen，都是以自回归方式生成文本：按词逐个生成，从左到右，每个新 token 只依赖于前面的内容。

扩散语言模型采用的是另一种方法。它们从一串占位符开始，这些占位符被称为 masked tokens，然后通过多次并行迭代逐步精炼。其原理有点类似图像模型如何从噪声中勾勒出一幅图像。每个位置都可以同时关注其他所有位置，因此这个过程是双向的。

iLLaDA 是更大范围趋势的一部分，Google 也在其中。2026 年 6 月，Google DeepMind 发布了 DiffusionGemma。该模型通过扩散方式生成文本，速度大约快四倍，但在 MMLU 和代码等基准上的得分低于同样规模的自回归 Gemma 4。Google 建议将其用于低延迟场景，而不是质量至关重要的生产环境。

不过，DiffusionGemma 采取的是不同路径。它建立在 Gemma 4 骨干模型之上，这是一款 250 亿参数的混合专家模型，只更换生成方法以优先提升速度。iLLaDA——即“improved LLaDA”的缩写——则走相反路线。它是一个从零开始训练的稠密 8B 模型，专注于质量。

这一切背后的问题是：一个从头构建的扩散模型，是否真的能跟上自回归模型的步伐。不过，二者之间的直接数值比较并不容易。Google 使用的是部分不同且更难的基准变体，而且 DiffusionGemma 处在不同的参数规模档位。

iLLaDA 的能力

与竞争性的扩散模型 Dream 7B 的对比也更有利于 iLLaDA。Dream 并非从头训练，而是基于现有的 Qwen2.5 检查点进行微调。即便没有强大自回归基础模型的先发优势，iLLaDA 的平均表现仍然更好，为 63.9 对 61.4。Dream 只是在代码基准上略占优势。

在指令层面仍然存在差距。iLLaDA-Instruct 得分为 67.1 分，而 Qwen2.5 7B Instruct 达到 77.1 分，其中差距主要由数学和代码能力驱动。作者将此归因于 Qwen2.5 额外进行了强化学习对齐，而 iLLaDA 没有。论文附录还指出，在更难的任务上，该模型有时会陷入推理循环。

来源与参考