iLLaDA扩散模型在基础能力上接近Qwen2.5
The Decoder··作者 Maximilian Schreiner
关键信息
报道将 iLLaDA 描述为一个从零训练的稠密 8B 模型,不同于 Dream 7B 这种基于 Qwen2.5 检查点微调的模型。文中还提到,iLLaDA-Instruct 得分为 67.1,而 Qwen2.5 7B Instruct 为 77.1,差距主要来自数学和代码任务,并且论文附录指出它在更难任务上可能陷入推理循环。
资讯摘要
人民大学和字节跳动发布了 iLLaDA,这是一款 8B 语言模型,但它的生成方式不同于 GPT、Claude 和 Qwen 这类常见模型。传统自回归模型是按从左到右逐个 token 生成文本,而扩散式语言模型则从被掩码的序列开始,通过多轮迭代不断细化整段文本。这样的机制让每个位置都能同时关注其他位置,因此具有双向建模的特点。文章把 iLLaDA 放在更大的扩散语言模型趋势中讨论,并提到 Google DeepMind 的 DiffusionGemma 也是这一方向的代表。报道称,DiffusionGemma 生成文本大约快四倍,但在 MMLU 和代码等基准上表现不如同规模的自回归 Gemma,Google 也更倾向把它用于低延迟场景,而不是质量优先的生产环境。
iLLaDA 的路线与此不同,它是从零训练的稠密 8B 模型,目标更偏向质量而不是仅仅替换生成方式。文章指出,由于基准设置和模型规模并不完全一致,直接做严格的一对一比较并不容易。和另一款扩散模型 Dream 7B 相比,iLLaDA 的平均表现更好,得分为 63.9,而 Dream 为 61.4,尽管 Dream 是在强大的 Qwen2.5 检查点基础上微调出来的。不过,这种优势没有延续到指令微调阶段,iLLaDA-Instruct 只有 67.1 分,而 Qwen2.5 7B Instruct 达到 77.1 分,主要差距来自数学和代码能力。作者认为,这与 Qwen2.5 额外使用了强化学习对齐有关,并在论文附录中提到 iLLaDA 在更难的问题上可能会陷入推理循环。

资讯正文
来自中国人民大学和字节跳动的研究人员发布了 iLLaDA,这是一款 8B 参数语言模型,工作方式与 ChatGPT 不同。它在基础能力上与 Qwen2.5 持平,但在微调之后表现落后。
几乎所有知名的 AI 语言模型,如 GPT、Claude 或 Qwen,都是以自回归方式生成文本:按词逐个生成,从左到右,每个新 token 只依赖于前面的内容。
扩散语言模型采用的是另一种方法。它们从一串占位符开始,这些占位符被称为 masked tokens,然后通过多次并行迭代逐步精炼。其原理有点类似图像模型如何从噪声中勾勒出一幅图像。每个位置都可以同时关注其他所有位置,因此这个过程是双向的。
iLLaDA 是更大范围趋势的一部分,Google 也在其中。2026 年 6 月,Google DeepMind 发布了 DiffusionGemma。该模型通过扩散方式生成文本,速度大约快四倍,但在 MMLU 和代码等基准上的得分低于同样规模的自回归 Gemma 4。Google 建议将其用于低延迟场景,而不是质量至关重要的生产环境。
不过,DiffusionGemma 采取的是不同路径。它建立在 Gemma 4 骨干模型之上,这是一款 250 亿参数的混合专家模型,只更换生成方法以优先提升速度。iLLaDA——即“improved LLaDA”的缩写——则走相反路线。它是一个从零开始训练的稠密 8B 模型,专注于质量。
这一切背后的问题是:一个从头构建的扩散模型,是否真的能跟上自回归模型的步伐。不过,二者之间的直接数值比较并不容易。Google 使用的是部分不同且更难的基准变体,而且 DiffusionGemma 处在不同的参数规模档位。
iLLaDA 的能力
与竞争性的扩散模型 Dream 7B 的对比也更有利于 iLLaDA。Dream 并非从头训练,而是基于现有的 Qwen2.5 检查点进行微调。即便没有强大自回归基础模型的先发优势,iLLaDA 的平均表现仍然更好,为 63.9 对 61.4。Dream 只是在代码基准上略占优势。
在指令层面仍然存在差距。iLLaDA-Instruct 得分为 67.1 分,而 Qwen2.5 7B Instruct 达到 77.1 分,其中差距主要由数学和代码能力驱动。作者将此归因于 Qwen2.5 额外进行了强化学习对齐,而 iLLaDA 没有。论文附录还指出,在更难的任务上,该模型有时会陷入推理循环。
来源与参考