为什么更大的语言模型更容易学会稀有技能

The Decoder·6月7日 15:45 UTC·作者 Jonathan Kemper

关键信息

作者发现，小模型容易陷入“更新又遗忘”的循环：稀有样本刚学到，就会被后续的高频任务更新迅速覆盖。在对 OLMo 模型进行的实验中，研究人员测试了从 400 万到 40 亿参数的模型，并在最多 2100 亿个 token 的训练中加入了稀有人工任务；结果显示，只有更大的模型才能稳定学会这些稀有任务，包括模加任务，并在任务频率足够时出现 grokking 现象。

资讯摘要

一项来自 Anthropic、斯坦福以及其他机构的研究认为，更大的语言模型并不只是“学得更快”，而是更能把稀有任务保留下来，直到它们形成可泛化的能力。论文指出，关键差异不仅在于容量大小，还在于训练过程中高频任务对稀有任务的干扰程度。作者的解释是，常见任务会不断把小模型拉向已经占优势的特征，导致稀有任务的信号在积累起来之前就被覆盖掉。于是，小模型容易进入一种“更新—遗忘”循环：某个稀有样本刚学会，随后又被后续训练步骤大幅冲掉。

为了验证这一机制，研究人员测试了不同频率和复杂度的任务混合。结果显示，只有足够大的模型才能学会那些只占训练数据 0.25% 的任务。在一个实验中，稀有任务的总出现次数保持不变，但样本之间的间隔不同；间隔越大，窄模型中的信号衰减就越明显，而宽模型能更好地在两次出现之间保留这些信息。研究团队还训练了参数规模从 400 万到 40 亿不等的 OLMo 模型，并使用来自 Dolma 语料库、最多 2100 亿个 token 的数据，同时加入了数字比较和模加等人工任务。结果表明，只有更大的 OLMo 模型能够学到这些任务背后的规则，并把规则应用到新的样本上，而不是单纯记住个别例子。

其中，模加任务尤其清楚地展示了 grokking 现象，也就是模型先记忆任务，之后突然领悟底层规律。只有更大的模型出现了这种“顿悟”，而且前提是该任务在数据中出现得足够频繁。研究者对模型内部信号的测量也支持这一结论：在一个 10 亿参数模型中，每次包含稀有任务的训练步骤都会明显朝正确答案推进；而在一个 2000 万参数模型中，这类信号几乎被其他更新产生的噪声淹没。论文把记忆视为泛化的必要前提，而不是不应存在的副作用。总体而言，作者认为，与其一味放大模型，不如提高目标任务在训练数据中的频率，这有时可能是固定某项技能的更有效办法。

资讯正文

研究人员指出，为什么更大的语言模型会掌握小模型遗漏的技能

一项新研究表明，与其无休止地扩大模型规模，不如提高训练数据中某些特定任务的出现频率，这可能是将稀有技能锚定到较小模型中的更高效方式。

来自 Anthropic、斯坦福大学及其他机构的研究人员开展的一项新研究，解释了为什么更大的语言模型能够学会某些小模型做不到的任务。这一发现超越了那种传统观点，即大模型只是学得更快而已。

在某些情况下，小模型即便经过极长时间的训练，也无法可靠地学会稀有任务。即便是众所周知的缩放定律也表明，无论你投入多少数据，小模型的损失都不会达到大模型的水平。

常见任务会挤占稀有任务的空间

为了分离这一机制，研究人员测试了由不同频率和复杂度组成的一组任务。一个拥有 N 个神经元的模型，会被分配到 N 个“最有用”的特征；其中“有用性”取决于某个任务出现得有多频繁，以及它有多重要。频繁、简单的任务会优先得到处理。稀有、复杂的任务则会被舍弃。在实验中，只有足够大的模型学会了那些仅占训练数据 0.25% 的任务。

论文的核心在于解释为什么规模更大有帮助。只要频繁任务还没有被很好地学会，它们就会在每一步训练中强烈地把模型拉向自己的方向，从而覆盖模型从稀有任务中学到的大部分内容。一旦大模型基本掌握了频繁任务，这种拉力就会减弱。腾出来的容量就会转向稀有任务，而已经学到的信号也更有可能被保留下来。

根据这项研究，小模型很少能到达那一步。它们会陷入一种“更新—遗忘”循环。一个稀有样本会被短暂学会，然后在接下来的频繁任务训练步骤中大多被抹去。等下一个稀有样本出现时，模型又得从头开始。

其中一项实验专门用来清晰地区分这种效应。某个稀有任务的总出现频率保持不变，但单次观测之间的间隔不同。间隔越大，窄模型中的信号衰减就越明显。宽模型则能在两次观测之间更好地保留它，并在此基础上继续构建。

真实语言模型也呈现出同样的模式

为了在预训练期间检验这一理论，研究团队训练了参数规模从 400 万到 40 亿不等的 OLMo 模型，并在最多 2100 亿个来自 Dolma 语料库的 token 上进行训练。他们在数据中混入了两项人工任务：数字比较和模运算加法，出现频率从每个批次大约 1000 个实例，下降到每 10 个批次出现 1 个实例不等。

只有更大的 OLMo 模型学会了这些稀有任务；它们不是死记个别例子，而是学会了背后的规则，并将其应用到新的案例中。

这一点在模运算加法上尤为明显，研究人员观察到了所谓的 grokking 现象。模型会先死记一个任务，然后在经过更多训练后突然“领悟”其真正原理。只有更大的模型会达到那个时刻，而且也只有当该任务在数据中出现得足够频繁时才会发生。

从模型内部观察，结论也是一样的。在那个十亿参数的模型中，任何包含这项罕见任务的训练步骤，都明显朝着正确答案的方向推进。而在那个两千万参数的模型中，这一信号则被其他所有内容带来的噪声淹没了。几乎没有发生真正的学习。

记忆其实是通往泛化的跳板

这项研究把记忆视为泛化的前提，而不是不受欢迎的副作用。模型需要足够长时间地保留单个观测结果，才能让更广泛的模式在多个批次中逐渐形成。

这为提升能力提供了一条实用的替代路径，而不只是单纯把模型做得更大。研究表明，与其扩大模型规模，不如提高训练数据中目标任务出现的频率，从而为某项特定技能“锚定”基础。

关于为什么模型规模更大有助于能力提升，存在不止一种理论。5月，麻省理工学院的一个团队把缩放定律与模型几何联系起来，认为模型通过叠加（superposition）存储了比其维度所允许更多的概念。

这项新研究则从不同角度出发，关注的是在训练过程中，模型究竟能从给定的数据组合中实际学到什么。关于能力是否真的会在超过某个规模后突然“涌现”，还是说这部分只是测量伪影导致的更老的争论，仍在持续之中。

来源与参考

收录于 2026-06-08