为何更大的语言模型更易学会稀有技能

The Decoder··作者 Jonathan Kemper

关键信息

论文认为,小模型会陷入一种“更新—遗忘”循环:它们刚从稀有样本中学到一点东西,就会被后续的高频任务训练覆盖掉,导致稀有信号来不及稳定下来。在使用 OLMo 模型、参数规模从 400 万到 40 亿、并在最多 2100 亿个 Dolma token 上训练的实验中,只有更大的模型才能稳定学会诸如数字比较和模加法这类人工稀有任务,其中后者还出现了 grokking 现象。

资讯摘要

来自 Anthropic、Stanford 等机构的研究人员提出了一种机制,解释为什么更大的语言模型能学会小模型常常学不到的稀有任务。他们的研究表明,训练数据中任务出现的频率,可能和模型大小一样,都会决定某些罕见技能能否真正学会并保留下来。 这一发现提供了一种更实用的训练思路:与其只一味扩大参数规模,不如通过提高目标任务在数据中的出现频率来强化特定能力。

这可能提升训练效率,并帮助较小模型获得那些容易被高频模式挤掉的细分技能。 论文认为,小模型会陷入一种“更新—遗忘”循环:它们刚从稀有样本中学到一点东西,就会被后续的高频任务训练覆盖掉,导致稀有信号来不及稳定下来。在使用 OLMo 模型、参数规模从 400 万到 40 亿、并在最多 2100 亿个 Dolma token 上训练的实验中,只有更大的模型才能稳定学会诸如数字比较和模加法这类人工稀有任务,其中后者还出现了 grokking 现象。

为何更大的语言模型更易学会稀有技能

资讯正文

研究人员指出,为什么更大的语言模型会掌握小模型遗漏的技能

一项新研究表明,与其无休止地扩大模型规模,不如提高训练数据中某些特定任务的出现频率,这可能是将稀有技能锚定到较小模型中的更高效方式。

来自 Anthropic、斯坦福大学及其他机构的研究人员开展的一项新研究,解释了为什么更大的语言模型能够学会某些小模型做不到的任务。这一发现超越了那种传统观点,即大模型只是学得更快而已。

在某些情况下,小模型即便经过极长时间的训练,也无法可靠地学会稀有任务。即便是众所周知的缩放定律也表明,无论你投入多少数据,小模型的损失都不会达到大模型的水平。

常见任务会挤占稀有任务的空间

为了分离这一机制,研究人员测试了由不同频率和复杂度组成的一组任务。一个拥有 N 个神经元的模型,会被分配到 N 个“最有用”的特征;其中“有用性”取决于某个任务出现得有多频繁,以及它有多重要。频繁、简单的任务会优先得到处理。稀有、复杂的任务则会被舍弃。在实验中,只有足够大的模型学会了那些仅占训练数据 0.25% 的任务。

论文的核心在于解释为什么规模更大有帮助。只要频繁任务还没有被很好地学会,它们就会在每一步训练中强烈地把模型拉向自己的方向,从而覆盖模型从稀有任务中学到的大部分内容。一旦大模型基本掌握了频繁任务,这种拉力就会减弱。腾出来的容量就会转向稀有任务,而已经学到的信号也更有可能被保留下来。

根据这项研究,小模型很少能到达那一步。它们会陷入一种“更新—遗忘”循环。一个稀有样本会被短暂学会,然后在接下来的频繁任务训练步骤中大多被抹去。等下一个稀有样本出现时,模型又得从头开始。

其中一项实验专门用来清晰地区分这种效应。某个稀有任务的总出现频率保持不变,但单次观测之间的间隔不同。间隔越大,窄模型中的信号衰减就越明显。宽模型则能在两次观测之间更好地保留它,并在此基础上继续构建。

真实语言模型也呈现出同样的模式

为了在预训练期间检验这一理论,研究团队训练了参数规模从 400 万到 40 亿不等的 OLMo 模型,并在最多 2100 亿个来自 Dolma 语料库的 token 上进行训练。他们在数据中混入了两项人工任务:数字比较和模运算加法,出现频率从每个批次大约 1000 个实例,下降到每 10 个批次出现 1 个实例不等。

只有更大的 OLMo 模型学会了这些稀有任务;它们不是死记个别例子,而是学会了背后的规则,并将其应用到新的案例中。

这一点在模运算加法上尤为明显,研究人员观察到了所谓的 grokking 现象。模型会先死记一个任务,然后在经过更多训练后突然“领悟”其真正原理。只有更大的模型会达到那个时刻,而且也只有当该任务在数据中出现得足够频繁时才会发生。

从模型内部观察,结论也是一样的。在那个十亿参数的模型中,任何包含这项罕见任务的训练步骤,都明显朝着正确答案的方向推进。而在那个两千万参数的模型中,这一信号则被其他所有内容带来的噪声淹没了。几乎没有发生真正的学习。

记忆其实是通往泛化的跳板

这项研究把记忆视为泛化的前提,而不是不受欢迎的副作用。模型需要足够长时间地保留单个观测结果,才能让更广泛的模式在多个批次中逐渐形成。

这为提升能力提供了一条实用的替代路径,而不只是单纯把模型做得更大。研究表明,与其扩大模型规模,不如提高训练数据中目标任务出现的频率,从而为某项特定技能“锚定”基础。

关于为什么模型规模更大有助于能力提升,存在不止一种理论。5月,麻省理工学院的一个团队把缩放定律与模型几何联系起来,认为模型通过叠加(superposition)存储了比其维度所允许更多的概念。

这项新研究则从不同角度出发,关注的是在训练过程中,模型究竟能从给定的数据组合中实际学到什么。关于能力是否真的会在超过某个规模后突然“涌现”,还是说这部分只是测量伪影导致的更老的争论,仍在持续之中。

来源与参考

  1. 原始链接
  2. Researchers pinpoint why larger language models pick up skills that small ones miss