阿里巴巴通义实验室推出FIPO算法提升AI深度推理能力

The Decoder··作者 Jonathan Kemper

关键信息

FIPO无需像PPO方法那样使用辅助价值模型,避免了预训练带来的知识泄露问题。它还包含折扣因子和token过滤机制以防止训练崩溃,提高稳定性。

资讯摘要

阿里巴巴通义实验室推出了FIPO算法,这是一种新颖的强化学习方法,通过评估���个token对未来推理步骤的影响来分配不同奖励,而非平均对待所有token。这使得模型能够生成更长且更准确的推理链条。在Qwen2.5-32B-Base上的测试显示,FIPO将平均推理长度从约4000个token提升至超过10000个token,AIME 2024数学基准准确率从50%提升到58%。

与依赖额外价值模型的传统方法不同,FIPO直接作用于策略,避免了外部偏差。该方法通过折扣远处token和过滤不稳定token等机制确保训练稳定。

阿里巴巴通义实验室推出FIPO算法提升AI深度推理能力

资讯正文

阿里巴巴通义实验室推出新算法,让AI模型思考更深入

关键要点

- 阿里巴巴通义实验室开发了一种新的训练算法,用于推理模型,该算法根据每个步骤对后续推理链的影响程度,为不同token分配不同的权重,而不是像以往那样对所有token一视同仁。

- 这种方法显著延长了推理链的长度,模型学会了独立验证中间结果并交叉检查替代解决方案,这种行为是基于加权奖励信号自然涌现出来的。

- 目前该算法仅在数学任务上进行了验证,尚未证明是否适用于其他领域。团队计划将训练系统开源。

强化学习在推理模型上遇到瓶颈,是因为每个token都获得相同的奖励。阿里巴巴通义实验室的新算法通过根据每个步骤对未来影响的大小来加权,从而解决了这个问题,在过程中使思维过程长度翻倍。

当大型语言模型通过强化学习进行推理时,通常会在每条生成答案的结尾获得一个简单的通过/失败判断。这个奖励随后被平均分配给序列中的每一个token。无论一个token是否标志着关键逻辑转折点,还是只是一个逗号,都不会有区别。

通义实验室表示,这种粗暴的奖励分配方式是推理模型在常见训练方法(如GRPO,群体相对策略优化)下达到瓶颈的主要原因:推理链增长到一定长度后就会停滞。

为了突破这一瓶颈,团队提出了未来KL影响策略优化(FIPO)。与以往只评估单个token不同,FIPO会向前看:生成这个特定token后,模型的行为在下游发生了怎样的变化?

FIPO计算所有后续token累积的概率变化,并利用这一信号更精准地分配奖励。那些引发有效推理链的token会获得更多奖励;而把模型引入死胡同的token则得到较少奖励。

FIPO在不依赖额外模型的情况下,效果可媲美PPO类方法

此前尝试解决均匀奖励问题的方法大多基于PPO,使用一个独立的价值模型来估算每个token的收益得分。

这种辅助模型通常需要在长链思维数据上进行预训练,这意味着外部知识可能被带入其中。研究人员指出,这使得很难判断性能提升究竟是来自算法本身,还是仅仅继承自预训练的帮助模型。FIPO完全跳过了辅助模型,但仍能达到相当的效果。

为了保持训练稳定,FIPO内置了多种保护机制。折扣因子确保邻近token比远处token权重更大,因为它们的下游影响更难预测。

该算法还会过滤掉模型在训练步骤之间偏离太远的token。如果没有这个过滤器,研究人员观察到严重的不稳定现象:训练失控,响应长度急剧下降。

思维过程长度翻倍的同时,准确率也在提升

阿里巴巴通义实验室团队通过新算法让AI模型思考更深入

研究团队在Qwen2.5-32B-Base模型上测试了FIPO算法,该模型此前从未接触过合成的长链式思维(long-CoT)数据。他们仅使用DAPO(Decoupled Clip and Dynamic sAmpling Policy Optimization)公开数据集进行训练,DAPO是一种流行的GRPO训练变体,以确保比较公平。

结果十分明确:DAPO平均链式思维长度停留在约4000个词元,而FIPO则突破10000个词元。在AIME 2024数学基准测试中,准确率从50%提升至56%,最高达到58%——这超过了Deepseek-R1-Zero-Math-32B的大约47%和OpenAI o1-mini的大约56%。在更具挑战性的AIME 2025测试中,分数也从38%上升到43%。

研究人员指出,这不是少数异常值变得冗长,而是整个答案长度分布整体上移,从最短到最长的回答都发生了变化。这表明模型解决问题的方式发生了根本性转变。

模型开始自我验证

论文详细描述了模型在训练过程中经历的四个阶段。早期,模型生成浅层规划模板——本质上是无实质数学内容的提纲,最终得出一个虚构的答案。在第二阶段,DAPO训练的模型会一直停留在此阶段,运行一条干净的线性推理链,并在首次找到答案时停止。

第三阶段,模型开始自发地对中间结果进行双重检查。它得到一个答案后,会转向另一种方法,例如从代数运算切换到几何解释来验证结果。到了第四阶段,模型执行系统性的多轮验证,逐步重新计算大平方数,并多次完整推导整个过程。

论文指出,这种行为与OpenAI o系列和Deepseek-R1在推理时采用的扩展策略非常相似,但FIPO仅通过强化学习实现,无需依赖长链式思维的合成数据。

仍处于早期阶段

FIPO目前仅在数学问题上进行了基准测试,训练基于单一数据集,且测试对象仅为未经长链式思维预训练的基础模型。此外,更长的序列也显著增加了计算成本。因此,团队表示还需进行大量进一步测试。

此外,这些改进是否能推广到代码或符号逻辑等其他领域仍是未知数。同时,与从更大教师模型蒸馏得到的结果相比,性能仍有差距。纯粹的强化学习教会模型的能力,不如直接从更强模型获取指令那样高效。

团队表示计划开源训练系统及其所有配置。

来源与参考

  1. 原始链接
  2. Alibaba's Qwen team makes AI models think deeper with new algorithm