Claude Code 发现新的测试时扩展算法

The Decoder··作者 Jonathan Kemper

关键信息

AutoTTS 采用离线方式:先为每个任务预生成多条解题路径,再让控制器基于已存数据决定如何分配算力,从而把搜索成本压低。所发现的算法在 AIME 和 HMMT 上提升了单位计算量的准确率,相比 64 路 self-consistency 大约减少了 70% 的 token 使用量,并且还能迁移到 DeepSeek-R1-Distill-Llama-8B 和 GPQA-Diamond。

资讯摘要

这篇报道介绍了 AutoTTS,一个让编码代理 Claude Code 去发现更好的测试时扩展算法的框架,而不是由研究人员自己手写规则。测试时扩展指的是在推理阶段投入更多计算,例如并行生成多条解题路径或延长思维链,以提升大语言模型的表现。论文作者认为,许多已有方法都可以看作同一个控制空间中的不同点,这个空间由宽度和深度两个维度定义,因此完全可以交给机器去搜索。为了让搜索成本足够低,研究团队搭建了一个离线模拟环境,先为每个任务预生成并保存多条模型解题路径。

随后 Claude Code 反复读取之前的实验记录,分析早期方案的问题,并直接用代码写出新的控制器。为了避免搜索过程中出现过多细碎参数,每个方案只能暴露一个高层控制器,其余阈值都由它自己设定。结果显示,在 AIME 和 HMMT 等数学基准上,所发现的算法在单位计算量下的准确率优于传统方法,并且相比 64 路 self-consistency 方案大约减少了 70% 的 token 使用量。这个方法还迁移到了另一个模型 DeepSeek-R1-Distill-Llama-8B,以及非数学基准 GPQA-Diamond;整个发现过程大约花费 40 美元和 160 分钟。

Claude Code 发现新的测试时扩展算法

资讯正文

研究人员让 Claude Code 发现了人类大概不会设计出来的 AI 扩展算法

研究人员没有自己去为更高效的 AI 推理编写规则,而是让一个编码代理在模拟环境中寻找更好的控制算法。结果显示,这种方法比已有方法表现更好,同时消耗的算力要少得多。

测试时扩展(test-time scaling,TTS)旨在通过让大语言模型在回答时投入更多算力来提升表现,例如并行运行多条解题路径,或者延长思维链。直到现在,几乎一直都是人类编写规则来决定模型何时开启一条新的解题路径、何时加码一条看起来有前途的路径,或者何时终止它。

来自 UMD、UVA、WUSTL、UNC、Google 和 Meta 的一个研究团队用 AutoTTS 把这一点反了过来。人类不再编写算法,而是搭建一个“游乐场”,让 AI 代理自己去发现算法。

论文认为,许多已知方法其实只是共享控制空间中的特例,这个空间由宽度(同时运行多少条解题路径)和深度(每条路径推进多远)共同定义。于是作者提出一个问题:研究人员为什么总是手工在这个空间里画路径,而不是让机器自己去搜索?

通过仿真搜索来降低成本

AutoTTS 的核心是一个离线环境。针对每个任务,团队先从语言模型中预生成若干条解题路径并将其保存。新的控制算法根据这些已经存在的数据来决定如何分配算力。这样一来,就可以运行成千上万种变体,而不必每次都真正启动语言模型。

负责搜索的是 Claude Code。在多轮迭代中,这个代理会回顾前面的结果,找出早期提案的薄弱之处,并直接用代码写出一个新的控制算法。为了防止搜索在成千上万个微小参数里迷失,每个提案对外只能暴露一个高层控制器。这个控制器会自行设定其余所有阈值。每次运行的完整日志也会告诉代理,之前哪些尝试把算力白白浪费掉了。

代理写出的算法优于人类设计的算法

在 AIME 和 HMMT 等数学基准上,代理提出的算法在单位算力下获得了比现有方法更好的准确率。这个精简设置与标准 self-consistency 相比,token 用量减少了大约 70%,而后者只是并行生成 64 个答案,再通过多数投票选出胜者。准确率保持稳定。

该算法还能够迁移到另一种模型(DeepSeek-R1-Distill-Llama-8B)以及一个非数学基准(GPQA-Diamond)。整个发现过程大约花费了 40 美元,耗时 160 分钟。

一种人类大概不会想到的逻辑

比起原始数字,更有意思的是这个被发现的程序究竟是如何工作的。它会跟踪模型在多轮中的置信度变化。其他方法则会在答案的多数意见一出现倾斜时立刻放弃。

如果置信度几乎没有变化,算法就会打开更多解决路径;如果置信度快速上升,它就会跳过新的路径。那些中间结果与当前多数意见一致的解决路径,会得到额外的算力;算法只会在某些路径连续多轮都朝错误方向发展时,才舍弃这些路径。

作者把这种协调称为一种几乎不可能靠手工设计出来的机制。一项消融研究显示,这一切有多大程度上依赖于两个设计选择:如果去掉那个单一的高层控制器,智能体就会退回到极端捷径,在测试中节省大量算力,但在新任务上的准确率却会大幅下滑。没有详细日志的话,发现的算法会以更差的准确率消耗更多算力,因此单看一个最终结果根本不足以判断问题出在哪。

从编写算法到构建搜索空间

作者将 AutoTTS 与 FunSearch、AlphaEvolve 和 ADAS 等工作并列,这些方法都把语言模型用作程序搜索器。这里的新意在于将这一思路应用到测试时扩展上,而这在此前主要是靠人工完成的。

当前版本只覆盖宽度与深度之间的权衡,无法处理更复杂的结构,例如树搜索。最终发现效果有多好,也取决于编码代理。作者并未说明开源替代方案是否同样有效。

更大的启示在于,这项工作改变了人类介入的位置:研究人员不再是直接发明规则本身,而是搭建这些规则所运行的搜索环境。真正的策略随后以代码的形式浮现,并由语言模型进行编写和改进。

早在 2024 年,Hugging Face 的研究人员就展示过,小型语言模型可以通过聪明的测试时算力扩展,达到与大得多的模型相当的效果,不过当时使用的是人工设计的搜索策略。Meta 及其合作伙伴最近也推出了 hyperagents,这类 AI 系统会优化自身的改进过程。

来源与参考

  1. 原始链接
  2. Researchers let Claude Code discover AI scaling algorithms that humans probably wouldn't have designed

收录于 2026-05-25