Claude Code 发现新的测试时扩展算法

The Decoder·5月24日 16:06 UTC·作者 Jonathan Kemper

关键信息

AutoTTS 采用离线方式：先为每个任务预生成多条解题路径，再让控制器基于已存数据决定如何分配算力，从而把搜索成本压低。所发现的算法在 AIME 和 HMMT 上提升了单位计算量的准确率，相比 64 路 self-consistency 大约减少了 70% 的 token 使用量，并且还能迁移到 DeepSeek-R1-Distill-Llama-8B 和 GPQA-Diamond。

资讯摘要

这篇报道介绍了 AutoTTS，一个让编码代理 Claude Code 去发现更好的测试时扩展算法的框架，而不是由研究人员自己手写规则。测试时扩展指的是在推理阶段投入更多计算，例如并行生成多条解题路径或延长思维链，以提升大语言模型的表现。论文作者认为，许多已有方法都可以看作同一个控制空间中的不同点，这个空间由宽度和深度两个维度定义，因此完全可以交给机器去搜索。为了让搜索成本足够低，研究团队搭建了一个离线模拟环境，先为每个任务预生成并保存多条模型解题路径。

随后 Claude Code 反复读取之前的实验记录，分析早期方案的问题，并直接用代码写出新的控制器。为了避免搜索过程中出现过多细碎参数，每个方案只能暴露一个高层控制器，其余阈值都由它自己设定。结果显示，在 AIME 和 HMMT 等数学基准上，所发现的算法在单位计算量下的准确率优于传统方法，并且相比 64 路 self-consistency 方案大约减少了 70% 的 token 使用量。这个方法还迁移到了另一个模型 DeepSeek-R1-Distill-Llama-8B，以及非数学基准 GPQA-Diamond；整个发现过程大约花费 40 美元和 160 分钟。

资讯正文

研究人员让 Claude Code 发现了人类大概不会设计出来的 AI 扩展算法

研究人员没有自己去为更高效的 AI 推理编写规则，而是让一个编码代理在模拟环境中寻找更好的控制算法。结果显示，这种方法比已有方法表现更好，同时消耗的算力要少得多。

测试时扩展（test-time scaling，TTS）旨在通过让大语言模型在回答时投入更多算力来提升表现，例如并行运行多条解题路径，或者延长思维链。直到现在，几乎一直都是人类编写规则来决定模型何时开启一条新的解题路径、何时加码一条看起来有前途的路径，或者何时终止它。

来自 UMD、UVA、WUSTL、UNC、Google 和 Meta 的一个研究团队用 AutoTTS 把这一点反了过来。人类不再编写算法，而是搭建一个“游乐场”，让 AI 代理自己去发现算法。

论文认为，许多已知方法其实只是共享控制空间中的特例，这个空间由宽度（同时运行多少条解题路径）和深度（每条路径推进多远）共同定义。于是作者提出一个问题：研究人员为什么总是手工在这个空间里画路径，而不是让机器自己去搜索？

通过仿真搜索来降低成本

AutoTTS 的核心是一个离线环境。针对每个任务，团队先从语言模型中预生成若干条解题路径并将其保存。新的控制算法根据这些已经存在的数据来决定如何分配算力。这样一来，就可以运行成千上万种变体，而不必每次都真正启动语言模型。

负责搜索的是 Claude Code。在多轮迭代中，这个代理会回顾前面的结果，找出早期提案的薄弱之处，并直接用代码写出一个新的控制算法。为了防止搜索在成千上万个微小参数里迷失，每个提案对外只能暴露一个高层控制器。这个控制器会自行设定其余所有阈值。每次运行的完整日志也会告诉代理，之前哪些尝试把算力白白浪费掉了。

代理写出的算法优于人类设计的算法

在 AIME 和 HMMT 等数学基准上，代理提出的算法在单位算力下获得了比现有方法更好的准确率。这个精简设置与标准 self-consistency 相比，token 用量减少了大约 70%，而后者只是并行生成 64 个答案，再通过多数投票选出胜者。准确率保持稳定。

该算法还能够迁移到另一种模型（DeepSeek-R1-Distill-Llama-8B）以及一个非数学基准（GPQA-Diamond）。整个发现过程大约花费了 40 美元，耗时 160 分钟。

一种人类大概不会想到的逻辑

比起原始数字，更有意思的是这个被发现的程序究竟是如何工作的。它会跟踪模型在多轮中的置信度变化。其他方法则会在答案的多数意见一出现倾斜时立刻放弃。

如果置信度几乎没有变化，算法就会打开更多解决路径；如果置信度快速上升，它就会跳过新的路径。那些中间结果与当前多数意见一致的解决路径，会得到额外的算力；算法只会在某些路径连续多轮都朝错误方向发展时，才舍弃这些路径。

作者把这种协调称为一种几乎不可能靠手工设计出来的机制。一项消融研究显示，这一切有多大程度上依赖于两个设计选择：如果去掉那个单一的高层控制器，智能体就会退回到极端捷径，在测试中节省大量算力，但在新任务上的准确率却会大幅下滑。没有详细日志的话，发现的算法会以更差的准确率消耗更多算力，因此单看一个最终结果根本不足以判断问题出在哪。

从编写算法到构建搜索空间

作者将 AutoTTS 与 FunSearch、AlphaEvolve 和 ADAS 等工作并列，这些方法都把语言模型用作程序搜索器。这里的新意在于将这一思路应用到测试时扩展上，而这在此前主要是靠人工完成的。

当前版本只覆盖宽度与深度之间的权衡，无法处理更复杂的结构，例如树搜索。最终发现效果有多好，也取决于编码代理。作者并未说明开源替代方案是否同样有效。

更大的启示在于，这项工作改变了人类介入的位置：研究人员不再是直接发明规则本身，而是搭建这些规则所运行的搜索环境。真正的策略随后以代码的形式浮现，并由语言模型进行编写和改进。

早在 2024 年，Hugging Face 的研究人员就展示过，小型语言模型可以通过聪明的测试时算力扩展，达到与大得多的模型相当的效果，不过当时使用的是人工设计的搜索策略。Meta 及其合作伙伴最近也推出了 hyperagents，这类 AI 系统会优化自身的改进过程。

来源与参考

收录于 2026-05-25