SkillOpt 用 Markdown 技能提升 GPT-5.5
The Decoder··作者 Jonathan Kemper
关键信息
SkillOpt 使用一个冻结的目标模型和一个单独的优化器模型,后者根据运行日志编辑技能文档,且只有在验证集上更好时才接受修改。训练完成后,技能会以大约 300 到 2000 个 token 的普通 Markdown 文件形式部署,论文称其在 6 个基准和 7 个目标模型上都取得了提升。
资讯摘要
微软与三所中国大学的合作者提出了 SkillOpt,这种方法把 AI 代理的指令文档当作一种可以像模型参数一样被优化的对象。论文讨论的对象是所谓的“技能”文件,它们通常包含流程步骤、工具使用规则、输出格式和已知失败模式等内容。作者指出,这类技能已经在商业系统中很常见,但以往的编写方式大多只是人工撰写、一次性由大模型生成,或者进行较为松散的自我修订,并不是真正意义上的优化。SkillOpt 的做法是让一个单独的语言模型读取代理运行日志,发现反复出现的错误和成功模式,然后提出小幅修改,例如增加、删除或替换技能文档中的片段。每次候选修改都必须先通过留出的验证集检验,只有确实提升表现才会被保留。
作者还把深度学习中的一些概念映射到文本层面,例如用受限的编辑预算限制每一步能改动多少,用调度器在训练轮次中逐步缩小步长,用回收缓冲区保存被拒绝的修改作为负样本,以及在每个 epoch 结束时做一次缓慢更新来保持稳定的编辑方向。训练结束后,优化器模型就不再需要了,部署时目标模型只需接收一个大约 300 到 2000 个 token 的 Markdown 文件作为上下文。根据文中的实验,SkillOpt 在 6 个基准上进行了测试,这些基准覆盖搜索、电子表格、文档分析、数学和具身行动,并使用了 7 个目标模型,包括 GPT-5.5 和较小的 Qwen3.5-4B。结果显示,它在所有对比方法中都能做到领先或持平,这些方法包括手写技能、一次性 LLM 生成技能,以及 Trace2Skill、TextGrad、GEPA 和 EvoSkill 等专门方法;其中 GPT-5.5 在 6 个基准上的平均提升约为 23 分。

资讯正文
微软的 SkillOpt 通过仅仅使用一个训练过的 Markdown 文件提升了 GPT-5.5
一个简单的 Markdown 文件,显然就足以让 GPT-5.5 在流程性任务上提升 20 多分。这就是 SkillOpt 的承诺:这是一种来自微软和三所中国大学的方法,它以训练模型权重的方式来训练给 AI 代理使用的指令文档。
这类指令文档被称为“skills”,在商业产品中已经很常见。比如,Anthropic 去年就为 Claude 加入了一个模块化的技能系统,会根据任务自动加载特定主题的指令、脚本和资源。
通常,skills 会打包流程、工具使用规则、输出格式以及已知的失败模式,已经成为一种标准做法。根据微软团队的论文,在此之前,它们要么是手工编写,要么由语言模型一次性生成,要么只是进行松散的自我修订。这些方法都不像真正的优化器,也都不能保证 skill 确实会变得更好。
技能文档变成了可训练状态
SkillOpt 将 skill 文档视为冻结目标模型的一个外部、可训练状态。第二个、独立的语言模型充当优化器。它读取代理运行时的日志,找出反复出现的错误和成功模式,并提出对 skill 的有限修改:增加、删除或替换单独段落。每一次改动只有在它在留出的验证集上表现更好时才会被接受。
作者把几个深度学习概念映射到了文本层面。一种类似学习率的机制限制了每一步能落地的修改数量。调度器会在多个 epoch 中逐步缩小步长。被拒绝的修改会进入缓冲区,并作为后续反思的负样本。每个 epoch 结束时进行一次缓慢更新,以保留训练轮次之间稳定的修改方向,这类似于传统训练中的梯度平滑。
这种方法之所以实用,在于训练与部署之间有着清晰的分离。优化器模型只在训练期间运行,训练完成后它就不再参与。到了推理时,目标模型只需接收一个 300 到 2,000 token 的普通 Markdown 文件作为上下文。
持续击败所有对比方法
作者在六个基准测试上检验了这种方法,覆盖搜索、电子表格、文档分析、数学和具身行动。共有七个系统作为目标模型参与测试,其中包括 GPT-5.5 以及小得多的 Qwen3.5-4B。任务既在直接聊天场景中运行,也在 Codex 和 Claude Code 这类代理环境中运行。
在所有组合上,SkillOpt 都是领先或与最佳对比结果持平。它的表现优于手工编写的 skills、一次性由 LLM 生成的 skills,以及 Trace2Skill、TextGrad、GEPA 和 EvoSkill 等专门方法。在直接聊天场景下的 GPT-5.5 上,六个基准的平均分大约提升了 23 分。
最大的增益出现在那些对格式要求严格且需要使用工具的任务上,比如电子表格编辑。小模型同样受益,这被作者视为证据,说明一个训练良好的 skill 能向这些模型提供其权重中缺少的流程性知识。
Skills 可跨模型和环境迁移
一个关键发现是可迁移性。训练于更大模型上的技能,也会提升同一系列中的更小模型。在 Codex 循环中训练出来的电子表格技能,可以原封不动地用于 Claude Code,并将那里的表现提升到与直接在 Claude Code 中训练的技能相同的水平。一个在奥赛题目上优化过的数学技能,即使不重新训练,也仍然能在相关基准上带来提升。
消融研究解释了为什么这种方法能保持稳定。没有有界的编辑预算时,技能在每次修订中都会漂移得太远。没有用于拒绝编辑的缓冲区时,优化器就会重复同样失败的尝试。
如果去掉每个 epoch 结束时的缓慢更新,SpreadsheetBench 的分数会下降二十多分,这是整个实验中最大的一次跌幅。作者表示,只有将有界步长、验证门控、负反馈和长期整合结合起来,技能训练才会像一个受控的优化过程那样运作。
简短、可读的文档承担了主要工作
最终得到的技能非常紧凑:成品文档很少超过 2,000 个 token,而且这些改进只来自四个训练 epoch 中一到四次被接受的编辑。在 OfficeQA 上,最大的提升来自一次被接受的改动。
学到的规则读起来就像一位经验丰富的从业者在围绕基准工作一天后随手记下的笔记。对于电子表格,这项技能学会了先检查工作表结构,然后把直接求值的数值写入整个目标范围,而不是使用 Excel 公式。
对于 ALFWorld,它会记录访问过的位置,并避免在拿到目标物体之前就朝着目标前进。对于文档问答,它会先把问题锚定到正确的表格行,再接受答案。这些规则都没有指向某个特定任务,它们描述的是流程。
作者承认,这种方法依赖于可靠的自动评分。对于结果难以衡量的开放式任务,验证步骤就需要人类或模型给出判断。SkillOpt 也刻意只优化单个文档,而不是一个技能库,这对于变化极其多样的领域来说,可能会成为瓶颈。
SkillOpt 在自我改进竞赛中的位置
尽管当前大多数自我改进方法最终都会调整模型权重,SkillOpt 走的是一条异常轻量的路径。Princeton 研究人员提出的 OpenClaw-RL 利用每次交互后的后续信号——比如用户反馈或测试结果——作为实时训练来源。
MetaClaw 从失败任务中提取紧凑的行为规则并将其注入提示词,只在空闲阶段通过强化学习更新权重。与 SkillOpt 的一个共同点是:在这两种情况下,更弱的模型受益最大,因为它们缺少规则或技能可以直接提供的程序性知识。
其他团队走得更远。AutoTTS 让编码代理自主搜索更好的推理控制算法,把人类角色从设计规则转变为设计环境。Meta 的 Hyperagents 会优化它们用来改进自身的机制本身。相比之下,SkillOpt 保持模型冻结,不改变任何东西,只改一个可读的文本文件。
AI 新闻,无夸张炒作——由人工精心筛选
订阅 THE DECODER,即可获得无广告阅读体验、每周 AI 新闻简报、我们每年六次发布的独家前沿报告《AI Radar》、完整档案访问权限,以及评论区访问权限。
来源与参考
收录于 2026-06-14