ALTK-Evolve 让 AI 代理从经验中学习可复用的原则

Hugging Face Blog··作者 Hugging Face Blog

关键信息

该系统采用两个流程运行:向下流(从代理交互中提取结构化模式),向上流(精炼并检索相关指导原则),评估显示在 AppWorld 基准测试中,困难任务的成功率提升了 14.2%。

资讯摘要

大多数 AI 代理依赖重复阅读历史日志而非从中学习,导致泛化能力差且反复犯错。ALTK-Evolve 通过将原始代理轨迹转化为高质量、可复用的指导原则来解决这一问题。

它采用连续循环机制:首先通过可观测工具捕获完整的交互轨迹并提取候选规则;接着在后台精炼和评分这些规则,构建一个精简的最佳实践库;最后在任务执行时按需注入相关指导原则,从而提升性能和一致性。在 AppWorld 测试中,使用 ALTK-Evolve 的代理在困难任务上的成功率提高了 74%,并且 Scenario Goal Completion(SGC)指标显著改善,证明它们是在学习原则而非单纯记忆配方。

ALTK-Evolve 让 AI 代理从经验中学习可复用的原则

资讯正文

大多数AI代理会重复阅读对话记录,而不是学习原理,因此它们会重复犯错,并且无法将经验应用到新情境中。

ALTK-Evolve能够将原始代理轨迹转化为可复用的指导原则。

在基准测试中,该方法提升了可靠性,尤其是在困难任务(AppWorld上提升14.2%)和多步骤任务中,同时没有增加上下文负担。

想象一位才华横溢的厨师,他背熟了每一本菜谱,但每天早上都忘了你的厨房。他记不住你的烤箱温度偏高,也记不住常客喜欢加盐;他会严格按照食谱操作,但当你缺柠檬时就会手足无措。这正是大多数AI代理的状态:擅长遵循提示,却缺乏对环境的深刻理解。把昨天的日志重新喂给提示只会让它们重复历史,而无法从中提炼出通用规律。

一个初级厨师需要为“油醋汁”和“橙香鸭”分别准备不同的配方,而一位大厨则学会‘酸味平衡脂肪’这一原理,并将其应用于各种场景。同样,可靠的代理应从经验中提炼出原则,并将其应用于新任务,而不仅仅是复制旧任务的近似版本。这个长期记忆子系统正是为此设计:它将交互痕迹转化为候选指导原则,筛选高质量内容,并在行动时刻仅注入相关建议。代理需要的是原则,而不是记录。

麻省理工学院最近的一项研究发现,95%的飞行员失败是因为代理无法在工作中适应和学习。ALTK-Evolve利用长期情景记忆填补这一学习空白,帮助代理做出更优推理。

Evolve是一个用于AI代理的记忆系统,能够帮助代理随着时间推移不断改进,从先前执行中生成并使用指导原则。

从操作上看,该系统以持续循环方式运行:

- 向下流动(观察与提取):在交互层(例如Langfuse或其他基于OpenTelemetry的可观测性工具)捕获完整的代理轨迹(用户话语、思考过程、工具调用及结果)。插件式提取器挖掘轨迹中的结构模式,并将其作为候选实体持久化存储。

- 向上流动(精炼与检索):后台的合并与评分作业会合并重复项、剔除弱规则、强化已验证策略,从而演化出高质量的实体库,如指导原则、政策和标准操作流程。检索通过交互层拉取相关条目,并将其重新注入应用层的上下文中。

这种方法之所以有效,原因有三:

- 教授判断力:将一次性事件转化为可在不同任务间迁移的策略。

- 控制噪声:评分机制确保记忆简洁有用,而非不断堆积的杂物抽屉。

- 渐进式披露:检索是按需即时进行的,而不是把所有内容一股脑塞入上下文。

我们在AppWorld平台上评估了该框架,代理通过API完成现实中的多步骤任务,平均涉及1.8个应用程序的9.5个API接口,其中困难案例要求更复杂的控制流。一个ReAct代理接收任务指令以及前一轮运行生成的前5条检索到的指导原则(训练/开发集),并在未见过的数据分区(测试正常情况)上进行测试。我们报告场景目标完成率(SGC),这是一种严格的连续性指标,要求在多种变体中均取得成功。

以下是评估中得出的一些关键结论:

- 泛化能力:该智能体在未见过的测试任务(Test-Normal)上表现提升,证明它学到的是原理而非简单记忆操作步骤。

- 复杂度扩展性:任务越难,智能体从简洁学习到的指导规则中获益越多,在更困难的任务上提升最为显著。例如在Hard任务中,成功率提升了74%,这说明指导规则有助于应对复杂的控制流程。

- 一致性:SGC(结构化生成一致性)的改进超过了单纯通过率的提升,减少了不同场景变体下的行为波动。这些指导规则不仅帮助智能体完成任务,还确保它在各种变体下都能稳定可靠地完成任务。

更多实验细节请参见论文:https://arxiv.org/abs/2603.10600。

你可以选择以下方式将ALTK-Evolve集成到你的智能体中。

在Claude Code中安装插件:

claude plugin marketplace add AgentToolkit/altk-evolve

claude plugin install evolve-lite@evolve-marketplace

完成!该插件会从轨迹中提取实体,并将其存储为文件系统中的文件。它利用Claude Code的钩子实现自动检索。

如果你更喜欢观看视频而不是阅读文字,请查看简短的Evolve-Lite Claude Code演示视频:Demo

你可以在以下链接找到Lite模式下使用Claude Code进行学习的示例教程。

Lite模式易于快速试用,但存在一定局限性,比如无法跨会话获取洞察或对实体进行合并与垃圾回收。下方提供的低代码和专业代码版本解决了这些问题。

此外,我们还提供了一键集成Codex和IBM Bob的方案,欢迎尝试!

只需添加一行代码:

import altk_evolve.auto

并切换一个标志位,即可将追踪数据发送至Arize Phoenix UI。随后同步这些追踪数据,自动生成优化指导规则,而无需改动现有技术栈。此方案兼容主流LLM客户端和智能体框架(如OpenAI、LiteLLM和Hugging Face代理),让你保留当前架构的同时获得可观测性。

为了直观了解其如何轻松融入现有项目,可查阅我们的动手示例,展示不同框架的集成效果。关于配置和功能的完整说明,请阅读我们的低代码追踪文档。

我们将ALTK-Evolve直接集成进CUGA(通过MCP协议),构建了一个紧密且开销极低的学习闭环。每次运行前,调用get_guidelines MCP工具来提取任务特定的引导信息,减少试错成本;运行结束后,CUGA通过save_trajectory将结构化执行轨迹返回给Evolve,使其基于实际发生的情况学习并优化未来的引导策略。最终结果是:随着使用时间增长,这个集成方案持续改进,同时保持透明、模块化且易于采用。

想先看个可视化介绍?请观看CUGA集成教程视频:video

你的智能体不应每天醒来都像实习生一样毫无经验。这种“在岗学习”方法能真正帮助它边工作边成长。如果你正在使用Claude Code、Codex或IBM Bob,几分钟内即可体验,看看它如何提升你的智能体性能。

别忘了给仓库点个Star,这有助于他人发现该项目,并直接影响我们下一步开发的方向。

- 代码地址:https://github.com/AgentToolkit/altk-evolve

ALTK‑Evolve:AI代理的在职学习

文档:https://agenttoolkit.github.io/altk-evolve

快速入门教程:https://agenttoolkit.github.io/altk-evolve/tutorials/

反馈与建议:在 GitHub 上提交问题或参与讨论——具体的使用场景、基准测试和集成请求尤其有帮助。

来源与参考

  1. 原始链接
  2. ALTK‑Evolve: On‑the‑Job Learning for AI Agents

收录于 2026-04-09