ALTK-Evolve 让 AI 代理从经验中学习可复用的原则

Hugging Face Blog·4月8日 22:27 UTC·作者 Hugging Face Blog

关键信息

该系统采用两个流程运行：向下流（从代理交互中提取结构化模式），向上流（精炼并检索相关指导原则），评估显示在 AppWorld 基准测试中，困难任务的成功率提升了 14.2%。

资讯摘要

大多数 AI 代理依赖重复阅读历史日志而非从中学习，导致泛化能力差且反复犯错。ALTK-Evolve 通过将原始代理轨迹转化为高质量、可复用的指导原则来解决这一问题。

它采用连续循环机制：首先通过可观测工具捕获完整的交互轨迹并提取候选规则；接着在后台精炼和评分这些规则，构建一个精简的最佳实践库；最后在任务执行时按需注入相关指导原则，从而提升性能和一致性。在 AppWorld 测试中，使用 ALTK-Evolve 的代理在困难任务上的成功率提高了 74%，并且 Scenario Goal Completion（SGC）指标显著改善，证明它们是在学习原则而非单纯记忆配方。

资讯正文

大多数AI代理会重复阅读对话记录，而不是学习原理，因此它们会重复犯错，并且无法将经验应用到新情境中。

ALTK-Evolve能够将原始代理轨迹转化为可复用的指导原则。

在基准测试中，该方法提升了可靠性，尤其是在困难任务（AppWorld上提升14.2%）和多步骤任务中，同时没有增加上下文负担。

想象一位才华横溢的厨师，他背熟了每一本菜谱，但每天早上都忘了你的厨房。他记不住你的烤箱温度偏高，也记不住常客喜欢加盐；他会严格按照食谱操作，但当你缺柠檬时就会手足无措。这正是大多数AI代理的状态：擅长遵循提示，却缺乏对环境的深刻理解。把昨天的日志重新喂给提示只会让它们重复历史，而无法从中提炼出通用规律。

一个初级厨师需要为“油醋汁”和“橙香鸭”分别准备不同的配方，而一位大厨则学会‘酸味平衡脂肪’这一原理，并将其应用于各种场景。同样，可靠的代理应从经验中提炼出原则，并将其应用于新任务，而不仅仅是复制旧任务的近似版本。这个长期记忆子系统正是为此设计：它将交互痕迹转化为候选指导原则，筛选高质量内容，并在行动时刻仅注入相关建议。代理需要的是原则，而不是记录。

麻省理工学院最近的一项研究发现，95%的飞行员失败是因为代理无法在工作中适应和学习。ALTK-Evolve利用长期情景记忆填补这一学习空白，帮助代理做出更优推理。

Evolve是一个用于AI代理的记忆系统，能够帮助代理随着时间推移不断改进，从先前执行中生成并使用指导原则。

从操作上看，该系统以持续循环方式运行：

- 向下流动（观察与提取）：在交互层（例如Langfuse或其他基于OpenTelemetry的可观测性工具）捕获完整的代理轨迹（用户话语、思考过程、工具调用及结果）。插件式提取器挖掘轨迹中的结构模式，并将其作为候选实体持久化存储。

- 向上流动（精炼与检索）：后台的合并与评分作业会合并重复项、剔除弱规则、强化已验证策略，从而演化出高质量的实体库，如指导原则、政策和标准操作流程。检索通过交互层拉取相关条目，并将其重新注入应用层的上下文中。

这种方法之所以有效，原因有三：

- 教授判断力：将一次性事件转化为可在不同任务间迁移的策略。

- 控制噪声：评分机制确保记忆简洁有用，而非不断堆积的杂物抽屉。

- 渐进式披露：检索是按需即时进行的，而不是把所有内容一股脑塞入上下文。

我们在AppWorld平台上评估了该框架，代理通过API完成现实中的多步骤任务，平均涉及1.8个应用程序的9.5个API接口，其中困难案例要求更复杂的控制流。一个ReAct代理接收任务指令以及前一轮运行生成的前5条检索到的指导原则（训练/开发集），并在未见过的数据分区（测试正常情况）上进行测试。我们报告场景目标完成率（SGC），这是一种严格的连续性指标，要求在多种变体中均取得成功。

以下是评估中得出的一些关键结论：

- 泛化能力：该智能体在未见过的测试任务（Test-Normal）上表现提升，证明它学到的是原理而非简单记忆操作步骤。

- 复杂度扩展性：任务越难，智能体从简洁学习到的指导规则中获益越多，在更困难的任务上提升最为显著。例如在Hard任务中，成功率提升了74%，这说明指导规则有助于应对复杂的控制流程。

- 一致性：SGC（结构化生成一致性）的改进超过了单纯通过率的提升，减少了不同场景变体下的行为波动。这些指导规则不仅帮助智能体完成任务，还确保它在各种变体下都能稳定可靠地完成任务。

更多实验细节请参见论文：https://arxiv.org/abs/2603.10600。

你可以选择以下方式将ALTK-Evolve集成到你的智能体中。

在Claude Code中安装插件：

claude plugin marketplace add AgentToolkit/altk-evolve

claude plugin install evolve-lite@evolve-marketplace

完成！该插件会从轨迹中提取实体，并将其存储为文件系统中的文件。它利用Claude Code的钩子实现自动检索。

如果你更喜欢观看视频而不是阅读文字，请查看简短的Evolve-Lite Claude Code演示视频：Demo

你可以在以下链接找到Lite模式下使用Claude Code进行学习的示例教程。

Lite模式易于快速试用，但存在一定局限性，比如无法跨会话获取洞察或对实体进行合并与垃圾回收。下方提供的低代码和专业代码版本解决了这些问题。

此外，我们还提供了一键集成Codex和IBM Bob的方案，欢迎尝试！

只需添加一行代码：

import altk_evolve.auto

并切换一个标志位，即可将追踪数据发送至Arize Phoenix UI。随后同步这些追踪数据，自动生成优化指导规则，而无需改动现有技术栈。此方案兼容主流LLM客户端和智能体框架（如OpenAI、LiteLLM和Hugging Face代理），让你保留当前架构的同时获得可观测性。

为了直观了解其如何轻松融入现有项目，可查阅我们的动手示例，展示不同框架的集成效果。关于配置和功能的完整说明，请阅读我们的低代码追踪文档。

我们将ALTK-Evolve直接集成进CUGA（通过MCP协议），构建了一个紧密且开销极低的学习闭环。每次运行前，调用get_guidelines MCP工具来提取任务特定的引导信息，减少试错成本；运行结束后，CUGA通过save_trajectory将结构化执行轨迹返回给Evolve，使其基于实际发生的情况学习并优化未来的引导策略。最终结果是：随着使用时间增长，这个集成方案持续改进，同时保持透明、模块化且易于采用。

想先看个可视化介绍？请观看CUGA集成教程视频：video

你的智能体不应每天醒来都像实习生一样毫无经验。这种“在岗学习”方法能真正帮助它边工作边成长。如果你正在使用Claude Code、Codex或IBM Bob，几分钟内即可体验，看看它如何提升你的智能体性能。

别忘了给仓库点个Star，这有助于他人发现该项目，并直接影响我们下一步开发的方向。

- 代码地址：https://github.com/AgentToolkit/altk-evolve

ALTK‑Evolve：AI代理的在职学习

文档：https://agenttoolkit.github.io/altk-evolve

快速入门教程：https://agenttoolkit.github.io/altk-evolve/tutorials/

反馈与建议：在 GitHub 上提交问题或参与讨论——具体的使用场景、基准测试和集成请求尤其有帮助。

来源与参考

收录于 2026-04-09