AI代理技能在现实条件下表现不佳

The Decoder·4月12日 18:32 UTC·作者 Matthias Bastian

关键信息

研究人员识别出三个瓶颈：技能选择差（仅49%的运行加载了所有精选技能）、检索准确率低（Recall@5为65.5%），以及无法将通用技能适配到特定任务。

资讯摘要

来自加州大学圣塔芭芭拉分校、MIT CSAIL 和 MIT-IBM Watson AI实验室的研究团队对34,198个开源技能进行了六种逐步真实的场景测试。即使提供精选技能，也只有约一半的代理使用了全部技能。

当代理需要自己搜索技能时，性能急剧下降——因为检索方法的召回率仅为约65%。该研究显示，当前如SKILLSBENCH这样的基准测试过于乐观，因为它们提供了手工整理的任务专用技能，而不是模拟现实世界中的发现挑战。

资讯正文

研究人员发现，AI代理的技能在基准测试中表现优异，但在现实条件下却迅速失效。

AI代理本应通过所谓的‘技能’来获取专业领域的知识。一项针对34,000个真实技能的新研究显示，在现实环境中这些增强功能几乎毫无帮助，甚至较弱的模型使用技能后表现更差。

Anthropic于2025年10月首次在Claude Code中引入技能功能，这是一种模块化系统，使代理能自动判断完成特定任务所需的专门指令。OpenAI的Codex和其他开源项目很快也采用了这一概念。

技能以结构化的文本文件形式存在，编码了领域特定的知识，比如工作流程、API使用模式和最佳实践。具备代理能力的AI系统可以在执行任务时调用这些文件，并应用其中描述的操作步骤。关键问题是：当代理必须自行查找并应用这些技能时，它们究竟有多实用？

现有基准测试描绘了一幅过于乐观的画面。

由加州大学圣塔芭芭拉分校、MIT CSAIL以及MIT-IBM Watson AI实验室研究人员共同完成的一项新研究表明，技能的好处是‘脆弱的’，一旦测试条件变得更加现实，其优势就会急剧下降。在最具挑战性的场景中，结果几乎无法超越不使用技能的基线。

研究人员指出，问题在于目前对技能的测试方式。现有的基准SKILLSBENCH会直接向代理提供精心挑选的任务专用技能——本质上相当于为代理提供任务的详细操作指南。

该研究中的一个例子清晰说明了这一点：某项任务要求识别美国地质调查局（USGS）水文站的洪水日期。所提供的三个技能分别包含下载水位数据的精确API接口、洪水阈值的具体URL以及识别洪水日期的现成代码片段。研究人员写道：“这些技能组合几乎直接给出了该任务的确切解决方案指南。”

然而在现实世界中，代理并不会获得现成的技能，也无法保证合适技能的存在。它们必须自己从大量杂乱的集合中挖掘，并将通用技能适配到具体任务上。

34,000个真实技能接受检验

在这项研究中，研究人员从开源仓库收集了34,198个真实技能，筛选条件为宽松许可证（MIT和Apache 2.0），并去重处理。这些技能来自skillhub.club和skills.sh等聚合平台，涵盖网页开发、数据工程到科学计算等多个领域。

随后，团队测试了六种逐步更接近现实的场景：从直接交付定制技能，到加入干扰项，再到让代理完全自主搜索整个技能库，无论是否包含已定制的技能。

三款模型参与测试：Claude Opus 4.6搭配Claude Code、Kimi K2.5搭配Terminus-2，以及Qwen3.5-397B-A17B搭配Qwen Code。每款模型独立运行完整流程，包括技能检索和任务解决。

随着条件越来越真实，性能持续下降

代理在选择、搜索和适应方面面临困难

研究人员发现，代理技能在基准测试中表现优异，但在现实条件下却迅速失效。

研究人员指出了三个关键瓶颈。首先，代理在技能选择阶段就已经出现问题：即使精心挑选的技能就在眼前，也只有49%的Claude实例会加载全部技能。加入干扰项后，这一比例骤降至31%。有趣的是，Kimi的表现要好得多——在精心筛选的环境中加载率高达86%，研究人员认为这归因于代理环境的不同。但Kimi热衷加载技能的特点并未转化为更好的任务执行效果。

其次，独立搜索使情况更糟，因为即便使用最佳检索方法，Recall@5也仅达到65.5%。第三，当没有定制化技能时，代理无法将通用技能适配到具体任务上。

针对技能搜索本身，研究人员比较了几种检索策略。最终胜出的是“代理混合搜索”（agentic hybrid search），即代理迭代地撰写搜索查询、检查候选结果并调整策略。这种方法在Recall@3指标上比简单的语义搜索高出18.7个百分点。

改进有助于提升性能，但前提是基础材料足够扎实。

为了缩小性能差距，研究人员测试了两种改进策略。一种是任务特定改进（task-specific refinement）：代理先探索任务，尝试初步解决方案，评估所获取技能的有用性，并基于此过程构建新的定制技能。例如，在张量并行任务中，代理结合两个不同技能的想法，创造出一个原始技能中均未包含的新技能。

另一种是任务无关改进（task-independent refinement），即在不掌握目标任务信息的情况下离线优化技能，其提升效果则不稳定。研究人员得出结论：改进更像是现有技能质量的放大器，而非新知识的来源；它主要在最初检索到的技能已包含相关信息时才有效。

此前的研究已经揭示了技能方法的问题。

这些发现与Vercel之前的一项研究一致，该研究发现技能方法存在根本性缺陷：在56%的测试案例中，代理根本没有检索到可用技能。使用技能后的通过率与无文档基线完全相同。相比之下，一个简单地以Markdown格式（AGENTS.md）被动加载进代理上下文的文件实现了100%的通过率，而技能系统最高仅为79%。

本研究在多个模型上以更大规模系统性地验证了这一核心问题：代理经常无法识别可用技能的相关性，直接跳过它们。

研究团队呼吁开发更有效的检索方法、更具成效的离线改进策略，以及能适应不同模型能力的技能生态系统。该研究代码已发布在GitHub上。

AI新闻去伪存真——由人类精选

订阅THE DECODER，享受无广告阅读体验、每周AI简报、每年六次独家‘AI雷达’前沿报告、完整档案访问权限及评论区权限。

来源与参考

收录于 2026-04-13