AI代理技能在现实条件下表现不佳
The Decoder··作者 Matthias Bastian
关键信息
研究人员识别出三个瓶颈:技能选择差(仅49%的运行加载了所有精选技能)、检索准确率低(Recall@5为65.5%),以及无法将通用技能适配到特定任务。
资讯摘要
来自加州大学圣塔芭芭拉分校、MIT CSAIL 和 MIT-IBM Watson AI实验室的研究团队对34,198个开源技能进行了六种逐步真实的场景测试。即使提供精选技能,也只有约一半的代理使用了全部技能。
当代理需要自己搜索技能时,性能急剧下降——因为检索方法的召回率仅为约65%。该研究显示,当前如SKILLSBENCH这样的基准测试过于乐观,因为它们提供了手工整理的任务专用技能,而不是模拟现实世界中的发现挑战。

资讯正文
研究人员发现,AI代理的技能在基准测试中表现优异,但在现实条件下却迅速失效。
AI代理本应通过所谓的‘技能’来获取专业领域的知识。一项针对34,000个真实技能的新研究显示,在现实环境中这些增强功能几乎毫无帮助,甚至较弱的模型使用技能后表现更差。
Anthropic于2025年10月首次在Claude Code中引入技能功能,这是一种模块化系统,使代理能自动判断完成特定任务所需的专门指令。OpenAI的Codex和其他开源项目很快也采用了这一概念。
技能以结构化的文本文件形式存在,编码了领域特定的知识,比如工作流程、API使用模式和最佳实践。具备代理能力的AI系统可以在执行任务时调用这些文件,并应用其中描述的操作步骤。关键问题是:当代理必须自行查找并应用这些技能时,它们究竟有多实用?
现有基准测试描绘了一幅过于乐观的画面。
由加州大学圣塔芭芭拉分校、MIT CSAIL以及MIT-IBM Watson AI实验室研究人员共同完成的一项新研究表明,技能的好处是‘脆弱的’,一旦测试条件变得更加现实,其优势就会急剧下降。在最具挑战性的场景中,结果几乎无法超越不使用技能的基线。
研究人员指出,问题在于目前对技能的测试方式。现有的基准SKILLSBENCH会直接向代理提供精心挑选的任务专用技能——本质上相当于为代理提供任务的详细操作指南。
该研究中的一个例子清晰说明了这一点:某项任务要求识别美国地质调查局(USGS)水文站的洪水日期。所提供的三个技能分别包含下载水位数据的精确API接口、洪水阈值的具体URL以及识别洪水日期的现成代码片段。研究人员写道:“这些技能组合几乎直接给出了该任务的确切解决方案指南。”
然而在现实世界中,代理并不会获得现成的技能,也无法保证合适技能的存在。它们必须自己从大量杂乱的集合中挖掘,并将通用技能适配到具体任务上。
34,000个真实技能接受检验
在这项研究中,研究人员从开源仓库收集了34,198个真实技能,筛选条件为宽松许可证(MIT和Apache 2.0),并去重处理。这些技能来自skillhub.club和skills.sh等聚合平台,涵盖网页开发、数据工程到科学计算等多个领域。
随后,团队测试了六种逐步更接近现实的场景:从直接交付定制技能,到加入干扰项,再到让代理完全自主搜索整个技能库,无论是否包含已定制的技能。
三款模型参与测试:Claude Opus 4.6搭配Claude Code、Kimi K2.5搭配Terminus-2,以及Qwen3.5-397B-A17B搭配Qwen Code。每款模型独立运行完整流程,包括技能检索和任务解决。
随着条件越来越真实,性能持续下降
代理在选择、搜索和适应方面面临困难
研究人员发现,代理技能在基准测试中表现优异,但在现实条件下却迅速失效。
研究人员指出了三个关键瓶颈。首先,代理在技能选择阶段就已经出现问题:即使精心挑选的技能就在眼前,也只有49%的Claude实例会加载全部技能。加入干扰项后,这一比例骤降至31%。有趣的是,Kimi的表现要好得多——在精心筛选的环境中加载率高达86%,研究人员认为这归因于代理环境的不同。但Kimi热衷加载技能的特点并未转化为更好的任务执行效果。
其次,独立搜索使情况更糟,因为即便使用最佳检索方法,Recall@5也仅达到65.5%。第三,当没有定制化技能时,代理无法将通用技能适配到具体任务上。
针对技能搜索本身,研究人员比较了几种检索策略。最终胜出的是“代理混合搜索”(agentic hybrid search),即代理迭代地撰写搜索查询、检查候选结果并调整策略。这种方法在Recall@3指标上比简单的语义搜索高出18.7个百分点。
改进有助于提升性能,但前提是基础材料足够扎实。
为了缩小性能差距,研究人员测试了两种改进策略。一种是任务特定改进(task-specific refinement):代理先探索任务,尝试初步解决方案,评估所获取技能的有用性,并基于此过程构建新的定制技能。例如,在张量并行任务中,代理结合两个不同技能的想法,创造出一个原始技能中均未包含的新技能。
另一种是任务无关改进(task-independent refinement),即在不掌握目标任务信息的情况下离线优化技能,其提升效果则不稳定。研究人员得出结论:改进更像是现有技能质量的放大器,而非新知识的来源;它主要在最初检索到的技能已包含相关信息时才有效。
此前的研究已经揭示了技能方法的问题。
这些发现与Vercel之前的一项研究一致,该研究发现技能方法存在根本性缺陷:在56%的测试案例中,代理根本没有检索到可用技能。使用技能后的通过率与无文档基线完全相同。相比之下,一个简单地以Markdown格式(AGENTS.md)被动加载进代理上下文的文件实现了100%的通过率,而技能系统最高仅为79%。
本研究在多个模型上以更大规模系统性地验证了这一核心问题:代理经常无法识别可用技能的相关性,直接跳过它们。
研究团队呼吁开发更有效的检索方法、更具成效的离线改进策略,以及能适应不同模型能力的技能生态系统。该研究代码已发布在GitHub上。
AI新闻去伪存真——由人类精选
订阅THE DECODER,享受无广告阅读体验、每周AI简报、每年六次独家‘AI雷达’前沿报告、完整档案访问权限及评论区权限。
来源与参考
收录于 2026-04-13