AI 代理必须完成任务,而不只是回答
The Decoder··作者 Jonathan Kemper
关键信息
论文对比了快速聊天式推理与 OpenAI 的 o1、DeepSeek-R1 这类“思考型”LLM,后者会投入更多算力进行推理和自我纠错。论文还警告说,可复用技能可能失效、过拟合于特定流程,甚至成为攻击入口,因此持久化和模块化也会带来新的运营风险。
资讯摘要
这篇综述认为,AI 系统要想成为真正可靠的“同事”,就不能只会回答问题,而必须在持久化的工作环境中把整项任务完成。研究团队来自腾讯优图实验室和多所中国高校,他们把这一演进描述为从“聊天机器人”走向“数字同事”。论文沿着两个维度来拆解这场变化:模型的认知核心,以及工具辅助的任务执行。作者强调,核心问题已经不再是如何生成更好的回复,而是如何把用户意图稳定地转化为已经做完的工作。
论文首先对比了聊天机器人时代和更近的“思考型 LLM”时代。早期系统主要靠一次性生成文本来输出答案,按 token 逐步预测最可能的续写,不会主动检查中间步骤。相比之下,OpenAI 的 o1 和 DeepSeek-R1 这类模型会在推理阶段投入更多算力,生成更长的思考链,并通过强化学习进行搜索和自我纠错。作者把这种变化概括为从快速、直觉式的“系统 1”思维,转向缓慢、审慎的“系统 2”思维。
接着,论文分析了早期代理的局限。这些代理虽然可以调用 API、写代码和浏览网页,但依然很脆弱,因为它们只能看到环境的碎片信息,工具调用又不会保留持久状态,意外行为很容易把流程打断,而且它们往往无法把任务完整收尾。研究团队认为,下一阶段是所谓的 OpenClaw 时代,在这个阶段里,环境本身变得可持续,文件、会话、日志、浏览器、权限和技能都会在整个工作流中持续存在。
论文的核心观点是,workspace 和 skill 的结合,是性能跃升的关键。workspace 提供状态、存储和后果,而 skill 则把操作知识打包成可复用的模块。论文提到 Anthropic 的 Agent Skills 作为例子,其中一个 skill 可以被组织成包含 `SKILL.md` 文件、脚本和资源的文件夹。作者认为,skills 既不是提示词,也不是传统工具,而是位于模型推理与 workspace 执行之间的一层,用来把组织内部的经验知识做成模块化、可测试、可移植的形式。
不过,论文也提醒,可复用流程并非没有代价。它们可能逐渐失效,过度贴合某种工作流,甚至变成攻击面。这样的担忧也影响训练和评估方式:系统不应再主要依赖指令-回答对和答案准确率,而应更多学习状态-动作-观察轨迹,并以任务是否真正闭环为标准。作者认为,SWE-bench、OSWorld 和 WebArena 这类基准更适合这个方向,因为它们要求可复现的起始状态、可执行工具、轨迹日志和终态检查。论文还指出,GPT-4 在 WebArena 上最初只完成了 14%,说明真实环境与静态问答场景之间仍有很大差距。
最后,综述强调,持久化工作空间会扩大攻击面,因为代理可能持有凭据、本地文件、身份令牌和通信通道。论文提到 OpenClaw PRISM 和 ClawGuard 等项目,目标是用权限控制、来源追踪和审计日志来做运行时防护。作者还特别强调数据主权问题,因为 workspace 代理会接触敏感代码库、内部文档和中间产物。总体而言,这篇论文主张,AI 同事的道路不在于更会说,而在于能在持久环境中借助可复用技能,可靠地把工作真正做完。

资讯正文
一篇综述论文认为,AI 系统只有在持久化工作环境中完成整个任务,而不是仅仅生成答案,才会成为可靠的同事。关键在于可复用的“技能”。
来自腾讯优图实验室和多所中国高校的一个研究团队,在一篇新的综述论文中沿着两个维度勾勒了从“聊天机器人到数字同事”的转变:认知核心和工具辅助的任务执行。
研究人员表示,核心问题已经不再是模型如何给出更好的回答,而是它如何可靠地把意图转化为已完成的工作。目标正从被动问答转向委派式任务执行。
从快速回答到慢思考
在聊天机器人时代,模型主要是快速生成文本。它们把语言模式和事实存储在参数中,然后按最可能的延续一次性逐 token 写出答案,不会检查中间步骤,也不会搜索解法。
由 OpenAI 的 o1 和 Deepseek-R1 引领的“思维型 LLM”时代,把更多算力投入到回答的瞬间。这类模型会生成很长的思维链,检查中间步骤,并通过强化学习学会搜索与自我纠错。只有可验证正确的解法才会得到奖励。研究人员将这描述为从快速、直觉式的“系统 1”思维,转向缓慢、审慎的“系统 2”推理,借用了心理学家 Daniel Kahneman 的框架。
从工具调用到工作环境
第一代智能体可以调用 API、写代码和浏览网页,但依然很脆弱。研究人员指出了四个结构性瓶颈:智能体只能碎片化感知环境,工具调用不会留下持久状态,意外行为会让它们失效,而且它们很少真正完成任务。
OpenClaw 时代则是环境本身变得持久化。文件、会话、日志、浏览器、权限和技能都会在整个工作流程中持续存在。论文引用了 OpenHands 和 SWE-agent,二者都将智能体嵌入受控的开发环境中。
工作区加技能:缺失的关键一环
论文的核心论点是,工作区与技能的结合才带来了真正的性能跃升。工作区提供状态、存储和后果,而技能则把操作知识打包成可复用的模块。Anthropic 的 Agent Skills 已经把这种模式正式化为包含 `SKILL.md` 文件、脚本和资源的文件夹。
研究人员认为,技能既不是提示词,也不是传统工具。它们位于模型推理与工作区执行之间,让组织能够把经验知识以模块化、可测试、可移植的形式保存下来。但作者也警告说,可复用流程可能会变得陈旧,可能对特定工作流过拟合,也可能成为攻击向量。
为什么训练和评估需要改变
这一转变也改变了这些系统的训练和评估方式。聊天机器人是从指令—响应对中学习,并以答案准确率来评分的。基于工作区的系统则改为从状态—动作—观察轨迹中学习。研究人员认为,成功不再取决于回答是否看起来合理,而在于任务是否闭环:系统是否能把目标环境带到一个可验证的终态。
像 SWE-bench、OSWorld 和 WebArena 这样的基准要求可复现的初始状态、可执行工具、轨迹日志以及终态检查。GPT-4 起初在 WebArena 任务中的完成率只有 14%,这表明真实网页环境与静态问答场景之间还有多大差距。
安全问题变成了运行层面的难题
持久化工作区也扩大了攻击面。代理会持有凭据、本地文件、身份令牌和通信通道。OpenClaw PRISM 和 ClawGuard 等项目正试图将权限、来源追踪和审计日志作为运行时防护措施建立起来。作者指出,数据主权同样重要,因为工作区代理会接触敏感代码仓库、内部文档和中间结果,而这些内容之后可能变成记忆、技能或训练数据。
作者承认,工作区加技能的组合并不是完整解决方案。技能可能过拟合,而工作区也会堆满过期文件和损坏的产物。研究人员认为,要实现可靠部署,需要技能生命周期管理、工作区卫生管理、权限控制、沙箱、回滚以及基于轨迹的评估。他们警告说,没有治理的复用只会制造新的失败模式。
Meta、斯坦福大学和伊利诺伊大学厄巴纳-香槟分校最近的一项调查从另一个角度提出了类似观点:自治系统的性能,与其说取决于基础模型,不如说取决于围绕它的软件层。这种“harness”把工具、沙箱化执行环境和验证机制打包在一起。
根据 Vercel 最近的一项评估,这一论点中“技能”部分在实际应用中就变得复杂起来。评估发现,编码代理有 56% 的时间甚至没有调用提供的技能系统,而嵌入在 `AGENTS.md` 文件中的压缩文档索引则达到了 100% 的成功率。技能系统的上限是 79%。被动的、始终存在的上下文胜过主动的技能检索,使天平更偏向工作区。
来源与参考
收录于 2026-06-29