AI 代理必须完成任务，而不只是回答

The Decoder·6月28日 20:51 UTC·作者 Jonathan Kemper

关键信息

论文对比了快速聊天式推理与 OpenAI 的 o1、DeepSeek-R1 这类“思考型”LLM，后者会投入更多算力进行推理和自我纠错。论文还警告说，可复用技能可能失效、过拟合于特定流程，甚至成为攻击入口，因此持久化和模块化也会带来新的运营风险。

资讯摘要

这篇综述认为，AI 系统要想成为真正可靠的“同事”，就不能只会回答问题，而必须在持久化的工作环境中把整项任务完成。研究团队来自腾讯优图实验室和多所中国高校，他们把这一演进描述为从“聊天机器人”走向“数字同事”。论文沿着两个维度来拆解这场变化：模型的认知核心，以及工具辅助的任务执行。作者强调，核心问题已经不再是如何生成更好的回复，而是如何把用户意图稳定地转化为已经做完的工作。

论文首先对比了聊天机器人时代和更近的“思考型 LLM”时代。早期系统主要靠一次性生成文本来输出答案，按 token 逐步预测最可能的续写，不会主动检查中间步骤。相比之下，OpenAI 的 o1 和 DeepSeek-R1 这类模型会在推理阶段投入更多算力，生成更长的思考链，并通过强化学习进行搜索和自我纠错。作者把这种变化概括为从快速、直觉式的“系统 1”思维，转向缓慢、审慎的“系统 2”思维。

接着，论文分析了早期代理的局限。这些代理虽然可以调用 API、写代码和浏览网页，但依然很脆弱，因为它们只能看到环境的碎片信息，工具调用又不会保留持久状态，意外行为很容易把流程打断，而且它们往往无法把任务完整收尾。研究团队认为，下一阶段是所谓的 OpenClaw 时代，在这个阶段里，环境本身变得可持续，文件、会话、日志、浏览器、权限和技能都会在整个工作流中持续存在。

论文的核心观点是，workspace 和 skill 的结合，是性能跃升的关键。workspace 提供状态、存储和后果，而 skill 则把操作知识打包成可复用的模块。论文提到 Anthropic 的 Agent Skills 作为例子，其中一个 skill 可以被组织成包含 `SKILL.md` 文件、脚本和资源的文件夹。作者认为，skills 既不是提示词，也不是传统工具，而是位于模型推理与 workspace 执行之间的一层，用来把组织内部的经验知识做成模块化、可测试、可移植的形式。

不过，论文也提醒，可复用流程并非没有代价。它们可能逐渐失效，过度贴合某种工作流，甚至变成攻击面。这样的担忧也影响训练和评估方式：系统不应再主要依赖指令-回答对和答案准确率，而应更多学习状态-动作-观察轨迹，并以任务是否真正闭环为标准。作者认为，SWE-bench、OSWorld 和 WebArena 这类基准更适合这个方向，因为它们要求可复现的起始状态、可执行工具、轨迹日志和终态检查。论文还指出，GPT-4 在 WebArena 上最初只完成了 14%，说明真实环境与静态问答场景之间仍有很大差距。

最后，综述强调，持久化工作空间会扩大攻击面，因为代理可能持有凭据、本地文件、身份令牌和通信通道。论文提到 OpenClaw PRISM 和 ClawGuard 等项目，目标是用权限控制、来源追踪和审计日志来做运行时防护。作者还特别强调数据主权问题，因为 workspace 代理会接触敏感代码库、内部文档和中间产物。总体而言，这篇论文主张，AI 同事的道路不在于更会说，而在于能在持久环境中借助可复用技能，可靠地把工作真正做完。

资讯正文

一篇综述论文认为，AI 系统只有在持久化工作环境中完成整个任务，而不是仅仅生成答案，才会成为可靠的同事。关键在于可复用的“技能”。

来自腾讯优图实验室和多所中国高校的一个研究团队，在一篇新的综述论文中沿着两个维度勾勒了从“聊天机器人到数字同事”的转变：认知核心和工具辅助的任务执行。

研究人员表示，核心问题已经不再是模型如何给出更好的回答，而是它如何可靠地把意图转化为已完成的工作。目标正从被动问答转向委派式任务执行。

从快速回答到慢思考

在聊天机器人时代，模型主要是快速生成文本。它们把语言模式和事实存储在参数中，然后按最可能的延续一次性逐 token 写出答案，不会检查中间步骤，也不会搜索解法。

由 OpenAI 的 o1 和 Deepseek-R1 引领的“思维型 LLM”时代，把更多算力投入到回答的瞬间。这类模型会生成很长的思维链，检查中间步骤，并通过强化学习学会搜索与自我纠错。只有可验证正确的解法才会得到奖励。研究人员将这描述为从快速、直觉式的“系统 1”思维，转向缓慢、审慎的“系统 2”推理，借用了心理学家 Daniel Kahneman 的框架。

从工具调用到工作环境

第一代智能体可以调用 API、写代码和浏览网页，但依然很脆弱。研究人员指出了四个结构性瓶颈：智能体只能碎片化感知环境，工具调用不会留下持久状态，意外行为会让它们失效，而且它们很少真正完成任务。

OpenClaw 时代则是环境本身变得持久化。文件、会话、日志、浏览器、权限和技能都会在整个工作流程中持续存在。论文引用了 OpenHands 和 SWE-agent，二者都将智能体嵌入受控的开发环境中。

工作区加技能：缺失的关键一环

论文的核心论点是，工作区与技能的结合才带来了真正的性能跃升。工作区提供状态、存储和后果，而技能则把操作知识打包成可复用的模块。Anthropic 的 Agent Skills 已经把这种模式正式化为包含 `SKILL.md` 文件、脚本和资源的文件夹。

研究人员认为，技能既不是提示词，也不是传统工具。它们位于模型推理与工作区执行之间，让组织能够把经验知识以模块化、可测试、可移植的形式保存下来。但作者也警告说，可复用流程可能会变得陈旧，可能对特定工作流过拟合，也可能成为攻击向量。

为什么训练和评估需要改变

这一转变也改变了这些系统的训练和评估方式。聊天机器人是从指令—响应对中学习，并以答案准确率来评分的。基于工作区的系统则改为从状态—动作—观察轨迹中学习。研究人员认为，成功不再取决于回答是否看起来合理，而在于任务是否闭环：系统是否能把目标环境带到一个可验证的终态。

像 SWE-bench、OSWorld 和 WebArena 这样的基准要求可复现的初始状态、可执行工具、轨迹日志以及终态检查。GPT-4 起初在 WebArena 任务中的完成率只有 14%，这表明真实网页环境与静态问答场景之间还有多大差距。

安全问题变成了运行层面的难题

持久化工作区也扩大了攻击面。代理会持有凭据、本地文件、身份令牌和通信通道。OpenClaw PRISM 和 ClawGuard 等项目正试图将权限、来源追踪和审计日志作为运行时防护措施建立起来。作者指出，数据主权同样重要，因为工作区代理会接触敏感代码仓库、内部文档和中间结果，而这些内容之后可能变成记忆、技能或训练数据。

作者承认，工作区加技能的组合并不是完整解决方案。技能可能过拟合，而工作区也会堆满过期文件和损坏的产物。研究人员认为，要实现可靠部署，需要技能生命周期管理、工作区卫生管理、权限控制、沙箱、回滚以及基于轨迹的评估。他们警告说，没有治理的复用只会制造新的失败模式。

Meta、斯坦福大学和伊利诺伊大学厄巴纳-香槟分校最近的一项调查从另一个角度提出了类似观点：自治系统的性能，与其说取决于基础模型，不如说取决于围绕它的软件层。这种“harness”把工具、沙箱化执行环境和验证机制打包在一起。

根据 Vercel 最近的一项评估，这一论点中“技能”部分在实际应用中就变得复杂起来。评估发现，编码代理有 56% 的时间甚至没有调用提供的技能系统，而嵌入在 `AGENTS.md` 文件中的压缩文档索引则达到了 100% 的成功率。技能系统的上限是 79%。被动的、始终存在的上下文胜过主动的技能检索，使天平更偏向工作区。

来源与参考

收录于 2026-06-29