AI 代理成本高度不稳定

ZDNET AI··作者 Tiernan Ray

关键信息

研究报告称,在某些对比中,代理消耗的 token 约为逐轮提示式聊天的 3,500 倍,而且不同模型在同一任务上的 token 成本差异可能非常大。作者还发现,模型会系统性低估自己需要的 token 数量,而更多的 token 消耗也不一定能提升执行效果。

资讯摘要

ZDNET 报道称,AI 代理面临的最不被理解的问题其实是成本。虽然 OpenAI、Google 和 Anthropic 等厂商都公布了价格表,但这些价格并不能告诉用户,为了解决一个真实问题最终会花多少钱。该研究题为《How Do AI Agents Spend Your Money? Analyzing and Predicting Token Consumption in Agentic Coding Tasks》,已发布在 arXiv 上,并被称为首个系统性研究 AI 代理 token 消耗的工作。研究由密歇根大学的 Longju Bai 领衔,合作者来自斯坦福大学、All Hands AI、Google DeepMind、Microsoft 和 MIT。文中还提到,斯坦福知名经济学家 Erik Brynjolfsson 也是作者之一。

研究团队使用开源 agent 框架 OpenHands 构建代理,并在 SWE-Bench 上进行测试,该基准来自真实的 GitHub issue。结果显示,agentic 工作流消耗的 token 可能比简单的提示-回答聊天多出几个数量级,其中一个对比约高出 3,500 倍。研究还发现,不同模型在同一任务上的 token 成本差异很大,而且同一模型在重复执行同一任务时,消耗也会明显波动。作者认为,代理任务特别昂贵,更多 token 并不一定带来更好的效果,而代理本身也无法可靠预测自己最终需要多少 token。文章最后指出,用户可能只能通过设置硬性限制来控制成本,但这也可能导致任务在未完成时被中止。

AI 代理成本高度不稳定

资讯正文

在 ZDNET 上关注我们:把我们添加为 Google 上的首选来源。ZDNET 的要点:使用 agents 时,AI 的 token 成本会飙升。agents 表现不稳定,无法预测其总 token 用量。用户必须要求价格透明和性能保证。

在实施 agentic artificial intelligence 的诸多挑战中,最不为人理解的问题是成本。OpenAI、Google 和 Anthropic 等 AI 提供商都有价格表,但这些标价都无法告诉用户,为了真正解决一个问题,最终账单会是多少。

根据密歇根大学及合作机构对成本开展的一项新研究,结果可能会让人吃惊:agents 的成本会飙升且难以预测。这项研究由密歇根大学的 Longju Bai 领衔,合作者来自斯坦福大学、All Hands AI、Google 的 DeepMind 部门、Microsoft 和 MIT,题为“How Do AI Agents Spend Your Money? Analyzing and Predicting Token Consumption in Agentic Coding Tasks”,作者称其为“首个针对 AI Agent token 消耗的系统性研究”。该研究已发布在 arXiv 预印本服务器上。值得注意的是,该研究作者中有一位著名的斯坦福经济学家 Erik Brynjolfsson,他长期就 AI 对生产力的影响发表评论。

最核心的发现是,agents 消耗的 token 数量比逐轮、简单、基于提示词的聊天多出几个数量级——以 ChatGPT 的一轮提示对话为基准,agent 所用的 token 数量约为其 3,500 倍。

另见:MIT 研究发现,AI agents 既快又松散,而且失控了

token 是 AI 模型处理信息的基本单位。根据模型如何将数据切分成片段,token 可能是一个词的一部分、一个完整的词,或者仅仅是一个标点符号。

你也许会预期 agents 在 token 成本上更高,但这项研究揭示了更令人担忧的事实。两个不同的模型在执行同一任务时,token 成本可能天差地别。而同一个模型在解决同一个问题时,每次的成本也可能不同;某一次使用的 token 数量,可能是另一次的两倍。

最糟糕的是,这一切都无法预测。Bai 和团队发现,agents 无法可靠地估计自己在给定任务上最终会消耗多少 token。

另见:agentic coding apocalypse 的 5 个迷思

他们写道:“Agentic 任务的成本独一无二地高。”而更多 token 并不一定能改善结果。他们写道:“单纯扩大 token 使用量未必会带来更高的执行性能”,并且“[AI] 模型会系统性地低估它们所需的 token。”

不断上涨的成本和成功与否的不确定性,在今天 OpenAI 等公司的价格表中完全没有体现。该研究表明,这件事并没有简单的解决办法。用户能做的最好事情,是为 agentic 计算设定硬性限制,这样可能会导致 agents 在完成任务之前就停下来。

(披露:Ziff Davis,即 ZDNET 的母公司,已于 2025 年 4 月对 OpenAI 提起诉讼,指控其在训练和运营自身 AI 系统时侵犯了 Ziff Davis 的版权。)

更大的图景是,用户整体上必须向 OpenAI 和其他供应商施压,要求他们提供某种可靠的成本估算以及任务 შესრულ性能保证。我们已联系 OpenAI、Google 和 Anthropic 征求评论。

按 token 成本计算

为了研究成本,Bai 及其团队使用了开源的 agentic AI 框架 OpenHands。该框架由伊利诺伊大学厄巴纳-香槟分校及合作机构的学者开发。他们用 OpenHands 构建了 agents,然后在开源代码基准测试 SWE-Bench 上对其进行测试。SWE-Bench 的任务取自真实的 GitHub issues。

另请参阅:混乱的 AI agents?新研究显示,bot 与 bot 对话时很快就会失控

他们首先发现了各模型的相对优势。OpenAI 的 ChatGPT 5 和 5.2“在较低成本下实现了较强的准确率”,尽管它们并不是最准确的。Anthropic 的 Claude Sonnet-4.5 取得了最高准确率,但 token 成本也更高。Google 的 Gemini-3-Pro 介于两者之间。而中国 AI 实验室 Moonshot 的 Kimi-K2 模型,可能是相对表现最差的:为了达到最低的准确率,却消耗了最多的 token。作者认为,token 数量上的差异源于模型架构的独特属性:“这种差距并不是由任务难度驱动,也不是因为某些模型在尝试更难的问题。相反,同一个任务对某些模型来说就是更昂贵,这反映的是模型的行为倾向,而不是问题本身的属性。”

但问题并不在于模型好坏,因为即便是同一个模型,在不同的任务“运行”之间,为了解决同一个问题,也可能消耗两倍的 token。“最昂贵的运行所产生的 token 和货币成本是最便宜运行的两倍,”他们观察到,“这表明,即便面对完全相同的问题,agent 的 token 消耗也存在很大的方差。”这说明,更多 token 并不一定能带来更好的结果。“简单扩大 token 使用量,未必会带来更高的执行性能,”他们写道。

事实上,作者发现,一般来说,agentic 在某项任务上花的时间越长,工作表现反而可能越差。“准确率通常在中等成本时达到峰值,并在更高成本下趋于饱和,”他们观察到。“在更复杂的任务上,agent 行为会变得越来越不稳定。”

许多模型似乎会不停地搜索来解决问题,即便这种做法毫无成效。“模型缺乏一种可靠机制,来识别某项任务何时无解并提前停止,”Bai 及其团队写道。“相反,它们会继续探索、重试并反复阅读上下文,在没有进展的情况下不断累积成本。”

无法预测成本

这些因素使得“token 使用量预测和 agent 定价从根本上说是一项极具挑战性的任务,”Bai 及其团队写道。而且,他们发现,实际上,即便让 bot 进行“内省”,它自己也无法预测。

Bai 及其团队要求每个 AI agent 使用如下提示来预测自己的 token:“我已经把一个 python 代码仓库上传到了目录 example repo。

你是一个 TOKEN 估算代理。请估算修复以下问题描述的 token 成本:“,然后是问题描述,例如,修复代码中一个比较函数失败的 bug。Bai 及其团队发现,代理能够在一定程度上近似估算会用掉多少 token,但它们的预测往往偏低。“模型总是低估它们所需的 token,”Bai 及其团队写道。“这种偏差在输入 token 上尤其明显,即便真实数值增长到数百万,它们的预测仍然会被压缩在较低范围内。”

关注这些输入

报告中特别突出了关于输入 token 的这一点。Bai 及其团队发现,输入 token——例如人类用户输入的内容,以及通过数据库搜索等工具检索到的内容——在 token 成本中占据主导地位。其余两类 token,即由模型生成的输出 token,以及从前序阶段在内存中保留的缓存 token,则远没有那么耗费资源。

“令人震惊的是,输入 token,而不是输出 token,主导了 agentic coding 的总体成本。”其原因在于,“agentic 工作流会汇聚来自不同来源的信息,同一上下文会被反复喂给模型。”因此,与单轮提示或多轮提示的 bot 会话相比,agentic AI 的输入/输出比要“显著更高”。而进一步往下看,最昂贵的输入 token 因素,是代理从内存中检索先前信息的时候。“我们发现,cache read 在原始 token 数量和美元成本上都占据主导,”Bai 及其团队写道。“在每个阶段,cache-read 输入 token 都以压倒性优势成为最大类别(图 8a),这反映了先前上下文的累积复用。”

会有清算的一天

总体而言,研究结果证实了我对 Replit 和 Lovable 等编码代理的个人体验:底层 AI 模型一直在持续计费,而我对最终总成本毫无概念。能做些什么?作者并没有太多建议。一个提议是,即使代理无法预测 token 数量,它们也可以在高层面上做一些猜测,即对 token 成本做一个“粗粒度”估计。“这表明,代理驱动的估算有可能在启动昂贵运行之前支持早期预算警报,在不过度承诺精确 token 级准确性的情况下提高成本透明度,”他们写道。

我还能想到几条其他合理的指导原则。既然输入 token 是最大的成本项,就应该认真思考哪些方面可以在输入侧加以控制。提示词的长度是推动输入 token 增加的一个因素。代理所使用的上下文窗口,无论更宽还是更窄,都会影响输入端的 token 数量。代理调用的工具数量,例如数据库,也会让更多输入 token 参与进来。

另外:新手真的能靠 vibe coding 做出一个应用吗?我试了 Cursor 和 Replit 来找答案。不过,作为用户你能做的事情终究有限。还需要在整个行业层面采取更多措施。

所概述的问题显然属于一个年轻行业的问题,在这个行业里,供应商将不得不被用户推动去改变做法。对于一个代理完成一项任务可能花费多少这一点缺乏透明度,对于必须能够规划软件投资的企业来说,这种说法过于含糊。负担被推到了用户身上,他们不得不一遍又一遍地以实验性质运行代理任务,才能获得一个可用于规划估算的平均成本。

而且,即便代理已经耗尽了 tokens,仍然没有成功保证,这是最明显的问题。这意味着企业可能会仅仅因为运行 tokens 而浪费大量资金。用户整体上将不得不向 OpenAI、Google 和 Anthropic 等供应商施压,要求价格透明,并要求某种形式的保证,确保任务能够完成;否则,整个 agentic AI 的尝试很可能会被成本超支和失败的实施所主导。这类深层次问题可能已经被早期采用者遇到了。他们也许愿意支付如此高昂的成本,只为率先获得 agentic 优势。不过,这并不是一种能够带来稳定、持续使用 agentic AI 的局面。

来源与参考

  1. 原始链接
  2. What you'll pay for AI agents will be wildly variable and unpredictable

收录于 2026-05-06