代理式AI把Token变成商业指标

The Decoder··作者 Maximilian Schreiner

关键信息

文章提到,GitHub Copilot 将从 2026 年 6 月 1 日开始逐步转向基于用量的 GitHub AI Credits 体系,适用于聊天、CLI 和代理功能,而付费套餐中的标准补全仍不受新规则影响。文章还指出,Anthropic 正在把普通使用和 Claude Code、Claude Cowork、Managed Agents 等代理产品区分开来,并提到峰值负载和上下文长度可达 100 万个 Token。

资讯摘要

这篇文章讨论了代理式 AI 如何改变生成式 AI 的经济模式。过去,AI 聊天产品很像传统软件:用户按月付费、打开聊天框、提问并获得回答。这个模式之所以成立,是因为大多数人只是间歇性使用,而重度用户在使用 API 时仍能依赖固定费率。代理式系统打破了这一假设,因为它们可以长时间自主工作,读取文件、调用工具、编写代码、检查结果,并在失败后反复重试,直到任务完成。

这样一来,Token 消耗会大幅上升,对已经投入巨额基础设施成本的供应商来说,费用压力也会显著增加。文章认为,这正在推动厂商从固定月费转向更贴近真实使用量的定价方式。文中以 GitHub Copilot 计划在 2026 年改用 GitHub AI Credits,以及 Anthropic 将 Claude Code、Managed Agents 等产品单独区分定价为例,说明这种变化已经开始发生。文章的核心观点是,Token 价格正在按速度、专门化程度和经济价值进一步分层,但 Token 数量本身仍然不能准确衡量用户真正获得的价值。

代理式AI把Token变成商业指标

资讯正文

Frontier Radar #3:代理式 AI 如何将 token 变成商业指标

月度订阅、打开聊天、提个问题——直到现在,生成式 AI 一直是这么运作的。代理式工作流打破了这一模式。它们会消耗远多得多的 token,自主运行数小时,并使固定费率对提供商而言变得不可持续。与此同时,token 的价格也在沿着速度、专业化和经济价值这些维度分化。但尽管成本变得更精细,收益往往仍然模糊。结果就是:token 使用量逐渐变成了价值创造的替代指标,尽管它衡量的只是活动,而不是结果。

每年六次,THE DECODER 的编辑团队都会在其“Frontier Radar”栏目中深入审视一个基础性的 AI 主题;该内容既会作为新闻简报发布,也会在 THE DECODER 订阅者专享的网站页面上独家呈现。第 3 期聚焦生成式 AI 正在形成的 token 经济。第 1 期回顾了代理式 AI 的当前状态。第 2 期则考察了 AI 对生产率可衡量影响。

长期以来,生成式 AI 给人的感觉就像传统软件。注册月度套餐,打开聊天窗口,提个问题,然后得到答案。重度用户始终可以通过 API 看出单次请求的实际成本。因此,很多人选择了固定费率;在高强度使用下,这种方式要便宜得多。但对大多数用户来说,成本始终是隐形的。

固定费率之所以总体上可行,是因为人类使用有天然限制。人会打字、阅读答案、休息、开会,然后下班。智能体不知道这些限制。它会读取文件、调用工具、编写代码、检查中间结果、修复错误,然后再试一次。如果用户愿意,它就会一直运行,直到任务完成。

提供商一侧也承受着压力:大型 AI 公司已经将数千亿美元投入数据中心、芯片和模型训练。这些投资必须获得回报,而且必须在一个固定费率根本无法支撑的规模上实现。

本期 Frontier Radar 就沿着这些线索描绘正在形成的 token 经济。计费是如何从订阅制转向按使用量计费的?token 本身又是如何变成一种分层产品的?为什么 token 使用量仍然是衡量 AI 价值的糟糕指标?

为什么提供商正在放弃固定费率

最明显的变化,是为了应对不断增长的使用量而对定价模型进行全面调整。自 2026 年 6 月 1 日起,GitHub Copilot 将逐步转向基于使用量的模型,并引入“GitHub AI Credits”。这些 credits 直接关联实际 token 使用量以及各个模型的 API 价格。凡是 Copilot 不只是建议代码的场景,都会启用这套机制,主要包括聊天、CLI 和 agent 功能。标准补全在付费套餐中仍不受这些规则影响。

GitHub 的理由精准点出了问题:过去,一个简短的聊天问题会被大致视为与一段自主运行数小时的编码会话差不多。但这种情况不可能长期持续。

Anthropic 也在更明确地区分普通使用与代理式工作流。Claude Code、Claude Cowork 和 Managed Agents 把 Claude 变成了数字员工。Anthropic 将 Claude Code 的瓶颈归因于峰值负载,以及最高可达一百万 token 的上下文窗口。旧的套餐适合高强度聊天使用,但并不总能适用于全天候运行的 agent 工作流。

使用差异在各个领域有多么显著,Anthropic 对其公开 API 的分析已经体现出来:几乎一半的 agentic 工具调用都流向了软件开发领域,而这一领域最早受益于 agentic 模型以及 Claude Code 之类的脚手架工具。

客户服务、销售、金融和电子商务各自只占几个百分点。那里的主流仍然是简单的聊天请求。随着 agentic 工作流在办公、研究、金融和法律工具中逐渐成熟,这种分布很可能会进一步扩大。随之而来的是,token 账单会进入那些如今尚未真正感受到成本压力的领域。

为什么仅看 token 价格是有误导性的

这一发展改变了成本问题:只要 AI 主要被用作聊天工具,每个 token 的价格就可能只是一个技术性注脚。但在 agentic 工作流中,它会成为一项商业指标。

新的 token 经济中最明显的错误,就是只做一个简单的价格对比。GPT-5.5 每百万输出 token 收费 30 美元,DeepSeek V4 Pro 则是 87 美分。这对实际使用中的真实成本说明不了太多。除了每个 token 的价格,关键还在于完成一项任务要消耗多少 token。就像汽车一样,光看汽油价格并不能告诉你从柏林开到慕尼黑要花多少钱。你还得知道路程和油耗。

如果一个便宜模型需要更多次尝试、失败更多,或者需要更多清理工作,它最终可能变得很贵。相反,当一个更昂贵的模型能用更少的循环到达目标、并且需要更少人工监督时,它就会物有所值。

基准测试和其他分析清楚地说明了这一点。例如,GPT-5.5 原本被认为会通过更短的回答来抵消一部分更高的标价。OpenRouter 对真实世界使用情况的分析仍显示,相比其前代产品,成本增加了 49% 到 92%,具体取决于输入长度。

当然,两者都可能上升:token 价格和消耗的 token 数量都会增加,Google 的 Gemini 3.5 Flash 就是如此。这里,token 价格相较前代 Gemini 3 Flash 上涨了三倍。在 Artificial Analysis 的评估中,这个模型在 Intelligence Index 测试中也需要更多步骤。结果是在那项测试里,它最终比 Google 当前的旗舰模型 Gemini 3.1 Pro 还要昂贵。

与之形成对冲的是 DeepSeek 这类提供商带来的价格压力。超低价格背后也有其自身的赌注:如果你每个 token 只付出极小一部分费用,你就可以把同样的任务跑四到五遍,最后仍然更便宜。只要最终结果经得起检验,这就很有吸引力。但如果结果不行,返工很快就会吞噬掉价格优势。

token 市场如何按性能等级分化

市场分化得越厉害,谈论“the” token price 就越没有意义。每百万 token 的价格依然重要,但它只能在明确的性能等级内部说明问题。编码代理中的快速 token、面向大众应用的廉价 token,以及用于安全分析的专用 token,虽然可能以相似的技术方式计费,但它们是不同的经济产品。

不同的模型层级和订阅等级已经存在了一段时间。新变化在于,如今这种差异化已经扩展到更多维度:延迟、处理模式、上下文长度、Agent 运行时、专业化程度,以及越来越重要的输出经济价值。提供商不再只是按 token 形式出售算力时间了。他们出售的是不同的推理服务。某种服务越稀缺、越快或越有价值,它的价格就越可能偏离原始算力成本。

Nvidia 首席执行官 Jensen Huang 在最近两次采访中把这一点讲得很明白。在 Dwarkesh Patel 的节目中,他解释了为什么 Nvidia 最近获得了初创公司 Groq 的推理架构许可,并将其纳入自己的 CUDA 生态系统。原因是经济性的:token 的价值已经上升到如此程度,以至于针对不同类型 token 设定不同价格现在变得合理。

“回到过去,也就是仅仅几年前,Token 要么是免费的,要么几乎不值钱。但现在你可以有不同的客户,而这些客户想要不同的答案。因为这些客户赚的钱太多了——比如我们的软件工程师——如果我能给他们提供响应更快的 Token,让他们比今天更高效,我愿意为此付费。”

Jensen Huang,Nvidia

Huang 在描述这种细分的技术侧面。更高端、延迟更低的推理之所以有价值,是因为位于市场顶端的 token 可以卖出高得多的价格。Nvidia 谈论的是扩展帕累托前沿:根据客户群体的不同,价格和速度存在多个最优点。

当价值来自可能的结果时,就会出现更多可细分的空间。据 The Information 报道,Palo Alto Networks 测试了 Anthropic 的安全模型 Mythos,用于扫描其自有源代码中的漏洞。据称,该模型在大约三周内发现了二十多个关键漏洞,大约是现有方法的五倍。

与此同时,这项测试很快就累积了数百万美元的 token 成本。如果这些发现的安全漏洞一旦被利用会造成数倍于此的损失,那么这些成本仍然可以是合理的。像这样的运行中的 token,在经济意义上已经和聊天回复中的 token 是不同的产品,即便两者都是按 token 用量计费。

这种细分的另一种形式,体现在 token 能够打开对专有数据和专业模型的访问。英国生物技术公司 Basecamp Research 希望通过其“Trillion Gene Atlas”项目,将其生物 AI 数据集从 100 亿扩展到 1 万亿个基因和其他数据点,用于训练药物开发模型。该数据集是专有的。

如果这类模型能够产出稳健的中间成果,比如候选药物或在生物学上可行的假设,那么一次 token 运行就不再能与聊天或编程回复相提并论。此时重要的不是 token 运行在技术上花了多少钱,而是它开启了什么独家访问权限:专有数据、专业模型,以及具有高经济价值的潜在中间产物。

Huang 在与 Lex Fridman 的对话中这样说:过去,计算机是数据仓库;今天,它们是 token 工厂。而像每一家工厂一样,这家工厂会同时生产多种产品。

这些 Tokens 开始分层了,就像 iPhone 一样。你有免费的 Tokens,你有高端 Tokens,还有夹在中间的几种 Tokens。[…] 认为有人愿意每 100 万 Tokens 支付 1,000 美元的想法已经近在眼前。这不是会不会发生的问题,而只是何时发生的问题。

Jensen Huang

在 Huang 的解读中,一个层次分明的市场正在形成:Tokens 越来越与不同的价值主张绑定在一起。

生产力差距与 tokenmaxxing 的诱惑

Agentic AI 的计费方式基于使用量,而 token 价格正在按性能等级分化。AI 使用的成本面变得更加精确、更高,也更显眼。这使问题变得更尖锐:AI 是否节省了时间?它是否让人们更高效?这笔支出是否值得?

但这笔账并不对称。成本可以被越来越精确地衡量,而收益往往仍然模糊不清:更好的决策、更快的研究、更少的重复性工作,或者更早发现错误。

我们已经在 Frontier Radar #2: Why AI productivity gets lost between benchmarks and the balance sheet 中描述过这种差距——局部的生产力提升,与衡量其影响的困难之间的鸿沟。

Uber 展示了即便在单一公司内部,这种归因也有多难。根据 Fortune 的报道,该公司在短短四个月内就用光了原本计划用于 2026 年 AI 编程工具的预算。Uber 首席运营官 Andrew Macdonald 质疑,Claude Code 使用量上升,是否能清楚地转化为更有用的消费端功能。Token 成本可以精确到美分。但它们是否真的变成了用户真正需要的产品,并且在利润表上带来正面体现,仍然是个未知数。

再往上一层,在国民核算中,这个问题就变得更加根本。SemiAnalysis 将其称为“Dark Output”:AI 可能正在完成具有经济价值的工作,但这些工作几乎不会出现在传统统计中。尤其是在原本按咨询工时、法律服务或外部合同付费的任务,转入内部 AI 工作流时,这一点会格外明显。Token 成本或云成本仍然可测,但所完成工作的价值不再以一笔独立交易的形式出现在 GDP 中。

SemiAnalysis 的论点是:与螺丝或汽车不同,服务业没有可计数的数量单位。统计机构通常根据收入和标价来推导服务的“产量”规模。如果因为同样的工作在内部借助 AI 完成,律所或代理机构开出的发票消失了,统计数据读出来的就是产出下降,而不是生产率提升。

这种双重测量缺口催生了管理层中一种务实的临时替代方案。由于缺乏清晰的影响衡量,Token 使用量本身就变成了驾驶指标。更多的 Tokens、更多的 agent 运行,以及更高的工具采用率,都会被解读为更大价值创造的信号,尽管没有人能清楚证明这种联系。一种描述这种反射的说法已经出现:tokenmaxxing。

Tokenmaxxing 假定更多的 AI 使用会自动带来更多收益。这种思路之所以有吸引力,是因为它很简单:如果 AI 通常能提高生产力,那么更多的 AI 通常就更好。而“更多 AI”的唯一可靠衡量指标就是 token 用量。但这衡量的是活动量,不是结果。一个花两个小时把任务做错的代理,消耗的 tokens 会比一个在五分钟内正确完成任务的代理更多。按 tokenmaxxing 的逻辑,前者看起来会更有生产力。

Agentic AI 让这个问题以两种方式变得更糟。首先,消耗会大幅上升。其次,立即的人类质量检查会消失。在聊天场景中,用户会立刻看到答案,并在同一秒判断其好坏。一个代理则会自主运行几分钟或几小时,最后交付一个结果,而这个结果必须被检查、修正,或者直接弃用。在此之前,token 用量是关于这次运行的唯一信号。

这正是 tokenmaxxing 在 agentic 系统中如此诱人的原因:一旦使用量本身变成目标,激励就会变成尽可能烧掉 tokens。Meta 和 Amazon 这样的科技巨头已经痛苦地学到了这一点。

为什么 agentic AI 需要清晰的任务框定

如果单靠 token 用量并不是可靠的控制指标,那么控制就必须更早开始:在输出生成之前,从任务本身就开始。这才是真正不同于以往做法的地方。在聊天场景里,糟糕的提示词代价很低。用户看到无用的答案,重写一遍,然后就结束了。相比之下,agent 被寄望于承担更长、更复杂的任务。在这里,一次失败要昂贵得多。如果一次运行在两个小时后中途失败却没有结果,tokens 仍然已经消耗掉了。

因此,agentic AI 需要的不只是好的提示词和上下文工程。它需要清晰的任务框定:要解决什么问题?允许使用哪些数据和工具?什么时候需要人工复核?什么时候应当让 agent 中止?这次尝试最多能花多少钱?

每家公司都从与自由职业者或代理机构合作中了解这种逻辑。编辑不会对自由撰稿人说“随便写,不管花多久”。他们会给出主题、篇幅、用途、截止日期和报酬。

举个例子:“用标准模型审查这个 pull request。如果你发现与安全相关的改动,只把相关文件和代码块升级交给更昂贵的审查模型。在每次调用前,如果输入上下文超过 200,000 tokens 就中止。跟踪累计输入和输出 tokens,如果审查超过 token 预算就停止。”

像这样设定限制很困难,因为一个任务的消耗很难提前估算。实际操作中,这些数值必须按具体用例通过经验逐步建立。初始运行会显示典型的 token 数量,预算据此推导出来,而异常情况则触发警报。质量、成本和责任必须一起规划。

上面的例子也包含了 token 分层的实际答案。对常规工作使用便宜的标准模型,只在必要时升级到昂贵的专用模型,这会把不同 token 类别这一抽象概念,转化为一条具体的控制规则。

根据 The Information 的说法,早期的 Mythos 测试者已经报告了这种路由方式。昂贵的模型负责规划、评估或关键分析,而更便宜的模型则执行其中的一部分。提供方看起来像是产品差异化的东西,在用户侧则变成了一种路由架构。

Token 经济并不是一个 IT 话题

这也是为什么 token 经济也不是一个纯粹的 IT 话题。IT 关注的是技术层面发生了什么:搭建仪表盘、设定限制、比较供应商。但它通常无法判断一份财务报告或一份普通报告在实质上是否足够好。这需要领域专业知识。

因此,token 经济学很可能会成为一种渗透到许多角色中的技能。开发者会调度编码代理,并在成本与测试深度之间权衡。律师会决定哪些合同审查可以自动执行,以及在哪些地方必须由人工复核来把握平衡。

市场团队会为代理运行做预算,用于活动分析,并判断生成结果是否值得再来一次迭代。金融分析师会设定复杂度阈值:当一份报告从更便宜的标准模型升级到更强大的模型时,何时触发升级。

与此同时,第二层调控机制正在形成,它已经超越了单个岗位。采购和财务部门在一个正在重建定价逻辑的市场中,围绕 credits、配额和供应商条款进行谈判。来自云业务的 FinOps 结构可以部分沿用,但单靠它们还不够。因为和 IT 一样,FinOps 也无法判断一次昂贵的运行是否交付了正确的结果。

在运营中,token 使用量到底告诉你什么

一旦任务框定和路由架构就位,剩下的问题就是:在运营过程中,你如何判断一个工作流是否真的在正常运转?

只有把使用量和结果结合起来看,token 经济才真正具备可调控性。此时,token 使用量不是目标,而是一个诊断信号。它能显示哪里出了问题,但不能说明问题是什么。实际上,可以区分出四种症状模式。

高使用量,结果可用。这是最平平无奇的一种情况,因此也最容易被忽视。任务完成了,但成本比必要的高。原因通常出在路由上:一个较小模型本可以处理的任务却调用了前沿模型;每一步都带着臃肿的上下文;或者缺少缓存。

高使用量,结果糟糕。这是 agentic 时代最大的风险。钱烧掉了,最后却没有任何可用成果。原因很少只在某一个点上;通常是任务框定不清、模型类别选错、以及缺少中止规则三者叠加。这个任务本来就能由代理解决吗?所选模型真的能胜任吗?代理是否知道“完成”到底是什么意思?

低使用量,高返工。token 很便宜,因为模型响应快、思考少。但每一项输出都必须由人工大幅返工。成本只是从 token 账单转移到了工资支出上。在这种情况下,更昂贵的模型最后反而可能更便宜。这个模式尤其具有迷惑性,因为 token 账单看起来像是一种成功。

没有可归因价值的使用。Token 成本会体现在资产负债表上,但没有人能说清到底是哪一个流程贡献了什么。过去以不同方式完成、在外部完成,或者根本没有完成的工作,如今被转移到内部 token 成本中,并在那里从价值归因中消失。这和 Dark Output 的机制一样,只不过是发生在流程层面,而不是宏观层面。唯一的补救办法,是把成本和收益清楚地绑定到具体流程和负责人上。

Token 经济可能走向何方

未来几年 token 经济处于什么位置,不仅取决于模型和价格,也取决于企业多快学会驾驭 AI 工作:如何界定任务、如何有意识地分配模型,以及如何评估结果。两股驱动力在这里交汇:agentic 使用和 token 细分遇上了治理问题。接下来有三种情景。

基线情景

大型供应商全面推出“基础订阅 + 按使用量计费 credits”的混合模式。先从软件开发开始,再扩展到研究、销售和法律等其他职能。企业逐步为 AI 建立 FinOps 结构,按工作流设定预算,并尝试模型路由。像网络安全、生命科学以及部分研究应用这类边界清晰的领域会出现高端细分市场,但不会带动整个大市场转向。关于真实生产力贡献的争论仍然模糊,因为生产率提升仍然只会部分体现在资产负债表上。Token 经济作为一种管理技能,会在业务岗位中扎根,但不会发展成一门独立学科。

加速情景

如果 agent 模型和工具集成比预期更快改进,自治工作流会迅速从软件开发扩展出去:进入网络安全、生命科学、金融和咨询领域。推动因素包括每次运行更高的成功率、更成熟的路由架构,以及超大规模云厂商(hyperscalers)为其资本支出再融资所承受的压力。Token 市场的细分会加速。Jensen Huang 预测的 token 价格上升到每百万 1,000 美元的市场,将在经验层面接受检验。那些掌握了任务设定、路由和诊断的公司,会比纪律性较差的竞争对手明显领先。按模型类别差异化定价,最终会演变为按结果定价。“按 pull request 付费”、“按漏洞付费”,甚至之后可能变成“按已验证的药物候选物付费”。

放缓情景

如果像 Uber 这样的案例不断累积——AI 预算大幅膨胀却没有明确收益——CFO 们就会设定更严格的限制,并推迟部署。阻碍因素包括不可靠的 agent、高昂的返工成本、监管要求,以及在资产负债表上证明生产率提升始终困难。供应商会面临压力,要么保证结果质量,要么降价。像 DeepSeek 这样的低成本供应商会赢得市场份额,但 agentic 设想不会大范围落地。Token 细分会停留在范围狭窄的试点工作流中。高端 token 会存在,但找不到大众市场。

我们的看法

基线情景是最有可能出现的。向按使用量计费模式的转变,在大型提供商那里已经是既定事实,或正在推进之中。在当前的成本结构下,广泛回到纯固定费率似乎不太可能。与此同时,Uber 这样的案例,以及 GPT-5.5 或 Gemini 3.5 Flash 的成本跃升表明,企业仍然必须建立自己所需的调度与掌控能力。这意味着不应指望快速加速。

真正的放缓也不太可能。对提供商的投资压力,以及软件开发领域关于收益的早期证据,都太强了,足以排除这种情况。更有可能出现的是一种转型:AI 的使用会变得更昂贵、更可见,也会被更主动地管理。

在智能体时代,token 会变成一种商业指标,类似于一家卡车公司的燃油消耗。要实现经济运行,你必须知道每次行程消耗多少升燃料、哪次行程需要哪种燃料,以及哪次行程是否真的值得跑。那些能够掌握这种经济模式的公司,才是能回答这样一个问题的公司:我们用哪些 tokens 购买了哪些工作,以及我们如何知道这笔投入是值得的?

来源与参考

  1. 原始链接
  2. Frontier Radar #3: How agentic AI is turning tokens into a business metric

收录于 2026-06-09