更便宜的 AI 模型可能重塑企业支出
TechCrunch AI··作者 Russell Brandom
关键信息
法律 AI 工具 Harvey 与 Fireworks AI 的一次测试据称在不降低质量的情况下把推理成本降低了 3 倍,方法是结合 Claude Opus 和 GLM 5.1,并只把 Opus 用在最复杂的任务上。文章还指出,真正的分界线不只是闭源与开源,而是大模型与小模型。
资讯摘要
文章指出,过去的 AI 热潮建立在一个基本假设之上:模型越大越强,而最强的模型最终会胜出。如今,随着成本不断上升,用户开始重新考虑更便宜的替代方案,但这种变化会扩散到什么程度仍不确定。文中引用 Coinbase 联合创始人 Brian Armstrong 的预测:未来 12 到 18 个月内,80% 的工作负载可能会迁移到便宜 99% 的模型上,而只有 20% 仍会运行在最新的前沿模型上。作者认为,如果这一判断成真,AI 行业的经济结构将发生明显变化,OpenAI 和 Anthropic 等大模型公司也可能因此面临收入压力。
文章还提到,早期测试显示,只要系统设计得当,便宜模型有时可以在不牺牲质量的情况下替代昂贵模型。一个例子是法律 AI 公司 Harvey 与 Fireworks AI 的合作测试:他们通过结合 Claude Opus 和 GLM 5.1,并把最强模型只留给最复杂的任务,将推理成本降低了 3 倍。Harvey 联合创始人 Gabe Pereyra 表示,质量仍然最重要,但“质量”的定义正在从“所有任务都用最强模型”转向“用最合适、最高效的模型得到正确答案”。文章最后强调,真正的未知数是企业是否真的会大规模切换到小模型,还是会通过减少调用次数、缩短上下文或放弃不划算的部署来节省成本。

资讯正文
AI 热潮建立在一个基本假设之上:模型越大,能力越强,而最强大的模型会胜出。如今,这一行业即将看看,如果这个假设开始失灵,会发生什么。
不断攀升的成本已经迫使用户重新审视更小、更便宜的模型。这种以成本为导向的模型选择方式是新的,目前还不清楚它会如何影响整个行业,但其影响很可能非常显著。
Coinbase 联合创始人 Brian Armstrong 提出的一个判断,是这将导致绝大多数任务转向更便宜的模型。
Armstrong 在 X 上写道:“[D]emand for intelligence is near infinite, but 80% of workloads will be running on 99% cheaper models within 12-18 months. 20% of workloads will still run on latest gen models where IQ maxing is important.”
如果 Armstrong 的预测成真,那么它对 AI 行业的意义之大,几乎怎么强调都不为过。
在此之前,大多数 AI 公司都是围绕质量竞争,这意味着默认采用最先进的可用模型。如果同样的工作可以由更便宜的模型完成,而且不影响质量,那就意味着 AI 经济学将发生巨大的转变。更关键的是,省下来的大部分成本将从大型实验室的口袋里被拿走,这会在 OpenAI 和 Anthropic 正准备冲刺 IPO 之际,给它们带来财务打击。
这可能是行业一次震动性的变化,其基础是一个简单问题:企业准备好转向更小的模型了吗?
初步测试表明,只要系统安排得当,更便宜的模型可以替代上场,而且不会牺牲质量。在法律 AI 工具 Harvey 最近的一项测试中,公司在不降低质量的情况下,将推理成本削减了 3 倍。该测试与推理平台 Fireworks AI 合作完成,将 Claude Opus 与 Fireworks 的 GLM 5.1 结合使用,并把最密集的任务转移给 Opus。结果是服务器时间和总体成本都显著下降。
Harvey 联合创始人 Gabe Pereyra 对 TechCrunch 表示:“质量第一,在法律领域它永远都会是第一位的。”他指的是这家初创公司提供的 AI 法律服务。“不过,‘质量’的定义正在演变:不再只是对所有事情都使用最强大的模型,而是使用最能高效给出正确答案的最佳模型。”
这一趋势常常被表述为大型实验室对阵中国模型或开源权重模型,但这其实忽略了更核心的问题。真正的分界线不是闭源与开源,而是大模型与小模型。你可以通过从 GPT-5.5 切换到 DeepSeek 的 V4 Flash 来省钱,但换成 GPT-5.4-mini 同样也能达到不错效果。
大型实验室自建推理与独立托管的开源权重模型之间,正在进行一场活跃的价格战。至于更大的问题——小模型和大模型谁更占优势——到底是哪一种小模型胜出,其实并不重要。
这一切看起来似乎显而易见——当然,你不应该使用超过必要的算力——但这与迄今为止主导整个行业的“先扩展规模”路线背道而驰。受“苦涩教训”启发,实验室一直全力投入训练尽可能消耗算力的模型,推动 AI 模型能力的边界。由于价格在投资者的大量补贴下被严重压低,客户没有理由选择除最先进方案之外的任何东西。
随着 token 价格上涨、补贴放缓,用户第一次感受到了成本压力。我们还不知道,这种新的成本压力是否真的会推动企业用户转向更小的模型。他们完全也可能通过减少调用次数、使用更少上下文,或者干脆放弃那些最不具前景的部署来节省开支。
但如果事实证明,大多数部署用更小的模型也能同样出色地运行,这可能会给日益增长的推理需求带来严重冲击,并引发新的问题:该如何证明训练一个前沿模型的成本是合理的。
来源与参考
收录于 2026-06-10