更便宜的 AI 模型可能重塑企业支出

TechCrunch AI·6月10日 02:56 UTC·作者 Russell Brandom

关键信息

法律 AI 工具 Harvey 与 Fireworks AI 的一次测试据称在不降低质量的情况下把推理成本降低了 3 倍，方法是结合 Claude Opus 和 GLM 5.1，并只把 Opus 用在最复杂的任务上。文章还指出，真正的分界线不只是闭源与开源，而是大模型与小模型。

资讯摘要

文章指出，过去的 AI 热潮建立在一个基本假设之上：模型越大越强，而最强的模型最终会胜出。如今，随着成本不断上升，用户开始重新考虑更便宜的替代方案，但这种变化会扩散到什么程度仍不确定。文中引用 Coinbase 联合创始人 Brian Armstrong 的预测：未来 12 到 18 个月内，80% 的工作负载可能会迁移到便宜 99% 的模型上，而只有 20% 仍会运行在最新的前沿模型上。作者认为，如果这一判断成真，AI 行业的经济结构将发生明显变化，OpenAI 和 Anthropic 等大模型公司也可能因此面临收入压力。

文章还提到，早期测试显示，只要系统设计得当，便宜模型有时可以在不牺牲质量的情况下替代昂贵模型。一个例子是法律 AI 公司 Harvey 与 Fireworks AI 的合作测试：他们通过结合 Claude Opus 和 GLM 5.1，并把最强模型只留给最复杂的任务，将推理成本降低了 3 倍。Harvey 联合创始人 Gabe Pereyra 表示，质量仍然最重要，但“质量”的定义正在从“所有任务都用最强模型”转向“用最合适、最高效的模型得到正确答案”。文章最后强调，真正的未知数是企业是否真的会大规模切换到小模型，还是会通过减少调用次数、缩短上下文或放弃不划算的部署来节省成本。

资讯正文

AI 热潮建立在一个基本假设之上：模型越大，能力越强，而最强大的模型会胜出。如今，这一行业即将看看，如果这个假设开始失灵，会发生什么。

不断攀升的成本已经迫使用户重新审视更小、更便宜的模型。这种以成本为导向的模型选择方式是新的，目前还不清楚它会如何影响整个行业，但其影响很可能非常显著。

Coinbase 联合创始人 Brian Armstrong 提出的一个判断，是这将导致绝大多数任务转向更便宜的模型。

Armstrong 在 X 上写道：“[D]emand for intelligence is near infinite, but 80% of workloads will be running on 99% cheaper models within 12-18 months. 20% of workloads will still run on latest gen models where IQ maxing is important.”

如果 Armstrong 的预测成真，那么它对 AI 行业的意义之大，几乎怎么强调都不为过。

在此之前，大多数 AI 公司都是围绕质量竞争，这意味着默认采用最先进的可用模型。如果同样的工作可以由更便宜的模型完成，而且不影响质量，那就意味着 AI 经济学将发生巨大的转变。更关键的是，省下来的大部分成本将从大型实验室的口袋里被拿走，这会在 OpenAI 和 Anthropic 正准备冲刺 IPO 之际，给它们带来财务打击。

这可能是行业一次震动性的变化，其基础是一个简单问题：企业准备好转向更小的模型了吗？

初步测试表明，只要系统安排得当，更便宜的模型可以替代上场，而且不会牺牲质量。在法律 AI 工具 Harvey 最近的一项测试中，公司在不降低质量的情况下，将推理成本削减了 3 倍。该测试与推理平台 Fireworks AI 合作完成，将 Claude Opus 与 Fireworks 的 GLM 5.1 结合使用，并把最密集的任务转移给 Opus。结果是服务器时间和总体成本都显著下降。

Harvey 联合创始人 Gabe Pereyra 对 TechCrunch 表示：“质量第一，在法律领域它永远都会是第一位的。”他指的是这家初创公司提供的 AI 法律服务。“不过，‘质量’的定义正在演变：不再只是对所有事情都使用最强大的模型，而是使用最能高效给出正确答案的最佳模型。”

这一趋势常常被表述为大型实验室对阵中国模型或开源权重模型，但这其实忽略了更核心的问题。真正的分界线不是闭源与开源，而是大模型与小模型。你可以通过从 GPT-5.5 切换到 DeepSeek 的 V4 Flash 来省钱，但换成 GPT-5.4-mini 同样也能达到不错效果。

大型实验室自建推理与独立托管的开源权重模型之间，正在进行一场活跃的价格战。至于更大的问题——小模型和大模型谁更占优势——到底是哪一种小模型胜出，其实并不重要。

这一切看起来似乎显而易见——当然，你不应该使用超过必要的算力——但这与迄今为止主导整个行业的“先扩展规模”路线背道而驰。受“苦涩教训”启发，实验室一直全力投入训练尽可能消耗算力的模型，推动 AI 模型能力的边界。由于价格在投资者的大量补贴下被严重压低，客户没有理由选择除最先进方案之外的任何东西。

随着 token 价格上涨、补贴放缓，用户第一次感受到了成本压力。我们还不知道，这种新的成本压力是否真的会推动企业用户转向更小的模型。他们完全也可能通过减少调用次数、使用更少上下文，或者干脆放弃那些最不具前景的部署来节省开支。

但如果事实证明，大多数部署用更小的模型也能同样出色地运行，这可能会给日益增长的推理需求带来严重冲击，并引发新的问题：该如何证明训练一个前沿模型的成本是合理的。

来源与参考

收录于 2026-06-10