Gemini 3.5 Flash 同时提升速度与成本

The Decoder··作者 Matthias Bastian

关键信息

Gemini 3.5 Flash 在 agentic 和多模态任务上表现最强,但编程能力被指落后于 GPT-5.5 和 Claude Opus 4.7 等竞争对手。在 Artificial Analysis 的测试中,agent 工作流消耗了大量输入 token,导致总成本即使在单价更低的情况下,仍比 Gemini 3.1 Pro 高出 75%。

资讯摘要

Google DeepMind 推出了 Gemini 3.5 Flash,并把它定位为一款极快的模型,输出速度超过每秒 280 个 token。报道将其描述为同一智能级别中最快的模型,但这种速度的代价是运行成本明显高于上一代 Flash 模型。Google 现在按每百万输入 token 1.50 美元、每百万输出 token 9.00 美元收费,而 Gemini 3 Flash 的价格分别是 0.50 美元和 3.00 美元。虽然按单个 token 计算,它仍然比 Gemini 3.1 Pro 更便宜,但一旦放到真实工作负载中,整体经济性就会发生变化。

文章指出,Gemini 3.5 Flash 的运行成本大约是前代的 5.5 倍。在 agent 风格任务中,它会消耗更多 token,因此总基准成本甚至超过了 Gemini 3.1 Pro;根据 Artificial Analysis 的数据,总成本比 Gemini 3.1 Pro 高出 75%。这说明仅看 token 单价已经不够了,真正重要的是模型完成一个任务到底要用多少 token。换句话说,模型是否“高效”,不能只看价格表。

Gemini 3.5 Flash 最明显的提升出现在 agentic 任务上。文章提到,在测试带有网页和 shell 访问能力的真实 agent 任务的 GDPval-AA 上,它的 Elo 分数达到 1,656,明显高于 Gemini 3 Flash 的 1,204 和 Gemini 3.1 Pro 的 1,314,只是略低于 GPT-5.4 (xhigh) 的 1,674。与此同时,输出 token 使用量几乎没有变化,73 million 对 72 million,说明成本上升主要来自输入 token 的增加。也就是说,这个模型为了完成同类任务,实际上“想得更多、做得更复杂”,但价格也更高。

在 AA Omniscience 上,它在知识准确性和幻觉倾向方面也有所改善,得分提高了 11 分,幻觉率下降了 31 个百分点,降至 61%。不过,这个数字仍然明显高于领先者 MiMo-V2.5-Pro 和 Grok 4.3 (high),它们的幻觉率都只有 25%。这意味着 Gemini 3.5 Flash 虽然更好了,但幻觉问题依然没有得到根本解决。对于依赖事实准确性的 agent 系统来说,这仍然是一个重要风险。

不过,编程能力仍然是它的明显短板。尽管 Gemini 3.5 Flash 在整体智能指标上能和一些竞争对手接近,并且在 agentic 和多模态任务上表现突出,但在 coding 方面明显落后,而 coding 又是 agentic AI 最重要的应用场景之一。文章因此认为,它在 agent 任务上的提升,未必能完全转化为开发者真正需要的价值。整体来看,这篇报道反映出一个更大的趋势:无论是 Anthropic 还是 OpenAI,还是现在的 Google,新一代模型都在变强,但也在变贵,企业开始不得不更认真地计算 AI 投资回报。

Gemini 3.5 Flash 同时提升速度与成本

资讯正文

谷歌的 Gemini 3.5 Flash 追随 Anthropic 和 OpenAI 的脚步,使更新一代的 AI 模型价格显著上升

要点

- Google Deepmind 发布了 Gemini 3.5 Flash,这是一款新的 AI 模型,每秒可输出超过 280 个 token,使其成为同类智能水平中速度最快的模型,但其运行成本却是前代产品的 5.5 倍。

- token 价格已翻三倍,而且由于 agent 任务会消耗显著更多的 token,基准测试中的总成本实际上已经超过了更昂贵的 Pro 模型,这引发了对成本效率的质疑。

- 尽管 Gemini 3.5 Flash 在 agentic 和多模态任务上的提升最为明显,但它在编程方面有一个明显弱项,在这方面明显落后于 GPT-5.5 和 Claude Opus 4.7 等竞争对手。

谷歌的新 Gemini 3.5 Flash 相比前代有了提升,但运行成本超过了前者的五倍。agent 任务上的高 token 消耗,使得在基准测试中其总成本甚至高于价格更高的 Pro 模型。

但在实际使用中,账面结果却反过来了。根据 Artificial Analysis 的数据,Gemini 3.5 Flash 在基于 agent 的任务中消耗的 token 远多于前代,导致其总成本最终比 Gemini 3.1 Pro 高出 75%。

对于开发者和公司来说,原始 token 价格作为单独指标正变得不那么有用。现在更重要的是效率,也就是一个模型实际完成一项任务需要多少 token。

更聪明了,但幻觉问题依然存在

在衡量知识准确性和幻觉倾向的 AA Omniscience 上,Gemini 3.5 Flash 提升了 11 分。其幻觉率降至 61%,比 Gemini 3 Flash 下降了 31 个百分点。这个提升听起来很可观,直到你看向领先者:MiMo-V2.5-Pro 和 Grok 4.3(high)的幻觉率都只有 25%。

agent 任务进步最大,也带来最高成本

agentic 任务历来是 Gemini 的弱项,而这正是 3.5 Flash 提升最大的地方。在测试真实 agent 任务、并提供 web 和 shell 访问权限的 GDPval-AA 上,它拿到了 1,656 的 Elo 分,较 Gemini 3 Flash(1,204)和 Gemini 3.1 Pro(1,314)大幅跃升,只是略低于 GPT-5.4(xhigh,1,674)。

输出 token 的使用量几乎没有变化:Gemini 3 Flash 为 7,300 万,而 Gemini 3.5 Flash 为 7,200 万。真正的罪魁祸首是输入 token,这使得尽管每个 token 的价格更低,Gemini 3.5 Flash 的总成本还是超过了 Gemini 3.1 Pro。

编程仍然是弱项

对于一款在整体智能指数上能与这些竞争对手持平的模型来说,这样的差距相当显著。它的优势明显在于 agentic 和多模态任务,但编程又是 agentic AI 最重要的应用场景之一,这限制了这些 agent 优势在实际中的价值。

同一智能水平中速度最快的模型

根据 Artificial Analysis,Gemini 3.5 Flash 每秒可输出超过 280 个 token,速度大约比 Gemini 3 Flash 快 70%。在智能水平相近的模型中,没有其他模型能接近这样的输出速率。

价格上涨反映出一个更深层次的转变:如今的 AI 模型是为复杂的、多步骤任务而构建的,它们会自主规划、使用工具,并经历多轮交互。这种 agentic 行为在每个任务上都需要比简单聊天机器人更多的算力。

成本上升和不明朗的投资回报率将迫使企业重新思考 AI 支出

除非底层硬件的推理成本下降速度能像每个任务所需算力的增长速度一样快,否则更强大模型的价格还会继续攀升。对于更简单的使用场景,成本更低的旧模型,或者像 Gemini 3.1 Flash-Lite 这样更小的选项,仍然会存在。

对于企业来说,AI 的投资回报越来越难以准确衡量。像代码生成或翻译这样的单项任务更容易评估——交付更快、人员成本更低——但即便如此,实际情况也比表面看起来更复杂。

真正棘手的是知识型工作。如何给一份更好的决策备忘录或一篇用 AI 在一半时间内完成的战略报告定价?而下游成本又该怎么算:为检查错误而花费的时间,或者当 AI 代劳时本来不会发生的学习机会损失?

这些生产率提升往往分散在各个部门,出现得较晚,而且很难与其他因素区分开来。为更昂贵的模型付费,是在押注效率提升最终会物有所值,也是在押注 AI 辅助工作将成为事情本来的做法。关于这个话题的深入分析,可参见我们的 AI Radar #2。

来源与参考

  1. 原始链接
  2. Google's Gemini 3.5 Flash follows Anthropic and OpenAI in making newer AI models significantly pricier