Gemini 3.5 Flash 以更高推理成本换取更快速度

The Decoder·5月20日 18:40 UTC·作者 Matthias Bastian

关键信息

虽然 Gemini 3.5 Flash 的单 token 价格仍低于 Gemini 3.1 Pro，但在 agent 任务中消耗的 token 更多，导致在 Artificial Analysis 的测试里总成本反而比 Pro 高出 75%。它在 agentic 和多模态任务上的提升最明显，但编程能力仍明显落后于 GPT-5.5 和 Claude Opus 4.7。

资讯摘要

Google DeepMind 推出了 Gemini 3.5 Flash，作为其模型线中的新一代升级版本，重点强调速度提升和能力增强。根据报道，这个模型每秒可输出超过 280 个 token，因此被认为是同类智能水平中最快的模型。与此同时，它的运行成本也明显上升，约为 Gemini 3 Flash 的 5.5 倍。Google 还将 token 定价提高到每百万输入 token 1.50 美元、每百万输出 token 9.00 美元，而 Gemini 3 Flash 之前的价格分别是 0.50 美元和 3.00 美元。按单个 token 计算，Gemini 3.5 Flash 仍然比 Gemini 3.1 Pro 便宜，但在实际使用中，这种优势会被抹平，因为 agent 任务会消耗更多 token。

Artificial Analysis 的测试显示，尽管单价更低，但在 agent 基准上，Gemini 3.5 Flash 的总成本仍比 Gemini 3.1 Pro 高出 75%。它最明显的进步出现在 agentic 和多模态任务上，在 GDPval-AA 测试中接近 GPT-5.4 的水平，明显超过了之前的 Gemini Flash 版本。不过，它在编程方面仍然是短板，这限制了它在许多重要 agent 场景中的实际价值。报道认为，这一变化反映了 AI 正在走向更复杂的多步骤系统，模型需要自主规划、使用工具并经历更多交互轮次，因此买家越来越难准确判断投资回报。

资讯正文

谷歌的 Gemini 3.5 Flash 追随 Anthropic 和 OpenAI 的脚步，使更新一代的 AI 模型价格显著上升

要点

- Google Deepmind 发布了 Gemini 3.5 Flash，这是一款新的 AI 模型，每秒可输出超过 280 个 token，使其成为同类智能水平中速度最快的模型，但其运行成本却是前代产品的 5.5 倍。

- token 价格已翻三倍，而且由于 agent 任务会消耗显著更多的 token，基准测试中的总成本实际上已经超过了更昂贵的 Pro 模型，这引发了对成本效率的质疑。

- 尽管 Gemini 3.5 Flash 在 agentic 和多模态任务上的提升最为明显，但它在编程方面有一个明显弱项，在这方面明显落后于 GPT-5.5 和 Claude Opus 4.7 等竞争对手。

谷歌的新 Gemini 3.5 Flash 相比前代有了提升，但运行成本超过了前者的五倍。agent 任务上的高 token 消耗，使得在基准测试中其总成本甚至高于价格更高的 Pro 模型。

但在实际使用中，账面结果却反过来了。根据 Artificial Analysis 的数据，Gemini 3.5 Flash 在基于 agent 的任务中消耗的 token 远多于前代，导致其总成本最终比 Gemini 3.1 Pro 高出 75%。

对于开发者和公司来说，原始 token 价格作为单独指标正变得不那么有用。现在更重要的是效率，也就是一个模型实际完成一项任务需要多少 token。

更聪明了，但幻觉问题依然存在

在衡量知识准确性和幻觉倾向的 AA Omniscience 上，Gemini 3.5 Flash 提升了 11 分。其幻觉率降至 61%，比 Gemini 3 Flash 下降了 31 个百分点。这个提升听起来很可观，直到你看向领先者：MiMo-V2.5-Pro 和 Grok 4.3（high）的幻觉率都只有 25%。

agent 任务进步最大，也带来最高成本

agentic 任务历来是 Gemini 的弱项，而这正是 3.5 Flash 提升最大的地方。在测试真实 agent 任务、并提供 web 和 shell 访问权限的 GDPval-AA 上，它拿到了 1,656 的 Elo 分，较 Gemini 3 Flash（1,204）和 Gemini 3.1 Pro（1,314）大幅跃升，只是略低于 GPT-5.4（xhigh，1,674）。

输出 token 的使用量几乎没有变化：Gemini 3 Flash 为 7,300 万，而 Gemini 3.5 Flash 为 7,200 万。真正的罪魁祸首是输入 token，这使得尽管每个 token 的价格更低，Gemini 3.5 Flash 的总成本还是超过了 Gemini 3.1 Pro。

编程仍然是弱项

对于一款在整体智能指数上能与这些竞争对手持平的模型来说，这样的差距相当显著。它的优势明显在于 agentic 和多模态任务，但编程又是 agentic AI 最重要的应用场景之一，这限制了这些 agent 优势在实际中的价值。

同一智能水平中速度最快的模型

根据 Artificial Analysis，Gemini 3.5 Flash 每秒可输出超过 280 个 token，速度大约比 Gemini 3 Flash 快 70%。在智能水平相近的模型中，没有其他模型能接近这样的输出速率。

价格上涨反映出一个更深层次的转变：如今的 AI 模型是为复杂的、多步骤任务而构建的，它们会自主规划、使用工具，并经历多轮交互。这种 agentic 行为在每个任务上都需要比简单聊天机器人更多的算力。

成本上升和不明朗的投资回报率将迫使企业重新思考 AI 支出

除非底层硬件的推理成本下降速度能像每个任务所需算力的增长速度一样快，否则更强大模型的价格还会继续攀升。对于更简单的使用场景，成本更低的旧模型，或者像 Gemini 3.1 Flash-Lite 这样更小的选项，仍然会存在。

对于企业来说，AI 的投资回报越来越难以准确衡量。像代码生成或翻译这样的单项任务更容易评估——交付更快、人员成本更低——但即便如此，实际情况也比表面看起来更复杂。

真正棘手的是知识型工作。如何给一份更好的决策备忘录或一篇用 AI 在一半时间内完成的战略报告定价？而下游成本又该怎么算：为检查错误而花费的时间，或者当 AI 代劳时本来不会发生的学习机会损失？

这些生产率提升往往分散在各个部门，出现得较晚，而且很难与其他因素区分开来。为更昂贵的模型付费，是在押注效率提升最终会物有所值，也是在押注 AI 辅助工作将成为事情本来的做法。关于这个话题的深入分析，可参见我们的 AI Radar #2。

来源与参考

收录于 2026-05-21