谷歌 Gemini 3.5 Flash 让智能体 AI 更实用

Ars Technica AI··作者 Ryan Whitwam

关键信息

谷歌称,3.5 Flash 在基准测试中的表现接近 3.1 Pro 等更大的前沿模型,但速度成本大约只有后者的四分之一,而且在代码生成和工具使用方面提升尤为明显。在 Terminal Bench、SWE-Bench Pro 和 OSWorld-Verified 等测试中,它显著优于旧版 Flash 模型,并在部分对比中接近 GPT 5.5 的水平。

资讯摘要

谷歌正在把 Gemini 3.5 Flash 定位为其持续迭代中的一次重要升级。核心主张是,这款模型在具备前沿级智能的同时,还足够高效,能够让长时间运行的智能体 AI 任务在大规模场景下变得可行。谷歌 Gemini 产品高级产品管理总监 Tulsee Doshi 表示,这些改进同时来自预训练和后训练,而用户与开发者的反馈也在塑造模型能力。谷歌称,这些提升已经体现在代码生成和工具使用能力上,而且未来 Flash 和 Pro 系列还会继续沿着这一方向演进。该模型的输出速度接近每秒 300 个 token,但在基准测试中的表现却接近更大、运行更慢的模型。

谷歌还表示,Gemini 3.5 Flash 在 Terminal Bench、SWE-Bench Pro 等代码相关测试,以及 OSWorld-Verified 这类通用计算任务测试中表现突出。公司内部已经部署了这款模型,并称其在谷歌自身代码库中的编程表现有“巨大跃升”。除了内部使用,Gemini 3.5 Flash 还会进入 Gemini 应用、API、AI Studio、Android Studio 以及谷歌的企业产品,而 Pro 版本已经在内部测试中,预计下个月发布。谷歌还推出了 Gemini Spark,这是一款专门的智能体,能够全天候运行在谷歌云端,并使用 Gemini Flash 3.5 在用户的整个 Google 生态中执行工作流。文章将这视为行业从聊天机器人转向更自治的智能体系统的大趋势之一。

谷歌 Gemini 3.5 Flash 让智能体 AI 更实用

资讯正文

过去一年里,这一直是 Google 采用的“快慢交替”式模型更新趋势,但团队表示,这次发布尤为特别。Gemini 3.5 Flash 据称不仅具备前沿级智能,还足够高效,或许终于能让复杂的 agentic 任务在大规模场景下变得值得去做。Gemini 产品管理高级总监 Tulsee Doshi 解释说,Gemini 3.5 Flash 的创新已经贯穿到多个 Google 产品中,而这还只是开始。

众所周知,生成式 AI 目前就是个烧钱黑洞,所有主要 AI 玩家都在寻找更高效率的路径。当你开始构建需要运行更久、以完成复杂任务的 agentic 体验时,这个问题会被进一步放大。Gemini 3.5 Flash 可能是朝着让这一切可行迈出的重要一步。这个新模型的输出速度接近每秒 300 个 token,但其基准测试分数却与更大的前沿模型相近(比如 3.1 Pro),而这些模型生成输出的速度只有它的四分之一。

根据 Doshi 的说法,团队在 Gemini 3.5 Flash 的预训练阶段做了大量改进,但从开发者如何使用 Gemini 模型中获得的洞见才是真正带来成效的部分。

“在后训练方面,我们确实开始解锁我们从用户那里收到的一些反馈价值,例如来自 Antigravity 的反馈,”Doshi 说。“这正是你在代码性能和工具使用性能上看到的变化。接下来,我们希望你会继续看到这种跃升:3.5 Pro 会更好,而下一代 Flash 会在这一系列中达到 Pro 级表现。”

Google 将新模型的重点放在代码生成上,这也是 AI 的一个核心 agentic 方向。Terminal Bench 和 SWE-Bench Pro 两项测试都显示出显著提升——3.5 Flash 远超旧款 Flash 模型,并且相较 Gemini 3.1 Pro 还有小幅但可测量的改进。它的分数与 OpenAI 体量大得多、成本也更高的 GPT 5.5 处于同一水平。

agentic 工作流中的一个主要障碍,是生成式模型如何使用原本为人类设计的界面。Doshi 说,这并不是一个容易解决的问题。“某些事情,比如 UI 控制,做起来成本很高,因为模型必须搜索页面,必须知道该点哪里,还必须通过多个步骤执行操作。我认为 Flash 之所以能很好地做到这一点,是因为它兼具质量和成本方面的优势。”

Gemini 3.5 Flash 已经在 Google 内部部署,Doshi 指出它已经产生了很大影响。“我们有一组内部指标一直在评估,用来衡量 Googler 的编码方式,也就是看我们自己的代码库,以及模型在这些代码库上的表现,”Doshi 说。“你可以看到,3.1 Pro 到 3.5 Flash 之间出现了一个巨大的、巨大的跃升。”

除了 Antigravity 之外,Gemini 3.5 Flash 还将登陆 Gemini 应用、API、AI Studio、Android Studio,以及 Google 的所有企业产品。至于 Pro 版本,Google 表示它已经进入内部测试,应该会在下个月准备发布。

Gemini Spark 是 3.5 Flash 的智能体形式

各家公司正从“AI”这一主打流行词转向“智能体”。借助 Gemini Spark,Google 正在向用户提供其首个专用智能体。Spark 24/7 运行在 Google 的云端,因此不会占用你的任何计算资源,也不绑定到某一台特定设备或浏览器标签页。相反,它会覆盖你整个 Google 生态,使用 Gemini Flash 3.5 按照你的指令运行多个智能体工作流。

Google 并不总能把这些流行词解释得很清楚。那么,AI 智能体到底是什么?Google 的 Doshi 解释说:“我认为智能体就是把一个模型加上一个支架[软件接口],使得这种组合 वास्तवically 可以代表你采取行动。”

使用 Spark 时,你可以向 AI 下达指令,它会处理任务。这一过程可以持续一段时间,因为智能体会从你的 Drive 文件、Gmail 等内容中抓取上下文。你可以让它关注某些邮件,并将其整合进每日摘要;也可以让它监控你的会议,并生成摘要和行动项。Spark 还可以向你发送通知,或者提出后续问题,以更好地满足你的需求,而且 Google 强调,在采取“高风险行动”之前,它会请求你的批准。

图片来源:

Google 图片来源:

Google

Doshi 说,在过去几周的内部测试中,她一直是 Gemini Spark 的日常用户,把它用于个人和工作任务。她举了自己使用的两个 Spark 智能体例子。在 I/O 前夕,她用 Spark 汇总了关于 3.5 Flash 的评估和其他统计数据,为 Google 高层制作了一份幻灯片。“效果非常棒,”她说。“可能比我自己做得更好,而且用时少得多。”

在个人方面,她创建了一个智能体,用来跟踪她新生孩子的发展里程碑。这个智能体会对数据进行洞察分析,并建议值得跟踪的其他指标。“我把我的孩子当成一个 AI 模型来对待,”Doshi 开玩笑说。“我知道这样说有点夸张,但它确实非常有帮助。”

很多人可能会对把如此多的个人数据提供给运行在 Google 云端的 AI 模型嗤之以鼻,但如果这类东西真的变得足够有用,人们的观念或许会随之改变。今天人们与 Google 分享数据的很多方式,在 10 年或 15 年前本来是难以想象的。

Spark 将从下周开始向 AI Ultra 订阅用户推出。Google 新增了一个 Ultra 新档位,让你可以访问最新功能。它每月收费 100 美元,对 AI 工具来说这在大多数人看来仍然是个天价,但每月 200 美元的档位(比之前低 50 美元)仍然保留,供那些想要更高 token 限额的用户使用。Google 表示,未来还会把 Spark 推向所有用户(即便是不付费使用 Gemini 的用户)。

Gemini Omni:一个“全能”模型(最终会是)

Veo 3,Google 那个令人担忧地强大的视频模型,去年在 I/O 上首次亮相,但今年又有了新的视频生成器。Gemini Omni Flash 将在 Gemini 应用、YouTube 和 Flow 等产品中取代 Veo。Google 表示,Omni 的设计目标是真正实现多模态,因此它可以接受任何类型的输入数据,并生成你想要的任何内容——图像、文本、视频或音频。不过,它现在还做不到其中大部分。Google 目前先从视频开始,因此才会用它替换 Veo。

虽然它与新的 Gemini 3.5 模型相似,但 Omni Flash 并不明确属于那个分支。这在 Google 内部是独特的东西,可能代表着公司 AI 产品的新方向。Doshi 说:“Gemini 的愿景一直都是输入多模态、输出多模态。Omni 是朝着这个愿景迈出的一步。”

目前,你必须连接到那个能完成你所需任务的模型。对于图像,Google 会把你的提示词路由到 Nano Banana。如果你想要音乐,你的输入会送到 Lyria。开发者必须接入正确的 API,而且并不是所有模型都能在所有工具中使用。未来可能会出现一切都通过像 Omni 这样的统一模型来处理的日子,但现在仍然处于早期阶段,Gemini 团队也还不确定 Omni 会如何发展。

接下来的几个月将很关键,Google 会考虑把 Omni 模型开放给更多输出类型,看看它与 Google 其他模型相比表现如何。Doshi 说:“我们可能会发现,某些用例确实更适合它们自己的定制模型和特定聚焦。现在还没有完全证明,在接下来的几个月里我们就能把一切整合进一种体验中。”

Omni 的首个版本是 Flash 模型,这意味着它比前沿的 Pro 模型更小。Google 确实打算在某个时候推出 Omni Pro 模型,但目前没有时间表。如果 Omni 的多模态能力能够成熟,这些模型最终可能会成为未来 Gemini 版本的基础,从而简化 Google 的 AI 生态系统。

来源与参考

  1. 原始链接
  2. Gemini 3.5 Flash might be fast enough for gen AI to make sense

收录于 2026-05-20