Google 发布 Gemini 3.5 Flash、Omni 和常驻 Spark
The Decoder··作者 Maximilian Schreiner
关键信息
Google 表示,Gemini 3.5 Flash 在几乎所有基准测试上都优于较早的 Gemini 3.1 Pro,并且在 Antigravity 的优化部署中速度更快。Gemini Omni 先从视频开始,之后会支持图像和文本,生成结果还能作为下一轮输入进行迭代编辑;所有生成内容都带有 SynthID 水印。
资讯摘要
Google 在 I/O 开发者大会上发布了一系列新的 AI 产品和平台更新。最受关注的是 Gemini 3.5 Flash,Sundar Pichai 表示,它在几乎所有基准测试上都超过了大约四个月前发布的 Gemini 3.1 Pro,其中包括面向经济任务的 GDP Val 基准。Google 还声称,根据 Artificial Analysis 的分析,这款模型在智能与速度的表现上处于前沿模型中的领先位置,速度大约是其他前沿模型的四倍;而在自家的 Antigravity 智能体平台上运行的优化版本,速度甚至可以快十二倍。Google 还表示,这一系列模型的成本大约只有同类模型的三分之一到一半。Pichai 进一步称,如果企业把 80% 的工作负载迁移到 Gemini 3.5 Flash 和 Pro 的组合上,每年可节省超过 10 亿美元,而 Gemini 3.5 Pro 预计将在下个月推出。
首席 AI 架构师 Koray Kavukcuoglu 强调,3.5 系列是为智能体式工作而设计的,支持持续数小时的自主会话,以及复杂的编程流水线。Google 甚至称,他们内部测试时让模型从零构建出一个可运行的操作系统。公司还推出了 Gemini Omni,并将其描述为 Veo 的多模态继任者。Omni 建立在 Gemini 架构之上,从底层就是按照多模态输入和输出进行训练,而不是像纯文本转视频系统那样工作。
Omni 的首个版本先从视频开始,图像和文本支持会在后续加入。Google 表示,系统可以把自己生成的结果再次作为输入,从而实现迭代式编辑,例如上传视频、替换角色或改变风格。对于 Omni 是否取代 Veo 的问题,Kavukcuoglu 回应说,Omni 是 Veo 的泛化版本,也是 Google 走向真正多模态的重要一步。首个更快的版本 Omni Flash 将于周二向 Google AI+、Pro 和 Ultra 订阅用户开放,使用场景包括 Gemini 应用、Flow 和 YouTube Shorts;同时,API 版本和更强大的 Omni Pro 也在计划中。Google 表示,所有生成内容都会带有不可见的 SynthID 水印。
Google 还发布了 Gemini Spark,这是一款面向终端用户的个人智能体,运行在 Google Cloud 中的专用虚拟机上。负责 Gemini 应用和 AI Studio 的 Josh Woodward 表示,Spark 可 24/7 保持在线,即使用户设备关机也会在后台继续工作,同时在编码任务中使用 Gemini 3.5 和完整的 Antigravity 流水线。该功能上线时就会与 Gmail、Docs 和其他 Workspace 产品集成,未来几周还会加入面向第三方服务的 MCP 连接。Chrome 集成会在之后推出,而 Android 端还会新增一个名为 Android Halo 的界面,在屏幕顶部直接显示智能体正在执行的操作。Google 说,Halo 不仅支持 Spark,也会支持其他兼容的智能体;运行 Gemini Nano 的设备还会获得额外功能。
除了模型和智能体更新之外,Google 还对 Gemini 应用进行了大幅视觉重设计。整体来看,这次发布把消费级应用、云基础设施和开发者工具更紧密地整合到一个更偏智能体驱动的 AI 体系中。

资讯正文
谷歌 I/O 公布:新模型、永不休眠的云端代理,以及重新设计的 Gemini 应用
要点
- 谷歌推出了 Gemini 3.5 Flash,这是一款更快、成本更低的 AI 模型,同时还发布了 Gemini Omni——一个用于视频、图像和文本生成的新多模态系统。
- 该公司还上线了 Gemini Spark,一款可在云端持续运行的个人 AI 代理,并为 Gemini 应用推出了大幅视觉改版。
- 面向开发者,谷歌更新了其 Antigravity 平台以管理多个自主代理,同时也扩展了 AI 搜索功能和 SynthID 水印工具。
谷歌在 I/O 开发者大会上发布了一波新的 AI 产品。亮点包括:名为 Gemini 3.5 Flash 的新模型、名为 Gemini Omni 的多模态模型,以及一个名为 Gemini Spark、可在云端全天候运行的个人代理。Gemini 应用也获得了重大更新。
谷歌首席执行官 Sundar Pichai 表示,Gemini 3.5 Flash 在几乎所有基准测试中都优于大约四个月前推出的 Gemini 3.1 Pro。谷歌称,在 GDP Val——一个衡量经济相关任务的基准——上,它的提升尤其显著。根据 Artificial Analysis 的分析,Flash 是智能与速度对比图右上象限中的唯一模型;Pichai 表示,它比其他前沿模型快四倍。
公司称,在谷歌自研代理平台 Antigravity 上运行的优化版本甚至快了十二倍。谷歌表示,其成本约为同类模型的三分之一到一半。Pichai 还算了一笔账:如果企业将 80% 的工作负载切换到 3.5 Flash 和 Pro 的组合,每年可节省超过 10 亿美元。Gemini 3.5 Pro 预计下个月推出。
首席 AI 架构师 Koray Kavukcuoglu 强调,3.5 系列是为 agentic 工作而构建的。他表示,这款模型可以持续自主运行数小时,并能独立执行复杂的编码流水线。谷歌内部曾让它从零开始构建一个可运行的操作系统作为测试。
谷歌将 Gemini Omni 定位为 Veo 的多模态继任者
Gemini Omni 是谷歌的新模型,旨在实现“任何输入生成任何输出”。它首先支持视频,图像和文本功能则会在后续推出。Kavukcuoglu 表示,与纯文本转视频模型 Veo 不同,Omni 是建立在 Gemini 架构之上,并且从一开始就是作为多模态模型训练的。谷歌称,该模型还能将自己生成的输出重新作为输入,从而实现迭代式编辑。
用户可以上传自己的视频、替换角色,或更改风格。被问及 Omni 是否取代 Veo 时,Kavukcuoglu 表示,Omni 是 Veo 的泛化版本。他补充说,接下来的路径将持续明确地指向真正的多模态。
名为 Omni Flash 的首个、更快的变体将于周二面向 Google AI+、Pro 和 Ultra 订阅用户在 Gemini 应用、Flow 和 YouTube Shorts 中推出。谷歌表示,API 版本也即将到来,随后还会有更强大的 Omni Pro。所有生成内容都将带有谷歌不可见的 SynthID 水印。
谷歌表示,即使你的笔记本电脑合上,Gemini Spark 也会继续工作
Gemini Spark 是 Google 面向终端用户的个人代理。根据负责 Gemini app 和 AI Studio 团队的 Josh Woodward 说法,它运行在 Google Cloud 上的专用虚拟机中,全天候 24/7 保持可用,即使用户的设备关机,也会在后台继续工作。Google 表示,Spark 在编码任务中使用带有完整 Antigravity 流程的 Gemini 3.5。
此次发布还包括与 Gmail、Docs 以及其他 Workspace 产品的集成。该公司表示,面向第三方服务的 MCP 连接将在接下来几周内上线。Chrome 集成将在稍后到来;在 Android 上,一个名为 Android Halo 的新界面区域会直接在屏幕顶部显示代理正在执行的操作。Google 表示,Android Halo 预计将在今年晚些时候推出,不仅会与 Spark 配合,也会与其他受支持的代理一起工作。运行 Gemini Nano 的设备还将获得额外功能。
Spark 将于本周先向部分测试者推出,并于下周以 beta 形式面向美国的 Ultra 订阅用户开放。Google 正在推出每月 100 美元的新 Ultra 方案,并将此前 250 美元的最高档 Ultra 方案降至 200 美元。
除了 Spark 之外,名为 Daily Brief 的更简洁代理也将加入该 app。Google 表示,它会在夜间分析并优先处理电子邮件、日历条目和任务。这个功能建立在 12 月推出的 Labs 实验“CC”之上。
Google 表示,Gemini app 正在迎来迄今最大规模的视觉改版
Gemini app 本身将获得大概是面向终端用户最明显的一次更新。Woodward 表示,Google 将这款 app “从头开始”重新设计。新的设计语言名为“Neural Expressive”,强调流畅动画、新字体和触觉反馈。Google 表示,答案不再以大段文字墙的形式出现。关键信息会以粗体并置于顶部;向下滚动则会显示嵌入图片、时间线或可视化内容。Google 表示,Gemini Live 现在会直接以内嵌方式打开,不再需要在不同模式之间切换。根据 Google 的说法,这次更新从今天起将在全球范围内面向 Android、iOS 和 web 开始推送。
Gemini 3.5 Flash 和 Gemini Omni 也随这次更新一同发布。通过 Omni,用户可以从相册上传自己的照片和视频,应用预设模板,或者借助 AI avatar 将自己放入生成的场景中,Google 表示。Pichai 说,这款 app 目前已覆盖 230 多个国家和地区,支持 70 多种语言。月活用户从一年前的 4 亿增长到超过 9 亿,日查询量增加了 7 倍。
Google 还发布了适用于 macOS 的 Gemini 桌面应用,现在即可下载。今年夏天,Spark 将迁移到桌面应用中,届时它可以访问本地文件,并在机器上自动化工作流,Google 表示。新的语音功能也计划在夏季推出,可将自由形式的口述直接转换为润色后的文本草稿。
Google 表示,Antigravity 2.0 为开发者提供了一个完整的代理编排平台
开发者平台 Antigravity 正在迎来一次重大更新。Google 表示,Antigravity 2.0 是一款独立的桌面应用,用户可以在其中并行编排多个自主代理。它还配备了一个面向终端用户的 CLI,以及一个 SDK,提供了与 Google 用于构建自家产品相同的代理运行框架。
Pichai 表示,内部增长非常惊人:今年 3 月,Google 每天处理 5000 亿个 token。按照他现在的说法,这一数字已超过每天 3 万亿个。公司还推出了 Codemender,这是一款利用 Gemini 推理来发现代码漏洞并自动修补的工具。公司称,首批会向部分专家开放 API 访问,随后再扩大发布。
Google 扩展搜索、购物和水印功能
搜索负责人 Liz Reid 宣布,AI Mode 正切换到 Gemini 3.5 Flash。Google 表示,这项功能在推出第一年就达到了每月超过 10 亿用户;AI Overviews 的用户数则达到 25 亿。搜索框正在重新设计,以支持更长的多模态查询。Google 说,在未来几个月里,用户可以在 Search 中构建自己的迷你应用,最初面向美国的 AI Pro 和 Ultra 订阅用户。
在购物方面,Google 正在把 Universal Commerce Protocol(UCP)扩展到酒店和配送服务。公司表示,Amazon、Meta、Microsoft、Salesforce 和 Stripe 已加入 UCP 技术委员会。Agent Payments Protocol(AP2)的设计目标,是确保代理只在明确限定的范围内执行购买。
在透明度方面,Google 正将 SynthID 扩展到 Search 和 Chrome。Google 说,在浏览器里右键点击后,用户可以检查一张图片是否由 AI 生成或经过编辑。继去年签署协议的 NVIDIA 之后,OpenAI、Kakao 和 Levin Labs 正作为新合作伙伴加入这一水印标准。
当被问及 Anthropic 等竞争对手是否正在追赶前沿、例如最近的 Claude Mythos,是否改变了 Google 对自身的看法时,Pichai 给出了一个比较笼统的回答:他表示,前沿并不是一个固定点,不会永远由某一家提供商领先;它是在不断变化的。有时候某个实验室在某些基准上领先,另一些时候则是别家。Pichai 说,Google 在许多维度上都处于领先地位,并专注于把前沿能力带给尽可能多的用户。据他表示,一款更便宜的 Flash 模型击败更早的 Pro 模型,正说明了这一点。
来源与参考
收录于 2026-05-20