Google展示Gemini Omni和3.5

Google AI Blog··作者 Zahra Thompson

关键信息

Gemini Omni 被描述为一种可以接收图像、音频、视频和文本作为输入,并生成基于知识的高质量视频的模型,而且可以通过自然语言对话进行编辑。 Gemini 3.5 Flash 被定位为适合长周期智能体任务和编码的快速模型,Google 还表示它现在已在全球范围内为 Gemini 应用和 Search 中的 AI Mode 提供支持。

资讯摘要

在 Google I/O 2026 上,Google 发布了两个新的模型系列:Gemini Omni 和 Gemini 3.5。 这篇文章更像是一组演示展示,而不是深入的技术论文,并给出了九个实际使用场景示例。 Gemini Omni 被描述为一个统一的多模态模型,可以接受图像、音频、视频和文本等多种输入,并生成视频。 Google 表示,该模型可以基于 Gemini 对现实世界的知识生成高质量视频,还能通过对话方式直接编辑视频。 演示强调,每一次指令都会建立在上一次的结果之上,因此人物形象保持一致,物理效果保持合理,场景也会记住之前的修改。 示例提示包括把雕塑变成泡泡,以及在已有视频基础上逐步加入更复杂的场景变化。

文章还展示了一个更复杂的递归视觉提示,说明该模型可以重构动作和环境。 在 Gemini 3.5 方面,Google 表示 3.5 Flash 把前沿智能与行动能力结合起来,专门面向长周期的智能体任务,并保持 Flash 系列一贯的速度。 演示展示了它如何在 Antigravity 的支持下执行多步骤工作流,例如自动重命名并分类非结构化资产。 Google 还表示,更新后的 Antigravity harness 可以让 3.5 Flash 在监督下部署协作式子智能体,以处理更大规模的问题和编码任务。 最后,文章指出 3.5 Flash 现在已成为全球 Gemini 应用和 Search 中 AI Mode 的默认模型,而由其智能体编码能力驱动的信息智能体将先面向 Google AI Pro 和 Ultra 订阅用户,在今年夏天上线。

Google展示Gemini Omni和3.5

资讯正文

9 个 Gemini Omni 和 Gemini 3.5 实战演示

在 Google I/O 2026 上,我们发布了最新模型:Gemini Omni 和 Gemini 3.5 系列模型。

Gemini Omni 是我们推出的新模型,它可以从任何输入创建任何内容,且最初支持视频。借助 Omni,你可以将图像、音频、视频和文本作为输入,并生成基于 Gemini 现实世界知识的高质量视频。你还可以通过对话轻松编辑视频。

还有 Gemini 3.5,这是我们最新的模型家族,将前沿智能与行动能力结合在一起。这标志着在构建更强大、更智能的代理方面迈出了一大步。我们以发布 3.5 Flash 作为该系列的开端。它为代理和编码提供前沿级性能,在复杂的长周期任务上表现出色,能够带来实际世界的价值。

为了让你更清楚地了解 Gemini Omni 和 Gemini 3.5 Flash,下面有 9 个演示,展示它们可以帮助你完成什么。

Gemini Omni

通过对话编辑视频。Omni 的一个特别能力是,它为你提供了一种更简单的视频编辑方式——使用自然语言。每条指令都会基于上一条继续推进。你的角色会保持一致,物理规律也会成立,场景会记住之前发生过的事情。这意味着你可以改变周围的世界。修改特定内容,或者把一切都改掉。你的视频会成为你自己从未能够拍摄出来的某种新内容的起点。

提示词:把雕塑变成泡泡做的。

重新想象动作。拿一段你拍摄的视频,只需让 Omni 改变正在发生的事情。编辑动作,加入新角色或新物体,或者把某个瞬间变成意想不到的东西。

提示词:把房间里的灯光调暗。把一个黑白棋盘格房间放进一个漂浮在手上方、跟踪移动的玻璃球里,球内包含同一只手握着球体的递归表示,形成房间的无限递归。摄像机慢慢靠近球体,形成一个视频循环。

通过多轮交互优化你的视频。改变环境、角度、风格,甚至具体细节,而始终不会丢失原始场景的主线。向下滚动查看轮播,了解这些编辑是如何层层叠加的。

提示词:一段小提琴手演奏歌曲的视频。

提示词:把小提琴手转移到图像环境中。

提示词:让小提琴隐形。

提示词:把摄像机角度改成从小提琴手肩后方拍摄。

Gemini 3.5 Flash

大规模处理代理任务。3.5 Flash 在多个维度上的智能表现可与大型旗舰模型相媲美,同时保持你对 Flash 系列所熟悉的速度。这种速度与性能的平衡,使 3.5 Flash 非常适合处理长周期代理任务。在这里,在 Antigravity 的支持下,3.5 Flash 执行多步骤工作流,基于动态标准自动重命名和分类非结构化资产。

由 Antigravity 驱动的 3.5 Flash

当与更新后的 Antigravity harness 配合使用时,3.5 Flash 便成为一个强大的引擎,能够部署协作式子代理,以应对最严苛用例中的大规模问题。在监督之下,它能够可靠地执行多步骤工作流和编码任务,同时保持前沿性能。

3.5 Flash 在 AI Studio 中

试用个人 AI 代理和新的智能体验。3.5 Flash 现已成为全球 Gemini 应用和 Search 中 AI Mode 的默认模型。它的代理能力正在驱动新功能,将前沿级智能带入你的日常生活。

3.5 Flash 增强后的代理式编码能力,也正在 Search 中带来更智能的体验,例如我们新的 information agents。这些代理在后台全天候 24/7 运行,能够跨信息进行智能推理,在恰当的时刻找到你真正需要的内容。它们会发送一份全面更新,并附上网页链接供你深入了解,从而让你采取行动。information agents 将于今年夏天率先面向 Google AI Pro 和 Ultra 订阅用户推出。

一个 information agent 会持续为用户更新其喜爱的运动员是否宣布了球鞋联名或签名款发售。

现在,我们正在把 Google Antigravity 的能力以及 Gemini 3.5 Flash 的代理式编码能力直接带入 Search,Search 就能根据你的问题,以最合适的格式即时生成理想回应。因此,你可以获得定制化的生成式 UI,包括视觉工具和模拟,精准贴合你的需求。这些生成式 UI 功能将于今年夏天向 Search 中的所有人免费提供。

Search 利用 3.5 Flash 构建了一个解释 Gyroid 图案的交互式可视化内容。

对于婚礼筹划或建立新的健身计划这类持续性任务,Search 还会为你构建定制体验——比如仪表盘、追踪器或迷你应用——让你可以反复回访。未来几个月内,你将能够在 Search 中借助 Antigravity 创建自己的定制体验,首先面向美国的 Google AI Pro 和 Ultra 订阅用户开放。

Search 构建了一个定制健身追踪器。

接下来是全新的 Gemini Spark,这是你的个人 AI 代理,运行于 Gemini 3.5 并使用 Antigravity harness。它全天候 24/7 运行,在你的指引下代你采取行动,帮助你驾驭数字生活。它与你每天依赖的 Workspace 工具深度集成,比如 Gmail、Docs、Slides 等。Gemini Spark 现已向美国所有 Google AI Ultra 订阅用户开放。

Gemini Spark 创建了一份无坚果零食清单,然后将它们添加到 Instacart。

Gemini Omni Flash 正在通过 Gemini 应用和 Google Flow 向全球所有 Google AI Plus、Pro 和 Ultra 订阅用户推出。它也正在向 YouTube Shorts 和 YouTube Create App 用户免费推出。在接下来的几周内,我们还将通过 API 向开发者和企业客户推出。

Gemini 3.5 Flash 已可通过 Google Antigravity、Google AI Studio 和 Android Studio 中的 Gemini API、Gemini Enterprise Agent Platform 以及 Gemini Enterprise 正式向所有用户提供。它也已面向所有人开放,可在 Search 的 AI Mode 中使用,并且现在正在全球范围内向所有用户推送到 Gemini 应用中。

来源与参考

  1. 原始链接
  2. 9 demos of Gemini Omni and Gemini 3.5 in action

收录于 2026-05-30