谷歌发布 Gemini Omni 跨模态视频生成

TechCrunch AI··作者 Rebecca Bellan

关键信息

Omni 先从视频生成开始,但谷歌表示它会跨输入进行推理,而不是简单拼接素材,目标是生成体现物理、文化、历史和科学理解的输出。谷歌还计划支持数字头像视频创建,并通过专门的入门流程来帮助防止深度伪造;所有 Omni 生成的视频都会带有 SynthID 数字水印以便验证。

资讯摘要

谷歌最初发布 Gemini 时,就把它定位为一个原生多模态模型,训练目标涵盖文本、图像、音频和视频,希望它能跨不同格式生成内容。到了 Google I/O,谷歌表示自己正朝这个方向迈出具体一步,推出 Gemini Omni 这一新的多模态模型家族。Sundar Pichai 把它概括为可以“从任何输入创造任何东西”。Omni 首先聚焦视频生成,用户可以把图像、音频、视频和文本一起输入模型,由模型跨这些输入进行推理,而不是简单把素材拼接起来。谷歌称,这样生成的视频会更一致,也更像理解了物理、科学、历史和文化等现实世界知识。它还支持用纯文本命令编辑照片,体验类似谷歌的 Nano Banana。谷歌其实已经有了专门的视频模型 Veo,可以把文本和图像转成视频,甚至生成和定制头像,但 DeepMind 产品管理负责人 Nicole Brichtova 表示,Omni 不是一次简单的 Veo 更新。

她把这次发布描述为“把 Gemini 的智能与媒体模型的渲染能力结合起来”的下一步。DeepMind 首席技术官 Koray Kavukcuoglu 还举了一个演示:当 Omni 收到“蛋白质折叠的黏土动画讲解”这样的提示时,它很快生成了一段定格动画风格的视频,并配上关于氨基酸链和蛋白质结构的旁白。谷歌还表示,Omni 的长期目标不止是视频,还包括用音频生成图像、用视频生成音频等。首个模型 Gemini Omni Flash 今天开始向 Gemini 应用、YouTube Shorts 和 Flow 推出,当前可生成 10 秒视频。Brichtova 说,这个时长限制不是模型本身做不到更长,而是为了先让更多人用起来,同时估计大多数用户暂时也不需要更长的视频。谷歌还把它定位为偏消费者工具,给出的例子包括把自己做成“获奖”或“登月”的视频,或者移除假期视频里的路人。用户若要创建数字头像视频,需要经过专门的入门流程,录制自己并念出一串数字,以降低深度伪造风险;所有 Omni 生成的视频也都会带有 SynthID 数字水印,方便验证来源。

谷歌发布 Gemini Omni 跨模态视频生成

资讯正文

当 Google 三年前推出 Gemini 时,其目标是打造一个多模态大语言模型——一个在文本、图像、音频和视频上训练的单一神经网络,并且能够生成这些任一格式的内容。

今天,在 Google I/O 开发者大会上,公司朝着这一目标迈出了具体一步,推出 Gemini Omni,这是一组新的多模态模型。Google 首席执行官 Sundar Pichai 表示,它将能够“根据任何输入创造任何内容”。

Omni 将从视频开始。用户现在可以把图像、音频、视频和文本组合起来,而不是简单地把这些输入拼接在一起,Omni 会跨所有输入进行推理,以生成一致的输出。结果是高质量视频,体现出对物理、文化、历史和科学的理解。

Omni 还允许用户用普通文本指令编辑照片,而不必使用复杂的编辑软件,这与 Google 的 Nano Banana 类似。

Google 已经有一个专门的视频模型 Veo,它能让用户把文本和图像转化为视频,甚至可以指导和定制虚拟形象。但 Google DeepMind 产品管理主管 Nicole Brichtova 表示,今天的发布不只是对 Veo 的更新:“这是将 Gemini 的智能与我们媒体模型的渲染能力结合起来这一演进的下一步。”

DeepMind 首席技术官 Koray Kavukcuoglu 在周一的媒体简报中向记者举了一个例子:当 Omni 接收到一个简单提示,比如“一个解释蛋白质折叠的黏土动画”,它很快就生成了一段定格动画风格的讲解视频,配音说道:“蛋白质最初是氨基酸链。它们会折叠成像 alpha helix 和称为 beta sheets 的平坦结构那样的模式,形成一个完美的三维形状。”

Omni 的长期愿景更为广泛,包括让模型用于从音频生成图像,或者从视频生成音频等任务。

Pichai 在简报中说:“当我们首次发布 Gemini 时,它是我们第一个原生多模态 AI 模型。我们知道,让它在文本、代码、音频、图像和视频的组合上进行训练,会让它对世界有更深刻的理解。有了世界模型,AI 正在从预测文本转向模拟现实。Gemini Omni 是朝着那个方向迈出的下一步。”

作为此次发布的一部分,用户还将能够用自己的数字化虚拟形象制作视频——OpenAI 曾在现已停运的 Sora 应用中通过 Cameos 推广了这一功能。为防止深度伪造,用户需要完成专门的产品引导流程,其中包括录制自己并念出一系列数字,Brichtova 表示。随后,该虚拟形象会被保存供日后使用。

此外,所有使用 Omni 创建的视频都会包含 Google 的 SynthID 数字水印,用户可以借此验证这些视频是否由 Gemini 产品生成。

该系列中的首个模型是 Gemini Omni Flash,它今天将开始向 Gemini 应用、YouTube Shorts 和 AI 创意工作室 Flow 推出。Flash 将能够生成 10 秒的视频,Brichtova 表示,这并不是模型的限制,而是基于两方面的决定:一方面希望尽快让更多人用上它,另一方面也预期大多数用户目前还不会想制作更长的视频。不过,更长的视频时长也已在近期规划之中。

Google 似乎把 Omni Flash 定位得更偏向消费者工具。Brichtova 和 DeepMind 研究工程师 Gabe Barth-Maron 在与 TechCrunch 的电话中举的数字化头像用例全都很个人化:比如做一段自己领奖或登上月球的视频,或者把你在度假时拍摄视频里背景中的路人去掉。

Barth-Maron 用更简单的话概括:“它们就像个性化表情包。”

Brichtova 说:“我们确实非常专注于让它对消费者易于使用。没有多少视频模型已经跨过了面向消费者的那道鸿沟,所以这是我们要去做这件事的切入点。”

易用性也带来一个注意事项:Brichtova 和 Barth-Maron 指出,编辑提示词需要非常具体,否则 Omni 可能会过度编辑,或者无意中改变用户想保留的元素——Nano Banana 用户可能就遇到过这个问题。

尽管短期内重点放在消费者市场,Omni 的企业和创意层面的意义显而易见,Google 也将在未来几周通过 API 提供 Omni。头像生成工具——这项能力今天已经在 Shorts 上可用——是 Google 预期内容创作者会采用的功能。但更广泛地说,一个端到端的多模态工作流对广告商和电影制作人都可能具有变革性。

创业公司 Luma AI 也在构建类似的东西:一种代理式工具,只需一段简短的需求说明和一张产品图片,就能生成完整的广告活动,其背后由该公司的“统一”模型驱动。

Brichtova 说:“我们其实对这个模型的文本渲染能力非常自豪,这对广告之类的场景真的很有用。比如如果你想在某个地方放一个产品,或者哪怕只是一个标语,它就需要准确……我们确实预期电影制作人以及其他类型的创作者也会使用这个模型。”

更专业的使用场景也许会更适合 Omni Pro 模型,它在所有 Omni 任务上的表现应该都会更好。Google 还没有说明 Pro 何时发布,但 Brichtova 说,这会在“我们感觉自己已经到了一个相较 Flash 有跃迁式提升的节点”时发生。

来源与参考

  1. 原始链接
  2. Google's Gemini Omni turns images, audio, and text into video — and that's just the start | TechCrunch

收录于 2026-05-20