Google 推出 Gemini Omni 生成 AI 视频
ZDNET AI··作者 David Gewirtz
关键信息
Google 表示,Omni 将 Gemini 的推理能力与视频生成结合起来,并可基于 Gemini 的现实世界知识来生成内容。公司还表示会使用 SynthID 数字水印进行验证,同时说明除头像功能之外的音频和语音编辑仍在测试中,以确保负责任地推出。
资讯摘要
Google 发布了 Gemini Omni,并将其描述为一项新的 AI 视频能力,目标是把视频生成提升到一个新的层级。公司把这次发布类比为此前 Nano Banana 对图像生成带来的提升,暗示 Omni 也可能显著改变视频创作方式。根据 Google 的说法,Omni 可以把文本、图片、音频和视频作为输入,并生成基于 Gemini 现实世界知识的高质量视频。该功能将从 Gemini Omni Flash 开始推出,并会接入 Gemini 应用、Google Flow 和 YouTube Shorts。文章提到,目前还不清楚 Gemini 的网页版本是否会直接支持 Omni,或者用户是否必须通过浏览器中的 Flow 界面使用。
最引人注目的功能之一是头像式视频克隆,用户可以创建一个看起来并听起来都像自己的数字版本来生成视频。Google 表示,这些视频会内置 SynthID 指纹,以便验证其由 AI 生成。公司同时说明,涉及音频和语音编辑的更广泛视频编辑能力仍在测试中,团队希望以负责任的方式再向用户开放。文章整体认为,Omni 既可能帮助创作者更轻松地产出视频,也可能让网络上出现更多低质量 AI 内容,并进一步加剧信任问题。

资讯正文
ZDNET 的核心要点:Google Omni 旨在把视频领域的能力提升到图像领域中 Nano Banana 所带来的水平。
创作者可以基于文本、图像、音频或视频来生成视频。
AI 头像或许能帮助创作者,但也会带来信任方面的担忧。
今天,Google 宣布了一项新的 AI 视频能力,它要么能帮助创意工作者更轻松地制作更高质量的视频,要么会让 YouTube 上的 AI 垃圾内容大幅增加。我押注两种情况都会发生。
Google 发布了 Gemini Omni,这是一款将通过 AI 创建视频的能力提升到全新水平的工具。公司将这项发布与此前推出 Nano Banana 后,AI 图像生成能力提升到的新高度相提并论。
Nano Banana 大幅抬高了图像生成的可实现上限。Omni 也声称要在视频领域做到同样的事。Omni 将从今天开始陆续推出,但在发布前我没有机会实际体验它。
Google 将 Omni 描述为“Gemini 的推理能力与创造能力相遇的地方”。有意思的是,根据公司的说法,“借助 Omni,你可以将图像、音频、视频和文本组合为输入,并生成基于 Gemini 现实世界知识的高质量视频。”尽管 Omni“首先从视频开始”,Google 表示这款新模型“可以从任何输入创造任何东西”,所以大概我们之后还会看到该工具生成其他媒体类型。
Omni 也会以模型分层的形式提供,从现在开始先推出 Gemini Omni Flash。该能力将进入 Gemini 应用、Google Flow 和 YouTube Shorts。目前还不清楚 Gemini 的网页版是否会支持 Omni,或者你是否需要通过浏览器使用 Flow 界面。
有一些非常突出的功能,让这款产品显得格外有意思。
克隆你自己
老实说,我完全判断不出来这会成为一个亮点、一个巨大的隐私隐患,还是一个毫无约束的垃圾内容生成器。公司表示,你可以通过 Avatars 使用自己的声音创建视频,它会生成你的数字版本,让你做出“看起来和听起来都像你自己”的视频。
作为一个经常为自己的频道制作 YouTube 视频的人,我确实有些好奇。有些时候我想发布一条视频,但那天发型很糟、声音状态很差,或者情绪也不对,我并不想让这些状态在视频里表现出来。那我能不能把脚本喂给我的数字分身头像,让 RoboDave 代为发言?我的观众会注意到吗?他们会在意吗?他们会讨厌吗?我会吗?显然,这是一个值得试验的方向,不过大概不会是我经常使用的东西。我做 YouTube 频道,部分原因就是为了保持自己的表达和呈现能力。把这部分工作交给数字头像,也许能减轻我的工作量,但也会削弱我的训练和练习。
谷歌非常谨慎地表示,它正在这些视频中加入其 SynthID 数字指纹技术,因此这些视频可以被验证为由 Omni 生成。谷歌还表示:“除了头像功能之外,在通过编辑视频来改变音频和语音方面,我们仍在努力测试,并更好地理解如何负责任地将这一能力带给用户。”
物理模型
有些人可能还记得电子游戏的早期,那时角色的表现更像布娃娃,而不是现实世界中的物体。随着游戏越来越好,它们开始引入物理模型,因此如果某个东西被射中、被撞开或被丢下,它的运动方式就会符合该物体的物理规律。Omni 现在把物理效果也纳入了它生成的视频中。谷歌表示,它“对重力、动能和流体动力学等力有了更好的直观理解。”它还利用 Gemini 的知识,“以远远超出模式匹配的方式,将语言、图像和意义联系起来。”
另外:OpenAI 的新图像水印让 AI 伪造内容更容易被识别——方法如下
该公司表示,Omni 能根据简短提示词生成细节丰富的视频,也能生成用于讲解的内容,用来拆解相当复杂的想法。我对此并不怀疑。NotebookLM 的音频概览和视频概览所具备的分析能力,足以生成讲解内容,令人惊叹。如果其中一些技术被引入 Omni,情况很快就会变得有趣起来。实际上,我曾把营销文档和规格说明书输入 NotebookLM,它为我安全产品的各项功能生成了讲解视频,效果比我手工制作的任何东西都要好,尤其是考虑到完成所花的时间。当时的视觉效果并不算好,但能在 30 分钟以内把复杂功能用一段干净利落的视频讲清楚,这对我的产品发布节奏是一个极大的助推。
输入多样性
Nano Banana 早期最突出的功能之一,是它能够对图像进行重新语境化。比如,我让它拿一张我在公园里行走的照片进行修改,把我变成了穿着接近海军上将制服的人,站在航空母舰的舰桥上。虽然它没有完全把那种“水果沙拉”式的军衔徽章和黄铜细节做对,但它确实成功准确地还原了我的身体和脸。
另外:我用 Gemini 把随手自拍变成了专业证件照
Omni 打算把这种能力扩展到视频,能够把图像、文本、视频或音频转化为“统一的输出”。目前,它唯一接受的音频类型是语音录音,但公司表示,很快会“推出其他类型的音频输入。”公司还表示,你可以创建场景、匹配风格、用自然语言描述你想要的内容,并让角色在整个视频中保持一致。
对话式编辑
我不喜欢的视频制作环节之一就是编辑过程。它往往极其繁琐。但借助 Omni,“Gemini Omni 让你可以用自然语言更轻松地编辑视频。每条指令都会建立在上一条的基础上。你的角色保持一致,物理效果成立,场景会记住此前发生的一切。”谷歌还表示,你可以更改视频中的元素。
如果可以导入一段视频,并让编辑器移除遮挡物或更改对象和背景,那我能看到它会带来巨大的好处。目前还不清楚一段剪辑可以有多长,也不清楚在某个具体套餐下,你到底能用 Omni 进行多少编辑,但这些可能性都很令人兴奋。
另外:Sora 2 和其他 AI 视频工具使用起来有风险吗?一位法律学者是这样说的
该公司表示,新的 Omni 还能做另外两种变换:改变特定内容,或者把一切都改变。你的视频会成为你原本不可能亲自拍摄出的某种东西的起点。拿一段你拍摄的视频,只需让 Omni 改变正在发生的事情即可。你可以编辑动作,加入新的角色或物体,或者把某个瞬间变成意想不到的内容。
此外,Google 目前还没有明确视频格式或分辨率。这会是一款可以处理 4K 或 8K 分辨率 16:9 视频的专业工具吗,还是说它只是面向 YouTube Shorts 一代的工具?当 OpenAI 推出 Sora 时,它更像是一种新奇玩意。虽然用户拿它胡闹过一阵子(我们把 Sam Altman 的头发做成了蓝色,还让他唱 ZDNET 的赞歌),但它始终没能成为真正帮助专业人士工作流的工具。虽然生成 AI 虚拟分身和替换物体可能很好玩,但我希望这一能力能进一步扩展,让它可以在 Final Cut、Premiere Pro 和 DaVinci Resolve 内部使用,或者至少能与这些工具集成到足以让它们调用 Omni 创建的编辑。这个是有可能的。Omni 的功能将通过 Google API 向企业客户和开发者逐步推出。
另外:OpenAI 的新图片水印让识别 AI 假图更容易了——方法如下
我也很好奇,Omni 是否会像它给 Nano Banana 生成图片加水印那样,在视频角落里嵌入那个小小的菱形水印。虽然知道一段剪辑是由 AI 生成的很好,但这种水印会妨碍把 AI 当作专业工具来使用。我们会不会看到一些分级许可,在这些层级里可以移除水印?或者会不会出现第三方工具,不管 Google 是否允许,都能把水印去掉?时间会给出答案。你会用 Google Omni 为那些不想亲自录制的视频创建自己的数字化身吗?欢迎在下方评论区告诉我们。你也可以在社交媒体上关注我每日的项目更新。别忘了订阅我的每周更新通讯,并在 Twitter/X 上关注我 @DavidGewirtz,在 Facebook 上访问 Facebook.com/DavidGewirtz,在 Instagram 上访问 Instagram.com/DavidGewirtz,在 Bluesky 上关注 @DavidGewirtz.com,以及在 YouTube 上访问 YouTube.com/DavidGewirtzTV。
来源与参考
收录于 2026-05-20