谷歌 Gemini Omni 带来 AI 视频克隆

ZDNET AI··作者 David Gewirtz

关键信息

谷歌表示,Omni 将 Gemini 的推理能力与视频生成结合起来,并可利用其实世界知识来约束输出内容。公司还表示,该功能会加入 SynthID 数字指纹,同时仍在测试如何负责任地处理基于头像的音频和语音编辑。

资讯摘要

ZDNET 将谷歌 Gemini Omni 描述为一项重要的新 AI 视频能力,它可能帮助创作者更轻松地制作更高质量的视频,也可能让 YouTube 上充斥更多低质量的 AI 内容。谷歌把 Omni 的意义类比为 Nano Banana 之于图像生成的提升,暗示它会显著提高 AI 视频创作的质量和灵活性。公司表示,Omni 先从视频开始,但目标是最终“从任何输入生成任何内容”。它可以把图像、音频、视频和文本作为输入,并基于 Gemini 的现实世界知识来生成视频。该功能从 Gemini Omni Flash 开始推出,之后会进入 Gemini 应用、Google Flow 和 YouTube Shorts。

文章还指出,目前不清楚 Gemini 的网页版本是否会直接支持 Omni,用户是否需要通过浏览器中的 Flow 来使用。最引人注目的功能之一是基于头像的克隆,它可以生成看起来和听起来都像用户本人的视频。作者认为这对创作者来说很有吸引力,但同时也担心隐私、真实性,以及观众是否会接受由 AI 代替真人出镜。谷歌表示,它会使用 SynthID 数字指纹来验证这些视频确实由 Omni 生成,并且仍在研究如何负责任地处理音频和语音编辑。

谷歌 Gemini Omni 带来 AI 视频克隆

资讯正文

关注 ZDNET:在 Google 上将我们添加为首选来源。ZDNET 的主要要点是:Google Omni 旨在为视频实现 Nano Banana 之于图片的效果。创作者可以根据文本、图像、音频或视频来制作视频。AI 虚拟形象可能会帮助创作者,但也会带来信任方面的担忧。

上周,Google 宣布了一项新的 AI 视频能力,它要么能帮助创作者更轻松地制作更高质量的视频,要么会让 YouTube 上的 AI 垃圾内容大幅增加。我猜两种情况都会发生一些。Google 发布了 Gemini Omni,这是一款将通过 AI 创建视频的能力提升到全新水平的工具。该公司把这项发布与推出 Nano Banana 时,在 AI 图像生成方面实现的提升相提并论。另请参阅:Google I/O 2026:已宣布的全部内容。Nano Banana 极大提高了图像生成所能达到的标准。Omni 号称要在视频领域做到同样的事。Omni 已开始逐步推出,但我还没机会体验。

Google 将 Omni 描述为“Gemini 的推理能力与创造能力相遇的地方”。有趣的是,根据该公司说法,“借助 Omni,你可以将图像、音频、视频和文本组合为输入,并生成以 Gemini 的现实世界知识为基础的高质量视频。”尽管 Omni 是“从视频开始”,但 Google 表示,这个新模型可以“从任何输入创建任何内容”,所以想必在适当时候,我们还会看到其他媒体类型由这款工具生成。另请参阅:我希望自己更早发现的 6 款 Android Auto 应用,因为它们让每一次驾驶都更轻松。Omni 还将提供不同的模型档位,从现在开始就有 Gemini Omni Flash。该功能将进入 Gemini 应用、Google Flow 和 YouTube Shorts。目前尚不清楚网页版 Gemini 是否会支持 Omni,或者你是否需要通过浏览器使用 Flow 界面。有一些突出的功能,让它成为一个非常有趣的产品。

克隆你自己

老实说,我真拿不准这会成为一个亮点功能、一个非常大的隐私隐患,还是一个失控的垃圾内容生成器。该公司表示,你可以“使用 Avatars 以自己的声音创建视频,它会生成一个你的数字版本,让你制作看起来和听起来都像你自己的视频。”另请参阅:我用 Nano Banana 2 制作了完美的速记笔记:5 条经验心得。

作为我 YouTube 频道的常规视频制作者,我对此很感兴趣。曾经有些时候,我想发布一个视频,但那天发型很糟、嗓音状态很差,或者心情很差,我并不想让这些状态在视频里表现出来。我能不能直接把脚本输入我的数字分身头像,让 RoboDave 负责开口说话?我的观众会注意到吗?他们会在意吗?他们会讨厌吗?我会吗?显然,这值得尝试,但这大概不会是我经常使用的东西。我做 YouTube 频道,部分原因是为了保持我的口语和呈现能力。如果把这项工作交给一个数字虚拟形象,虽然能减轻我的工作量,但也会减少我的训练和练习。Google 非常谨慎地表示,它正在把 SynthID 数字水印技术纳入这些视频中,这样就可以验证它们确实是由 Omni 生成的。

谷歌还表示:“除了头像功能之外,在涉及编辑视频、改变音频和语音方面,我们仍在继续测试,并更好地理解如何以负责任的方式将这一能力带给用户。”

物理模型

你们中的一些人可能还记得电子游戏早期的日子,那时角色的行为更像布娃娃,而不是现实世界中的物体。随着游戏变得更好,它们开始融入物理模型,因此如果某个东西被击中、被撞退或被丢下,它的表现会符合该物体的物理规律。如今,Omni 已将物理学融入它所创建的视频中。谷歌表示,它拥有“对重力、动能和流体力学等力量更强的直观理解”。它还利用 Gemini 的知识,以“将语言、图像和含义联系起来,远远超越模式匹配”。

另见:OpenAI 新的图片水印让识别 AI 伪造内容更容易——方法如下

该公司表示,Omni 能根据简短提示构建详细视频,并且可以生成用于解释说明类内容的视频,这类视频会拆解相当复杂的想法。我对此并不怀疑。NotebookLM 的音频概览和视频概览所具备的分析能力,足以生成讲解性内容,令人惊叹。如果其中有部分技术进入 Omni,事情很快就会变得有意思起来。我实际上把营销文档和规格说明书输入了 NotebookLM,它为我的安全产品的各项功能生成了说明视频,效果比我手工制作的任何内容都要好,尤其是节省的时间。那时的视频画面并不算出色,但能在 30 分钟内用一段干净利落的视频把复杂功能讲清楚,对我的产品发布节奏来说简直是倍增器。

输入多样性

Nano Banana 早期最突出的功能之一,是它能够重新诠释一张图片。例如,我让它把一张我在公园里行走的照片改成我穿着接近海军上将制服、站在航空母舰舰桥上的样子。虽然它没能完全还原制服上的勋表和金属饰件,但确实准确复现了我的身体和脸部。另见:我用 Gemini 把日常自拍变成了专业头像

Omni 还计划把这一能力扩展到视频,将图像、文本、视频或音频转化为“连贯的输出”。目前,它唯一接受的音频输入是语音录音,但该公司表示,未来很快会“推出其他类型的音频输入”。该公司还表示,你可以创建场景、匹配风格、用自然语言描述你想要的内容,并在整个视频中获得角色一致性。

对话式编辑

制作视频时,我最不喜欢的一个环节就是编辑过程。它往往极其繁琐。但在 Omni 中,“Gemini Omni 让你可以用自然语言更轻松地编辑视频。每一条指令都会在上一条的基础上继续。你的角色保持一致,物理规律经得起推敲,场景也会记住之前发生的事情。”谷歌还表示,你可以改变视频中的元素。如果能够导入一段视频,然后让编辑器移除遮挡物,或者更改物体和背景,我能看到这会带来巨大的好处。

目前还不清楚单个片段能有多长,也不清楚在某个套餐下你究竟能对 Omni 进行多少编辑,但这些可能性令人兴奋。此外:Sora 2 和其他 AI 视频工具使用起来有风险吗?一位法律学者给出了这样的说法。该公司表示,新版 Omni 还能实现另外两种变换:改变特定内容,或改变一切。你的视频会变成一个起点,生成你自己根本不可能拍出来的东西。

拿一段你拍摄的视频,只要让 Omni 改变正在发生的内容即可。你可以编辑动作,加入新角色或物体,或者把某个瞬间变成意想不到的东西。此外,Google 目前还没有说明视频格式或分辨率。这会是一款能处理 16:9、4K 或 8K 分辨率视频的专业工具吗,还是它的定位其实是面向 YouTube Shorts 一代?当 OpenAI 推出 Sora 时,它更多是一种新奇玩意儿。虽然用户玩坏了它(我们给 Sam Altman 染了蓝头发,还让他唱 ZDNET 的赞歌),但它始终没能成为真正帮助专业工作流程的工具。虽然生成 AI 头像克隆和替换物体可能很有趣,但我希望这项能力能进一步扩展,使其要么可以在 Final Cut、Premiere Pro 和 DaVinci Resolve 中使用,要么至少能与这些工具足够集成,让它们可以使用 Omni 创建的编辑内容。并非不可能。Omni 的功能将通过 Google API 向企业客户和开发者逐步开放。此外:OpenAI 新的图片水印让识别 AI 假图更容易——方法如下

我也很好奇,Omni 是否会像它在 Nano Banana 生成图片上所做的那样,在视频角落嵌入那个小菱形水印。虽然知道一段片段是由 AI 生成的很不错,但这种水印会妨碍把 AI 当作专业工具来使用。我们会不会看到可以去除水印的授权层级?还是说会出现第三方工具,不管 Google 是否愿意,都把这个水印去掉?时间会告诉我们答案。你会用 Google Omni 为那些不想亲自出镜拍摄的视频创建自己的数字化身吗?欢迎在下方评论区告诉我们。你也可以在社交媒体上关注我的日常项目更新。别忘了订阅我的每周更新通讯,并在 Twitter/X 上关注我 @DavidGewirtz,在 Facebook 上关注 Facebook.com/DavidGewirtz,在 Instagram 上关注 Instagram.com/DavidGewirtz,在 Bluesky 上关注 @DavidGewirtz.com,以及在 YouTube 上关注 YouTube.com/DavidGewirtzTV。

来源与参考

  1. 原始链接
  2. I was intrigued by Google's new video-cloning Omni AI - then I considered the implications

收录于 2026-05-28