Google推出Gemini Omni视频模型

The Verge AI·5月23日 19:00 UTC·作者 Allison Johnson

关键信息

根据这篇上手体验，Omni可以把上传的视频和文字提示一起作为生成起点，Google还声称它比Veo更懂现实世界，并且更能保持角色一致性。文章同时指出，编辑功能确实比以前更好，但结果仍会出现明显的AI痕迹，例如方向突然变化、物体前后不一致，以及结尾画面很怪。

资讯摘要

The Verge 通过一项轻松的深度伪造实验测试了 Google 新的 Gemini Omni 模型家族，实验对象是一只名叫 Buddy 的毛绒鹿。文中把 Omni 描述为一组未来可能在多种媒体形式之间互相转换的生成式模型，但目前首个版本 Omni Flash 主要用于 Google Flow 平台中的视频生成。Google 表示，Omni 可以把上传的视频和文字提示一起作为输入，并且相比 Veo，它在现实世界理解和角色一致性方面更强。实际测试结果则喜忧参半：有些片段比之前测试 Veo 时更连贯，也更贴近提示词，但另一些片段仍然出现明显的 AI 失真。比如 Buddy 在跳伞时会突然改变朝向，另一个视频里模型还会把蜂蜜罐不断变成不同的容器。

Omni 的文字编辑能力确实比 Veo 3 更好，但依然不够稳定，还会出现不该有的变化，例如角色身上突然长出鹿角。作者要求模型移除鹿角后，它虽然在一个场景里删掉了鹿角，却在其他场景里又加了回去。文章还指出，Omni 并不是免费使用的，因为视频生成会按片段长度和“素材”消耗不同数量的积分，而编辑一次要花更多积分。作者在生成大约 20 个片段并做了几次编辑后，$20 的 AI Pro 订阅所包含的 1,000 积分已经所剩无几。

资讯正文

去年，我给孩子的毛绒玩具做了深度伪造，让他那只毛绒小鹿看起来像是在度假。

那次实验是为了看看我能否重现谷歌当时投放的一则 Gemini 广告里描绘的情节，而我从来没有把小鹿 Buddy 的冒险视频给我四岁的孩子看过。不过，这个尝试很有启发性，让我认真思考了生成式 AI 中一些无伤大雅的玩乐与彻头彻尾的垃圾内容之间的区别。也许那个维恩图就是一个完美的圆！也可能不是。但我可以肯定的是，用来制作逼真视频的工具好得惊人，而且所需的功夫和专业知识少得惊人。而这一趋势正在 Gemini 的 Omni 时代持续升温。

Omni 是一套新的生成式模型家族，据称总有一天可以把任何一种输入——照片、视频、文本——转换成其他任何形式。但就目前而言，它做的还是视频生成。Omni Flash 是谷歌发布的这套模型中的第一个，如今已在公司的 AI 视频生成与编辑平台 Flow 中提供。你当然仍然可以使用此前的 Veo 模型，但 Omni 在几个方面都比 Veo 更进一步。

借助 Omni，你可以上传一段视频，并将其与文本提示一起作为 AI 生成作品的起点。谷歌还声称，Omni 在生成视频时会融入更多现实世界知识，因此能够更好地让角色在整段视频中保持一致。要真正知道这些说法是否属实，只有一个办法：我把 AI Buddy 又请了回来，给他那只小小的 AI 生成行李打包，让他再去冒一次险。

[视频：Gemini Omni Deer Adventures Video]

结果好坏参半，离谱得让人困惑。有些效果非常好——比我五个月前测试 Veo 时更一致，也更符合我的提示词。但即便是 Omni 为我生成的最好片段，依然会出现某些 AI 惊吓时刻，比如 Buddy 在跳伞时突然改变朝向。

在另一段视频里，我给了 Omni 一些艺术自由。“制作一个蒙太奇，内容是 Buddy 打包行李准备去度假，并登上一艘游轮前往热带海岛。整体氛围要可爱、俏皮。Buddy 要把某个有趣的东西装进行李箱里，并在片段后面发挥作用。”它让 Buddy 装了一罐蜂蜜；到了视频后半段，他伸手去拿它，仿佛那是一瓶防晒霜。“哦不，”这个角色一边说，一边把蜂蜜挤到了自己的蹄子上。

说实话，这个点子倒不差。只是那瓶蜂蜜在整段视频里一直在变，一会儿是一个罐子，一会儿是装满水的透明挤压瓶，然后又变回装着蜂蜜的挤压瓶。至于视频最后一帧我是完全不知道模型是怎么想出来的——几乎就像它刚刚把自己生成的那一连串元素全都吐了出来一样。

[视频：Gemini Omni Buddy Vacation Video Demo]

你可以用基于文本的提示来建议对视频进行编辑，我得给谷歌一点信用：这在 Omni 上的效果确实比我测试 Veo 3 时更好。但 Veo 的结果本来就很糟——糟到我发现，每次想改点什么，直接从头提示生成一段新视频都容易得多。Omni 确实会采纳你的编辑意见，但结果并不总是令人满意。

我让它突出 Buddy 在度假片段里的面部反应，结果看起来怪得离谱。它有时还会给 Buddy 加上鹿角，而 Buddy 并没有鹿角。Buddy 还是个宝宝，谢谢。当我让它去掉某一场景里出现的鹿角时，它照做了——然后又在其他所有场景里都加上了鹿角。

问题是，这些都不是免费的。生成视频会消耗积分，依据场景长度以及你一开始提供的“素材”，每段视频需要 15 到 40 个积分不等。每一轮编辑要花 40 个积分。我订的是每月 20 美元的 AI Pro 方案，每个月附带 1,000 个积分。大约生成了 20 段视频、其中几段还做了几次编辑之后，我的积分就只剩 145 了。如果你对自己想让 Omni 生成什么样的视频有明确想法，那么为了让模型做出接近你设想的成品，你可能要和它进行很多次代价不菲的来回调整。

Omni 号称的优势之一，是能把 AI 生成的内容添加到真实视频里，所以我就暂且放过 Buddy，转而对自己做了深度伪造。我先拿一段表情中性的自拍视频作为起点，然后提示 Omni 生成我吃一盘意大利面、坐在飞机座位上，以及站在埃菲尔铁塔前咬一口法棍的视频。说真的，我完全没准备好面对我看到的结果。

我的这些深度伪造视频里有一些典型的 AI 痕迹。叉子碰到意面碗时发出的叮当声，显得有点过于“人为”。飞机视频背景里有个女人出现了两次。但除了这些小毛病，以及一种说不清道不明的诡异感之外，它们真的非常逼真。

[Media: https://www.threads.com/@allisonjo1/post/DYqIHEaAfAL?xmt=AQG0IrxpBj_uXzGemcHiJPqvilJHnK3H1nrj4DaVbYwt7w]

我把那段吃意面的片段给我丈夫看了；他知道我是在测试一款 AI 视频工具，但我没有告诉他这一幕里哪些部分是 AI 生成的。不知道其中哪些是 AI 生成的情况下，他相信我就是坐在镜头前吃意面，并说他唯一察觉不对劲的地方是那个碗看起来很陌生。就连吃意面这件事本身，看起来都足以骗过我丈夫。这个男人在过去十年里，几乎每天都在现实中看着我。

我的其他深度伪造片段，属于不同层级的“足以骗过社交媒体上的人”。几段埃菲尔铁塔的视频看起来有点卡通化，但其中有一段逼真到你可能得反复看几遍，才能意识到那是 AI 生成的。AI 版的我一转头，露出扎成马尾的头发时，我就知道那不是我。但我不确定别人会不会看出区别，而这让我感觉很怪。

说实话，我对这一切有点疲惫。我测试 Veo 3 时，曾对它能生成的真实感感到震惊。过去几年里，我一次又一次被看到用 AI 生成假照片、假人物这件事震惊。Omni 理论上也该让我震惊，我想我确实也被震到了，但那股冲击感已经没那么强了。

要制作一部由 AI 生成的电影级杰作，距离 Google 想让你相信的程度，其实还差得远。不过，Omni 确实在一些可辨识的方面改进了 Veo。如果你有一个 Google 账户和一张信用卡，那么你只需花极少的功夫，就能把一段自己坐在家里的视频做得像是在飞往毛伊岛的航班上。我不认为我们已经到了“奇点的山麓”，但我们肯定已经深陷恐怖谷。

本报道中的所有图片和视频均由 Google Gemini 生成。

来源与参考

收录于 2026-05-24