Google推出Gemini Omni视频模型

The Verge AI··作者 Allison Johnson

关键信息

根据这篇上手体验,Omni可以把上传的视频和文字提示一起作为生成起点,Google还声称它比Veo更懂现实世界,并且更能保持角色一致性。文章同时指出,编辑功能确实比以前更好,但结果仍会出现明显的AI痕迹,例如方向突然变化、物体前后不一致,以及结尾画面很怪。

资讯摘要

The Verge 通过一项轻松的深度伪造实验测试了 Google 新的 Gemini Omni 模型家族,实验对象是一只名叫 Buddy 的毛绒鹿。文中把 Omni 描述为一组未来可能在多种媒体形式之间互相转换的生成式模型,但目前首个版本 Omni Flash 主要用于 Google Flow 平台中的视频生成。Google 表示,Omni 可以把上传的视频和文字提示一起作为输入,并且相比 Veo,它在现实世界理解和角色一致性方面更强。实际测试结果则喜忧参半:有些片段比之前测试 Veo 时更连贯,也更贴近提示词,但另一些片段仍然出现明显的 AI 失真。比如 Buddy 在跳伞时会突然改变朝向,另一个视频里模型还会把蜂蜜罐不断变成不同的容器。

Omni 的文字编辑能力确实比 Veo 3 更好,但依然不够稳定,还会出现不该有的变化,例如角色身上突然长出鹿角。作者要求模型移除鹿角后,它虽然在一个场景里删掉了鹿角,却在其他场景里又加了回去。文章还指出,Omni 并不是免费使用的,因为视频生成会按片段长度和“素材”消耗不同数量的积分,而编辑一次要花更多积分。作者在生成大约 20 个片段并做了几次编辑后,$20 的 AI Pro 订阅所包含的 1,000 积分已经所剩无几。

Google推出Gemini Omni视频模型

资讯正文

去年,我给孩子的毛绒玩具做了深度伪造,让他那只毛绒小鹿看起来像是在度假。

那次实验是为了看看我能否重现谷歌当时投放的一则 Gemini 广告里描绘的情节,而我从来没有把小鹿 Buddy 的冒险视频给我四岁的孩子看过。不过,这个尝试很有启发性,让我认真思考了生成式 AI 中一些无伤大雅的玩乐与彻头彻尾的垃圾内容之间的区别。也许那个维恩图就是一个完美的圆!也可能不是。但我可以肯定的是,用来制作逼真视频的工具好得惊人,而且所需的功夫和专业知识少得惊人。而这一趋势正在 Gemini 的 Omni 时代持续升温。

Omni 是一套新的生成式模型家族,据称总有一天可以把任何一种输入——照片、视频、文本——转换成其他任何形式。但就目前而言,它做的还是视频生成。Omni Flash 是谷歌发布的这套模型中的第一个,如今已在公司的 AI 视频生成与编辑平台 Flow 中提供。你当然仍然可以使用此前的 Veo 模型,但 Omni 在几个方面都比 Veo 更进一步。

借助 Omni,你可以上传一段视频,并将其与文本提示一起作为 AI 生成作品的起点。谷歌还声称,Omni 在生成视频时会融入更多现实世界知识,因此能够更好地让角色在整段视频中保持一致。要真正知道这些说法是否属实,只有一个办法:我把 AI Buddy 又请了回来,给他那只小小的 AI 生成行李打包,让他再去冒一次险。

[视频:Gemini Omni Deer Adventures Video]

结果好坏参半,离谱得让人困惑。有些效果非常好——比我五个月前测试 Veo 时更一致,也更符合我的提示词。但即便是 Omni 为我生成的最好片段,依然会出现某些 AI 惊吓时刻,比如 Buddy 在跳伞时突然改变朝向。

在另一段视频里,我给了 Omni 一些艺术自由。“制作一个蒙太奇,内容是 Buddy 打包行李准备去度假,并登上一艘游轮前往热带海岛。整体氛围要可爱、俏皮。Buddy 要把某个有趣的东西装进行李箱里,并在片段后面发挥作用。”它让 Buddy 装了一罐蜂蜜;到了视频后半段,他伸手去拿它,仿佛那是一瓶防晒霜。“哦不,”这个角色一边说,一边把蜂蜜挤到了自己的蹄子上。

说实话,这个点子倒不差。只是那瓶蜂蜜在整段视频里一直在变,一会儿是一个罐子,一会儿是装满水的透明挤压瓶,然后又变回装着蜂蜜的挤压瓶。至于视频最后一帧我是完全不知道模型是怎么想出来的——几乎就像它刚刚把自己生成的那一连串元素全都吐了出来一样。

[视频:Gemini Omni Buddy Vacation Video Demo]

你可以用基于文本的提示来建议对视频进行编辑,我得给谷歌一点信用:这在 Omni 上的效果确实比我测试 Veo 3 时更好。但 Veo 的结果本来就很糟——糟到我发现,每次想改点什么,直接从头提示生成一段新视频都容易得多。Omni 确实会采纳你的编辑意见,但结果并不总是令人满意。

我让它突出 Buddy 在度假片段里的面部反应,结果看起来怪得离谱。它有时还会给 Buddy 加上鹿角,而 Buddy 并没有鹿角。Buddy 还是个宝宝,谢谢。 当我让它去掉某一场景里出现的鹿角时,它照做了——然后又在其他所有场景里都加上了鹿角。

问题是,这些都不是免费的。生成视频会消耗积分,依据场景长度以及你一开始提供的“素材”,每段视频需要 15 到 40 个积分不等。每一轮编辑要花 40 个积分。我订的是每月 20 美元的 AI Pro 方案,每个月附带 1,000 个积分。大约生成了 20 段视频、其中几段还做了几次编辑之后,我的积分就只剩 145 了。如果你对自己想让 Omni 生成什么样的视频有明确想法,那么为了让模型做出接近你设想的成品,你可能要和它进行很多次代价不菲的来回调整。

Omni 号称的优势之一,是能把 AI 生成的内容添加到真实视频里,所以我就暂且放过 Buddy,转而对自己做了深度伪造。 我先拿一段表情中性的自拍视频作为起点,然后提示 Omni 生成我吃一盘意大利面、坐在飞机座位上,以及站在埃菲尔铁塔前咬一口法棍的视频。说真的,我完全没准备好面对我看到的结果。

我的这些深度伪造视频里有一些典型的 AI 痕迹。叉子碰到意面碗时发出的叮当声,显得有点过于“人为”。飞机视频背景里有个女人出现了两次。但除了这些小毛病,以及一种说不清道不明的诡异感之外,它们真的非常逼真。

[Media: https://www.threads.com/@allisonjo1/post/DYqIHEaAfAL?xmt=AQG0IrxpBj_uXzGemcHiJPqvilJHnK3H1nrj4DaVbYwt7w]

我把那段吃意面的片段给我丈夫看了;他知道我是在测试一款 AI 视频工具,但我没有告诉他这一幕里哪些部分是 AI 生成的。不知道其中哪些是 AI 生成的情况下,他相信我就是坐在镜头前吃意面,并说他唯一察觉不对劲的地方是那个碗看起来很陌生。就连吃意面这件事本身,看起来都足以骗过我丈夫。这个男人在过去十年里,几乎每天都在现实中看着我。

我的其他深度伪造片段,属于不同层级的“足以骗过社交媒体上的人”。几段埃菲尔铁塔的视频看起来有点卡通化,但其中有一段逼真到你可能得反复看几遍,才能意识到那是 AI 生成的。AI 版的我一转头,露出扎成马尾的头发时,我就知道那不是我。但我不确定别人会不会看出区别,而这让我感觉很怪。

说实话,我对这一切有点疲惫。我测试 Veo 3 时,曾对它能生成的真实感感到震惊。过去几年里,我一次又一次被看到用 AI 生成假照片、假人物这件事震惊。Omni 理论上也该让我震惊,我想我确实也被震到了,但那股冲击感已经没那么强了。

要制作一部由 AI 生成的电影级杰作,距离 Google 想让你相信的程度,其实还差得远。不过,Omni 确实在一些可辨识的方面改进了 Veo。如果你有一个 Google 账户和一张信用卡,那么你只需花极少的功夫,就能把一段自己坐在家里的视频做得像是在飞往毛伊岛的航班上。我不认为我们已经到了“奇点的山麓”,但我们肯定已经深陷恐怖谷。

本报道中的所有图片和视频均由 Google Gemini 生成。

来源与参考

  1. 原始链接
  2. Google’s new anything-to-anything AI model is wild

收录于 2026-05-24