谷歌推出快速图像与视频生成 API

The Decoder··作者 Matthias Bastian

关键信息

Nano Banana 2 Lite 在 API 中的名称是 gemini-3.1-flash-lite-image,谷歌表示它强调速度、提示词遵循、一致的人物形象和可读文字。Gemini Omni Flash 的输出价格为每秒 0.10 美元,支持文本、图片和视频输入,但目前仍有一些限制,包括只能生成十秒短片、暂不支持音频参考或场景扩展,而且对视频参考的处理还不够完善。

资讯摘要

谷歌发布了两款面向开发者的生成式 AI 新模型:Nano Banana 2 Lite 用于快速生成图像,Gemini Omni Flash 用于视频生成和编辑。Nano Banana 2 Lite 的文本生成图像大约只需四秒,1K 分辨率下每张成本为 0.034 美元,因此适合高吞吐量和低成本工作流。在 API 中,这个模型的名称是 gemini-3.1-flash-lite-image。谷歌表示,尽管它主打速度,但仍能保持较好的提示词遵循、角色一致性以及图中文字可读性。该模型也正在进入谷歌的消费级产品,包括 Search 的 AI Mode、Gemini 应用、NotebookLM、Google Photos、Stitch、Google Flow 和 Google Ads。

谷歌将 Nano Banana 2 Lite 归入一个三模型的 Nano Banana 家族。Nano Banana 2 对应 Gemini 3.1 Flash Image,定位为兼顾质量和成本的通用模型;Nano Banana Pro 对应 Gemini 3(.1) Pro Image,面向更复杂的专业场景,并提供最强的控制能力和更高级的推理能力。谷歌把最早的 Nano Banana,即 Gemini 2.5 Flash Image,视为已经过时。这样一来,开发者就可以根据任务在速度、成本和质量之间进行选择。

Gemini Omni Flash 现在已经可以通过 Gemini API 和 Google AI Studio 使用,此前它曾在 Google I/O 上展示。谷歌称它结合了 Gemini 的多模态推理能力与视频生成能力,可通过自然语言进行视频编辑,价格为每秒 0.10 美元,与 Veo 3.1 Fast 持平。该模型支持文本、图片和视频等多种输入形式,并且可以把文字和图形直接同步到视频动作中。

不过,这个视频模型目前仍有明显限制。Gemini Omni Flash 现在只能生成 10 秒短片,API 中还不支持音频参考和场景扩展。API 结构虽然接受最长三秒的视频参考,但谷歌表示模型对这类输入的处理目前还不正确。角色在场景切换或镜头运动中的一致性也仍然有限。

谷歌建议把这两款模型串联起来使用,以获得更好的效果。开发者可以先用 Nano Banana 2 Lite 生成图像,再把这些图像作为参考交给 Gemini Omni Flash,把静态画面动画化成视频。谷歌表示,作为默认 AI API 的 Interactions API 可以保留会话历史和上下文,并支持连续三次编辑。为了演示这一流程,谷歌提供了三个示例应用:Anywhere 可以用自拍把用户放到著名地标并生成动画效果;Space Lift 可以把房间照片转化为室内设计概念和视频;Omni Product Studio 可以把静态商品图转换成电商视频。谷歌还表示,这两款模型都会使用 SynthID 水印来标记 AI 生成内容。

谷歌推出快速图像与视频生成 API

资讯正文

谷歌推出 Nano Banana 2 Lite,用于快速生成 AI 图像;同时通过 API 推出 Gemini Omni Flash,可用于视频生成

要点

- 谷歌发布了两款新的生成式 AI 模型。Nano Banana 2 Lite 可在四秒内生成图像,1K 分辨率下每张图片成本为 0.034 美元。

- Gemini Omni Flash 让开发者首次能够通过 API,用文本提示生成和编辑最长 10 秒的视频,输出成本为每秒 0.10 美元。

- 谷歌建议将这两个模型串联使用,这样开发者可以先用 Nano Banana 2 Lite 生成图像,再用 Gemini Omni Flash 将其动画化为视频。

谷歌发布了两款新的生成式 AI 模型。Nano Banana 2 Lite 可在四秒内生成图像,成本只是原来的一小部分。Gemini Omni Flash 则首次通过 API 开放了基于文本提示的视频生成和编辑功能。

Nano Banana 2 Lite 可在四秒内生成图像

谷歌表示,Nano Banana 2 Lite 是为快速构思和高吞吐量开发者流水线打造的。文本生成图像耗时四秒,1K 分辨率下每张图片仅需 0.034 美元。这个新的图像模型在 API 中的名称为 gemini-3.1-flash-lite-image。

尽管主打速度,谷歌表示 Nano Banana 2 Lite 仍然具备可靠的提示词遵循能力、稳定的人物一致性表现,以及在生成图像中可读的文字。除了开发者平台之外,这款模型也在谷歌的消费级产品中逐步上线,包括 Google Search 中的 AI Mode、Gemini 应用、NotebookLM、Google Photos、Stitch、Google Flow 和 Google Ads。

Nano Banana 2 Lite 让 Nano Banana 家族扩展到三款生产级模型。谷歌将 Nano Banana 2(Gemini 3.1 Flash Image)定位为全能型产品,在质量和成本之间实现最佳平衡。Nano Banana Pro(Gemini 3(.1) Pro Image)面向复杂的专业场景,提供谷歌所称的最强控制能力和最先进的推理能力。

Nano Banana 模型家族对比表。| 图片:Google开发者可以根据自己更需要速度、质量还是低成本来选择合适的模型。谷歌认为最初的 Nano Banana(Gemini 2.5 Flash Image)已经过时。我们自己目前仍主要使用 Nano Banana Pro,因为它的图像质量和提示词可靠性往往优于 Nano Banana 2 和 OpenAI 的 GPT-Image-2。

Gemini Omni Flash 将视频生成带入 API

Gemini Omni Flash 最早在 Google I/O 上亮相,如今已可通过 Gemini API 和 Google AI Studio 提供给开发者。该模型将 Gemini 的多模态推理与视频生成和编辑能力结合在一起。定价为每秒 0.10 美元的视频输出,与 Veo 3.1 Fast 持平。

谷歌表示,这款模型的优势在于可以通过自然语言进行对话式视频编辑,能够混合文本、图片和视频等输入格式,并借助 Gemini 的世界知识来进行生成。文本和图形可以与视频动作直接同步。

Gemini Omni Flash 目前只能生成 10 秒短片。API 目前还不支持音频参考和场景延展。API schema 虽然接受最长 3 秒的视频参考,但谷歌表示该模型目前还无法正确处理这些参考。跨场景切换或镜头运动时保持角色一致性方面也仍然有限。

Google 建议将这两个模型串联起来使用。

Google 认为,将这两个模型结合使用能带来最大的收益。开发者可以先用 Nano Banana 2 Lite 快速生成图像,再将这些图像作为参考传给 Gemini Omni Flash,由后者把它们动画化为视频。Interactions API 现在已成为 Google 的默认 AI API,它会保留会话历史和上下文,支持最多三次连续编辑。

Google 提供了三个演示应用,展示这些模型如何协同工作。“Anywhere” 可通过自拍把用户放到著名地标中,并将结果动画化。“Space Lift” 会根据房间照片生成室内设计概念,并将其转化为视频。“Omni Product Studio” 则把静态产品图像转换为电商视频。

据 Google 介绍,这两个模型都使用 SynthID 水印来标记 AI 生成内容。用户可通过 Gemini 应用、Chrome 中的 Gemini,或 Google Search 进行验证。Nano Banana 2 Lite 和 Gemini Omni Flash 目前已可在 Google AI Studio、Gemini API 和 Google Enterprise Agent Platform 中使用。

来源与参考

  1. 原始链接
  2. Google introduces a faster, cheaper image generator with Nano Banana 2 Lite | TechCrunch
  3. Google launches Nano Banana 2 Lite for fast AI images and Gemini Omni Flash for video via API
  4. Start building with Nano Banana 2 Lite and Gemini Omni Flash

收录于 2026-07-01