谷歌推出快速图像与视频生成 API

The Decoder·7月1日 01:17 UTC·作者 Matthias Bastian

关键信息

Nano Banana 2 Lite 在 API 中的名称是 gemini-3.1-flash-lite-image，谷歌表示它强调速度、提示词遵循、一致的人物形象和可读文字。Gemini Omni Flash 的输出价格为每秒 0.10 美元，支持文本、图片和视频输入，但目前仍有一些限制，包括只能生成十秒短片、暂不支持音频参考或场景扩展，而且对视频参考的处理还不够完善。

资讯摘要

谷歌发布了两款面向开发者的生成式 AI 新模型：Nano Banana 2 Lite 用于快速生成图像，Gemini Omni Flash 用于视频生成和编辑。Nano Banana 2 Lite 的文本生成图像大约只需四秒，1K 分辨率下每张成本为 0.034 美元，因此适合高吞吐量和低成本工作流。在 API 中，这个模型的名称是 gemini-3.1-flash-lite-image。谷歌表示，尽管它主打速度，但仍能保持较好的提示词遵循、角色一致性以及图中文字可读性。该模型也正在进入谷歌的消费级产品，包括 Search 的 AI Mode、Gemini 应用、NotebookLM、Google Photos、Stitch、Google Flow 和 Google Ads。

谷歌将 Nano Banana 2 Lite 归入一个三模型的 Nano Banana 家族。Nano Banana 2 对应 Gemini 3.1 Flash Image，定位为兼顾质量和成本的通用模型；Nano Banana Pro 对应 Gemini 3(.1) Pro Image，面向更复杂的专业场景，并提供最强的控制能力和更高级的推理能力。谷歌把最早的 Nano Banana，即 Gemini 2.5 Flash Image，视为已经过时。这样一来，开发者就可以根据任务在速度、成本和质量之间进行选择。

Gemini Omni Flash 现在已经可以通过 Gemini API 和 Google AI Studio 使用，此前它曾在 Google I/O 上展示。谷歌称它结合了 Gemini 的多模态推理能力与视频生成能力，可通过自然语言进行视频编辑，价格为每秒 0.10 美元，与 Veo 3.1 Fast 持平。该模型支持文本、图片和视频等多种输入形式，并且可以把文字和图形直接同步到视频动作中。

不过，这个视频模型目前仍有明显限制。Gemini Omni Flash 现在只能生成 10 秒短片，API 中还不支持音频参考和场景扩展。API 结构虽然接受最长三秒的视频参考，但谷歌表示模型对这类输入的处理目前还不正确。角色在场景切换或镜头运动中的一致性也仍然有限。

谷歌建议把这两款模型串联起来使用，以获得更好的效果。开发者可以先用 Nano Banana 2 Lite 生成图像，再把这些图像作为参考交给 Gemini Omni Flash，把静态画面动画化成视频。谷歌表示，作为默认 AI API 的 Interactions API 可以保留会话历史和上下文，并支持连续三次编辑。为了演示这一流程，谷歌提供了三个示例应用：Anywhere 可以用自拍把用户放到著名地标并生成动画效果；Space Lift 可以把房间照片转化为室内设计概念和视频；Omni Product Studio 可以把静态商品图转换成电商视频。谷歌还表示，这两款模型都会使用 SynthID 水印来标记 AI 生成内容。

资讯正文

谷歌推出 Nano Banana 2 Lite，用于快速生成 AI 图像；同时通过 API 推出 Gemini Omni Flash，可用于视频生成

要点

- 谷歌发布了两款新的生成式 AI 模型。Nano Banana 2 Lite 可在四秒内生成图像，1K 分辨率下每张图片成本为 0.034 美元。

- Gemini Omni Flash 让开发者首次能够通过 API，用文本提示生成和编辑最长 10 秒的视频，输出成本为每秒 0.10 美元。

- 谷歌建议将这两个模型串联使用，这样开发者可以先用 Nano Banana 2 Lite 生成图像，再用 Gemini Omni Flash 将其动画化为视频。

谷歌发布了两款新的生成式 AI 模型。Nano Banana 2 Lite 可在四秒内生成图像，成本只是原来的一小部分。Gemini Omni Flash 则首次通过 API 开放了基于文本提示的视频生成和编辑功能。

Nano Banana 2 Lite 可在四秒内生成图像

谷歌表示，Nano Banana 2 Lite 是为快速构思和高吞吐量开发者流水线打造的。文本生成图像耗时四秒，1K 分辨率下每张图片仅需 0.034 美元。这个新的图像模型在 API 中的名称为 gemini-3.1-flash-lite-image。

尽管主打速度，谷歌表示 Nano Banana 2 Lite 仍然具备可靠的提示词遵循能力、稳定的人物一致性表现，以及在生成图像中可读的文字。除了开发者平台之外，这款模型也在谷歌的消费级产品中逐步上线，包括 Google Search 中的 AI Mode、Gemini 应用、NotebookLM、Google Photos、Stitch、Google Flow 和 Google Ads。

Nano Banana 2 Lite 让 Nano Banana 家族扩展到三款生产级模型。谷歌将 Nano Banana 2（Gemini 3.1 Flash Image）定位为全能型产品，在质量和成本之间实现最佳平衡。Nano Banana Pro（Gemini 3(.1) Pro Image）面向复杂的专业场景，提供谷歌所称的最强控制能力和最先进的推理能力。

Nano Banana 模型家族对比表。| 图片：Google开发者可以根据自己更需要速度、质量还是低成本来选择合适的模型。谷歌认为最初的 Nano Banana（Gemini 2.5 Flash Image）已经过时。我们自己目前仍主要使用 Nano Banana Pro，因为它的图像质量和提示词可靠性往往优于 Nano Banana 2 和 OpenAI 的 GPT-Image-2。

Gemini Omni Flash 将视频生成带入 API

Gemini Omni Flash 最早在 Google I/O 上亮相，如今已可通过 Gemini API 和 Google AI Studio 提供给开发者。该模型将 Gemini 的多模态推理与视频生成和编辑能力结合在一起。定价为每秒 0.10 美元的视频输出，与 Veo 3.1 Fast 持平。

谷歌表示，这款模型的优势在于可以通过自然语言进行对话式视频编辑，能够混合文本、图片和视频等输入格式，并借助 Gemini 的世界知识来进行生成。文本和图形可以与视频动作直接同步。

Gemini Omni Flash 目前只能生成 10 秒短片。API 目前还不支持音频参考和场景延展。API schema 虽然接受最长 3 秒的视频参考，但谷歌表示该模型目前还无法正确处理这些参考。跨场景切换或镜头运动时保持角色一致性方面也仍然有限。

Google 建议将这两个模型串联起来使用。

Google 认为，将这两个模型结合使用能带来最大的收益。开发者可以先用 Nano Banana 2 Lite 快速生成图像，再将这些图像作为参考传给 Gemini Omni Flash，由后者把它们动画化为视频。Interactions API 现在已成为 Google 的默认 AI API，它会保留会话历史和上下文，支持最多三次连续编辑。

Google 提供了三个演示应用，展示这些模型如何协同工作。“Anywhere” 可通过自拍把用户放到著名地标中，并将结果动画化。“Space Lift” 会根据房间照片生成室内设计概念，并将其转化为视频。“Omni Product Studio” 则把静态产品图像转换为电商视频。

据 Google 介绍，这两个模型都使用 SynthID 水印来标记 AI 生成内容。用户可通过 Gemini 应用、Chrome 中的 Gemini，或 Google Search 进行验证。Nano Banana 2 Lite 和 Gemini Omni Flash 目前已可在 Google AI Studio、Gemini API 和 Google Enterprise Agent Platform 中使用。

来源与参考

收录于 2026-07-01