谷歌推出Gemini API的Flex和Priority服务层级

Google AI Blog·4月3日 00:00 UTC·作者 Hussein Hassan Harrirou

关键信息

Flex层级适用于所有付费套餐，并支持GenerateContent和Interactions API请求；Priority层级需Tier 2或3项目，溢出流量会自动降级至Standard层级而非失败。

资讯摘要

谷歌在Gemini API中引入Flex和Priority推理层级，以解决不同AI任务在成本与可靠性之间平衡的问题。Flex专为背景任务（如CRM更新或大规模模拟）设计，提供50%的成本降低，虽然延迟可变但保持同步调用的简便性——无需管理批处理作业。Priority针对关键应用（如实时客服机器人），即使在高峰时段也保证最高可靠性，并在超出限额时自动降级到Standard层级而非失败。

两个层级均使用相同的接口，无需复杂的异步逻辑。开发者只需设置service_tier参数即可按需路由流量。这种做法简化了生产部署，优化了对成本敏感和性能关键任务的资源分配。

资讯正文

新的方式来平衡 Gemini API 的成本与可靠性

今天，我们为 Gemini API 新增了两个服务层级：Flex 和 Priority。这些新选项通过一个统一的界面，让您对成本和可靠性实现更精细的控制。

随着人工智能从简单的聊天演变为复杂的自主代理，开发者通常需要管理两种不同类型的任务逻辑：

- 后台任务：高吞吐量的工作流，例如数据增强或“思考”过程，不需要即时响应。

- 交互式任务：面向用户的特性，如聊天机器人和协作者，对高可靠性有要求。

直到现在，同时支持这两种类型意味着要在标准同步服务和异步 Batch API 之间拆分架构。Flex 和 Priority 帮助弥合这一差距。现在您可以将后台任务路由到 Flex，将交互任务路由到 Priority，两者都使用标准的同步端点。这消除了异步任务管理的复杂性，同时带来专用层级的经济性和性能优势。

Flex 推理：以 50% 的成本实现创新扩展

Flex 推理是我们全新的成本优化层级，专为可容忍延迟的工作负载设计，无需批量处理的开销。

- 成本降低 50%：通过降低请求的重要程度（使其可靠性下降并增加延迟），您只需支付标准 API 价格的一半。

- 同步简单易用：与 Batch API 不同，Flex 是同步接口。您使用相同的熟悉端点，无需管理输入/输出文件或轮询作业完成状态。

- 最佳应用场景：后台 CRM 更新、大规模研究模拟以及代理工作流，其中模型在后台进行“浏览”或“思考”。

只需在请求中配置 service_tier 参数即可快速开始使用。

Flex 层级适用于所有付费层级，并可用于 GenerateContent 和 Interactions API 请求。

Priority 推理：关键应用的最高可靠性

新的 Priority 推理层级提供最高级别的保障，价格略高。这确保即使在平台使用高峰期，您的重要流量也不会被抢占。

- 最高优先级：Priority 请求获得最高优先级，即使在高峰负载下也能保持高可靠性。

- 平滑降级：如果您的流量超出 Priority 限制，溢出请求会自动切换到 Standard 层级而非失败。这样可以保证您的应用在线运行，有助于业务连续性。

- 响应透明：API 响应会明确指出是哪个层级处理了您的请求，让您全面掌握性能和计费情况。

- 最佳应用场景：实时客户支持机器人、实时内容审核流水线和时间敏感型请求。

要使用 Priority 推理，请相应地设置 service_tier 参数。

Priority 推理适用于 Tier 2 / 3 付费项目的用户，可在 `GenerateContent` API 和 Interactions API 端点上使用。

访问 Gemini API 文档查看完整的定价明细，并立即开始优化您的生产层级。如需实际演示，可参考菜谱部分获取可运行的代码示例。

来源与参考

收录于 2026-04-03