谷歌推出Gemini API的Flex和Priority服务层级
Google AI Blog··作者 Hussein Hassan Harrirou
关键信息
Flex层级适用于所有付费套餐,并支持GenerateContent和Interactions API请求;Priority层级需Tier 2或3项目,溢出流量会自动降级至Standard层级而非失败。
资讯摘要
谷歌在Gemini API中引入Flex和Priority推理层级,以解决不同AI任务在成本与可靠性之间平衡的问题。Flex专为背景任务(如CRM更新或大规模模拟)设计,提供50%的成本降低,虽然延迟可变但保持同步调用的简便性——无需管理批处理作业。Priority针对关键应用(如实时客服机器人),即使在高峰时段也保证最高可靠性,并在超出限额时自动降级到Standard层级而非失败。
两个层级均使用相同的接口,无需复杂的异步逻辑。开发者只需设置service_tier参数即可按需路由流量。这种做法简化了生产部署,优化了对成本敏感和性能关键任务的资源分配。

资讯正文
新的方式来平衡 Gemini API 的成本与可靠性
今天,我们为 Gemini API 新增了两个服务层级:Flex 和 Priority。这些新选项通过一个统一的界面,让您对成本和可靠性实现更精细的控制。
随着人工智能从简单的聊天演变为复杂的自主代理,开发者通常需要管理两种不同类型的任务逻辑:
- 后台任务:高吞吐量的工作流,例如数据增强或“思考”过程,不需要即时响应。
- 交互式任务:面向用户的特性,如聊天机器人和协作者,对高可靠性有要求。
直到现在,同时支持这两种类型意味着要在标准同步服务和异步 Batch API 之间拆分架构。Flex 和 Priority 帮助弥合这一差距。现在您可以将后台任务路由到 Flex,将交互任务路由到 Priority,两者都使用标准的同步端点。这消除了异步任务管理的复杂性,同时带来专用层级的经济性和性能优势。
Flex 推理:以 50% 的成本实现创新扩展
Flex 推理是我们全新的成本优化层级,专为可容忍延迟的工作负载设计,无需批量处理的开销。
- 成本降低 50%:通过降低请求的重要程度(使其可靠性下降并增加延迟),您只需支付标准 API 价格的一半。
- 同步简单易用:与 Batch API 不同,Flex 是同步接口。您使用相同的熟悉端点,无需管理输入/输出文件或轮询作业完成状态。
- 最佳应用场景:后台 CRM 更新、大规模研究模拟以及代理工作流,其中模型在后台进行“浏览”或“思考”。
只需在请求中配置 service_tier 参数即可快速开始使用。
Flex 层级适用于所有付费层级,并可用于 GenerateContent 和 Interactions API 请求。
Priority 推理:关键应用的最高可靠性
新的 Priority 推理层级提供最高级别的保障,价格略高。这确保即使在平台使用高峰期,您的重要流量也不会被抢占。
- 最高优先级:Priority 请求获得最高优先级,即使在高峰负载下也能保持高可靠性。
- 平滑降级:如果您的流量超出 Priority 限制,溢出请求会自动切换到 Standard 层级而非失败。这样可以保证您的应用在线运行,有助于业务连续性。
- 响应透明:API 响应会明确指出是哪个层级处理了您的请求,让您全面掌握性能和计费情况。
- 最佳应用场景:实时客户支持机器人、实时内容审核流水线和时间敏感型请求。
要使用 Priority 推理,请相应地设置 service_tier 参数。
Priority 推理适用于 Tier 2 / 3 付费项目的用户,可在 `GenerateContent` API 和 Interactions API 端点上使用。
访问 Gemini API 文档查看完整的定价明细,并立即开始优化您的生产层级。如需实际演示,可参考菜谱部分获取可运行的代码示例。
来源与参考
收录于 2026-04-03