Cloudflare 为 AI 支出加入控制和身份预算
Cloudflare AI··作者 Kenny Johnson
关键信息
AI Gateway 本来就位于应用与 OpenAI、Anthropic、Google 等提供商之间,提供统一计费、请求日志、缓存、限流、内容护栏,以及在数据到达模型前拦截 PII 和密钥的能力。新的支出上限是按美元计算的真实预算,可按模型、提供商或用户、团队、应用等自定义属性设置,并支持按日、周、月的固定或滚动周期。
资讯摘要
Cloudflare 表示,许多公司在推动员工积极使用 AI 的同时,没有建立足够清晰的控制措施,因此 AI 成本正在失控。它看到的典型场景是,团队共用一个 API key,使用量迅速增长,最后财务拿到账单时却没人能解释钱花到了哪里。为了解决这个问题,Cloudflare 同时推出了两项相关能力:AI Gateway 的支出控制,以及基于 Cloudflare Access 和现有身份提供商的身份驱动预算与路由闭测。AI Gateway 本身充当应用与 AI 提供商之间的中间层,因此发往 OpenAI、Anthropic、Google 等服务的请求都可以在一个地方被观察和控制。
它已经提供统一计费、请求日志、缓存、限流、内容护栏,以及在模型处理前拦截 PII 和密钥的能力。过去的问题在于,AI Gateway 只能看到整体使用情况,却难以回答是谁在花钱,也难以真正限制 AI 支出。新的 spend limits 功能把预算直接做成美元额度,可以实时跟踪累计成本,并按模型、提供商、用户、团队或应用等维度进行范围控制。Cloudflare 还支持按天、按周或按月的固定周期,以及滚动周期,帮助运维和财务团队把 AI 使用纳入明确的预算政策。

资讯正文
眼下,全球没有哪个 CIO 不在担心 AI 支出。CFO 们也越来越紧张。
出于害怕落后的心理,许多公司一直在推动员工尽可能激进地使用 AI。指令很明确:“快速推进,账单以后再想办法。”在很大程度上,这样做确实奏效了:对于积极拥抱 AI 的团队来说,它确实带来了变革性的影响。
但成本也是真实存在的:我们听说过无数关于高额账单和 token 支出严重超支的惨痛故事。
今天,我们宣布在 Cloudflare AI Gateway 中推出支出控制功能,并开启一个闭门测试版,支持使用 Cloudflare Access 和你现有的身份提供商来进行基于身份的预算与路由控制。
在我们与数百家公司讨论他们的 AI 战略时,我们看到了一个很常见的故事:公司给每位工程师都通过一个共享 API key 访问前沿模型。使用量迅速飙升。到了月底,财务部拿到账单,却没人能解释钱花到哪里去了。是机器学习团队在训练新的 pipeline?是实习生用 Claude Opus 处理邮件分拣?还是某个失控的持续集成任务在一个周末烧掉了 5000 万个 token?没人知道,因为这个 API key 无法告诉你到底是谁在使用它。
如果没有明确指导,员工通常会去用当前能拿到的最大模型。为什么不呢?如果没有预算、没有可见性,也没有路由逻辑,那么理性的做法就是把最强大的模型用于一切任务。问题在于,大多数任务并不需要前沿模型。代码审查摘要不需要和复杂的架构重构用同一个模型。日志解析器不需要和面向客户的内容生成器用同一个模型。应该很容易为任务选择合适的工具,而不是默认使用最强、也最昂贵的那个工具。而且,查看支出流向也应该很简单。
如果看不到自己在花什么钱,就无法计算 AI 支出的 ROI;如果没有控制手段,也就无法保护这种 ROI。企业里的其他每一项支出都有预算和按团队归属的统计,AI 支出也不应该例外。
什么是 AI Gateway
AI Gateway 位于你的应用程序和 AI 提供商之间。你的请求不会直接发送给 OpenAI、Anthropic、Google 或任何其他提供商,而是先路由经过 AI Gateway。
这会立刻带来几项很有用的工具:
统一计费,便于在不同提供商和模型之间切换
跨所有提供商的日志记录——所有请求、token 数量和成本都集中在一个地方
响应缓存
限流
内容防护规则
以及在模型接收之前
拦截个人可识别信息(PII)和机密信息
不过,AI Gateway 之前还没有一种简单的方式来回答谁在花什么钱,或者你该如何为 AI 支出设置限制。
你能看到整个账号的总体使用情况。但你看不到工程团队里的 Jane 这个月在 Claude 上花了 2000 美元,而整个数据科学团队只花了 400 美元。你也无法设置这样的预算:“工程团队每月在前沿模型上的额度是 5000 美元,实习生每月在 Kimi K2.6 上的额度是 200 美元。”
而今天,这一点改变了。
支出限额:AI 使用预算
AI Gateway 现在将支出限额作为核心功能支持。与传统的限流不同,这是真正的成本控制措施,以美元而非 token 的形式设置预算,跟踪所有请求的累计支出,并且独立运行。
你可以将限额作用于任意维度组合:模型、提供商,或管理员定义的自定义属性,例如用户、团队或应用。时间窗口可以是固定的(在每月第一天、星期一或午夜重置)或滚动的,并且可以设置为每日、每周或每月。
AI Gateway 会根据模型的定价计算每次请求的成本,并实时跟踪相对于你限额的累计支出。你可以在我们的分析仪表板上轻松跟踪模型支出,并按模型、提供商或任何自定义属性进行筛选。
当达到预算上限时,你有多种处理方式。默认情况下,AI Gateway 会阻止后续请求。或者,你也可以通过 Dynamic Routes 设置规则,在达到支出限额后将请求路由到备用模型,这样硬性支出上限就不会打断工程师的工作流程。我们也在开发在达到限额时向你发送提醒的能力。
从今天开始,所有 AI Gateway 用户在所有套餐中都可以在开放测试版中使用支出限额。你可以在仪表板中的网关设置里配置它们,也可以通过 API 配置。
我们自己也在用
我们已经在 Cloudflare 内部跟踪 token 成本了。每位 Cloudflare 员工每天都在使用 AI 工具,通过 AI Gateway 每月路由数百万次请求和数十亿个 token。我们面临着每一家规模化公司都会遇到的同样问题:谁在使用什么,以及我们该如何为此预算?
我们的解决方案是让 AI Gateway 能够为每个请求添加身份信息。当员工通过 Cloudflare Access 进行身份验证时,我们会从 JSON Web Token(JWT)中提取他们的身份,并将其作为元数据附加到 AI Gateway 请求上。这样,每位用户的 token 消耗、团队级使用情况拆分,以及整个组织范围内的成本归属,都能在一个地方清晰可见。
基于身份的预算和策略(封闭测试版)
除了支出限额之外,我们今天还宣布推出基于身份的预算和策略,并以封闭测试版形式开放。
AI Gateway 中的支出限额允许你按模型、提供商或自定义属性设置预算。但你的应用必须传递这些元数据,而 AI Gateway 只会信任它收到的内容。要实现经过验证的自动归属,你需要身份信息。
当与 Cloudflare Access 结合使用时,AI Gateway 可以看到每个请求是谁发出的——不仅是哪个账户,还包括哪位员工、哪个身份提供商(IdP)组、哪个服务等等。
实际效果如下。
你可以设置按用户划分的预算,例如普通开发者每月 500 美元,资深工程师每月 2,000 美元。当用户达到其限额时,请求可以被降级到更便宜的模型,或者被阻止。
你可以按团队设置模型策略。例如,你的 ML 团队可以使用 Claude Opus 和 GPT-4o。品牌设计团队可以访问生成式图像和视频模型。实习生则在 Workers AI 上使用开源模型。这些策略会直接映射到你现有的 IdP 组,也就是你已经在管理的那些身份提供方组。
对于 CI/CD 流水线和自主代理,Access 服务令牌让你可以为每个代理分配一个有名称的身份。你可以看到,你的代码审查机器人本周使用了 500 万个 tokens,而你的文档生成器只用了 50 万个。如果某个代理运行失控,你可以对它单独应用预算策略,而不会影响其他任何代理。
每一条 AI Gateway 日志记录都会包含经过身份验证的身份信息:电子邮件、IdP 组、服务令牌名称。把这些导出到你的分析平台,你就能得到按用户、按团队划分的成本明细,而无需额外构建任何自定义功能。
在底层,你只需要为 AI Gateway 端点创建一个 Cloudflare Access 应用,并基于你的 IdP 组配置策略。当开发者或代理发起请求时,他们会通过 OAuth 进行身份验证,使用常见的 CLI device-code 流程。AI Gateway 会验证令牌并提取身份。你不需要编写自定义 Worker,不需要自己解析 JWT,也不必依赖凭信任传递的元数据头。
我们最近写过我们是如何构建内部 AI 工程栈的。今天我们把这套能力开放出来——这样你也可以直接使用,而不必自己从头搭建。
如果你想获得封闭测试资格,请在这里注册。
接下来:从成本控制到成本优化
设置预算是必要的。但一旦你有了预算,如何让它发挥最大价值?
现实情况是,并非每个请求都需要前沿模型:摘要任务可以在更小、更便宜的模型上运行,而不会显著损失质量;但大规模代码重构可能就需要最先进的模型。不过如果没有控制措施,人们几乎总会选择最先进的模型。
下一步的解决方案即将到来:我们正在 AI Gateway 中构建智能的、基于任务的路由。对于每个请求,我们都可以分析并自动将其路由到能以最低成本提供最佳结果的模型。这一功能仍在积极开发中,因此请关注我们的开发者文档和更新日志。
开始使用
AI Gateway 现在可以免费开始使用。所有用户都已可以使用支出限额功能。
如果你还没有创建,请创建一个 gateway,并将你的应用指向它。从那里开始,你可以在控制面板中或通过 API 设置支出限额。建议先以较高的限额并启用监控模式开始,以便在开始强制执行之前了解你当前的使用模式。
如果你希望获得按用户归因以及基于团队的策略,请注册身份驱动预算的封闭测试版,我们会帮你接入 Access 集成。
我们想听听你今天是如何管理 AI 成本的。欢迎在 Cloudflare Community 加入讨论,或者联系我们,讨论你更广泛的 AI 安全策略。
来源与参考
收录于 2026-06-06