Cloudflare推出统一AI推理层以支持智能体应用

Cloudflare AI·4月16日 22:00 UTC·作者 Michelle Chen

关键信息

该平台通过`AI.run()`绑定实现一行代码切换模型（如从Cloudflare托管模型切换到OpenAI），支持图像、视频和语音等多模态模型，并可通过自定义元数据（如团队ID或用户ID）进行费用细分。

资讯摘要

Cloudflare新推出的AI平台引入了一个专为AI智能体设计的统一推理层，这些智能体通常需要串联多个模型调用来完成任务。与每次提示仅调用一次模型的简单聊天机器人不同，智能体可能串联十次甚至更多请求——这使得延迟和可靠性变得至关重要。该平台让开发者可以通过单一API端点访问来自OpenAI、Anthropic、Google等超过70个模型。

它还提供集中式成本监控、失败时的自动重试功能，以及通过自定义元数据实现的详细支出分析。开发者也可以上传自己的模型。随着模型快速迭代，且没有单一提供商能覆盖所有场景，这一能力尤为重要。

资讯正文

AI模型正在快速演变：今天用于代理编程的最佳模型，三个月后可能变成来自不同提供商的完全不同的模型。此外，现实世界的应用场景通常需要调用多个模型。你的客户支持代理可能会使用一个快速且廉价的模型来分类用户消息；用一个大型推理模型来规划行动；再用一个轻量级模型来执行具体任务。

这意味着你需要能够访问所有模型，而不必在财务和运营上绑定到单一提供商。你还需建立合适的系统，以监控跨提供商的成本、确保当某个提供商出现故障时仍能保持可靠性，并且无论用户身处何地都能控制延迟。

这些挑战在构建任何AI应用时都存在，但在开发代理时尤为突出。一个简单的聊天机器人可能每条用户提示只进行一次推理调用，而一个代理可能将十次调用串联起来完成一项任务，此时，单个慢速提供商带来的延迟不再是50毫秒，而是500毫秒。一次请求失败也不只是重试一次，而是可能导致下游一系列连锁故障。

自推出AI网关（AI Gateway）和Workers AI以来，我们看到开发者在Cloudflare上构建AI驱动应用时表现出极大的兴趣，我们也一直在快速迭代以满足需求！仅在过去几个月里，我们就更新了仪表板，新增了无需配置的默认网关、上游失败时自动重试功能以及更细粒度的日志控制。现在，我们将Cloudflare打造为统一的推理层：通过一个API即可访问任意提供商的任意AI模型，设计目标是快速且可靠。

一个目录，一个统一端点

从今天起，你可以使用已用于Workers AI的相同AI.run()绑定调用第三方模型。如果你正在使用Workers，只需一行代码就能从Cloudflare托管的模型切换到OpenAI、Anthropic或其他提供商的模型。

const response = await env.AI.run('anthropic/claude-opus-4-6', {

input: 'What is Cloudflare?',

}, {

gateway: { id: "default" },

});

对于不使用Workers的用户，我们将在未来几周内推出REST API支持，让你可以从任何环境中访问完整的模型目录。

我们还很高兴地宣布，你现在可以访问超过70个模型，涵盖12家以上的提供商——全部通过一个API、一行代码即可切换，并且使用一套积分支付费用。随着我们的持续扩展，这个数量还会快速增长。

你可以浏览我们的模型目录，找到最适合你应用场景的模型，包括托管在Cloudflare Workers AI上的开源模型，以及来自主要模型提供商的专有模型。我们很高兴将阿里巴巴云、AssemblyAI、字节跳动、谷歌、InWorld、MiniMax、OpenAI、Pixverse、Recraft、Runway和Vidu等厂商的模型纳入AI网关——它们将通过AI网关提供模型。特别值得一提的是，我们正在扩展模型种类，加入图像、视频和语音模型，以便你能够构建多模态应用。

通过一个API访问所有模型，也意味着你可以在一个地方管理所有的AI支出。目前大多数公司平均会调用来自多个提供商的3.5个模型，这导致没有任何单一提供商能为你提供AI使用情况的全面视图。借助AI网关，你将获得一个集中化的平台来监控和管理AI支出。

通过在请求中包含自定义元数据，你可以按最关心的属性拆分成本，比如按免费用户与付费用户、单个客户或应用程序中的特定工作流程进行分类。

const response = await env.AI.run('@cf/moonshotai/kimi-k2.5',

{

prompt: 'What is AI Gateway?'

metadata: { "teamId": "AI", "userId": 12345 }

);

自带模型

AI网关让你可以通过一个API访问所有提供商的模型。但有时你需要运行自己在数据上微调过的模型，或者针对特定用例优化的模型。为此，我们正在开发让用户将自有模型部署到Workers AI的功能。

我们流量的绝大多数来自企业客户的专用实例，他们正在我们的平台上运行自定义模型，我们希望将这项能力带给更多客户。为此，我们利用Replicate的Cog技术帮助你容器化机器学习模型。

Cog设计得非常简单：你只需在cog.yaml文件中列出依赖项，并在Python文件中编写推理代码即可。Cog会自动处理打包ML模型时的复杂任务，比如CUDA依赖、Python版本、权重加载等。

示例cog.yaml文件：

build:

python_version: "3.13"

python_requirements: requirements.txt

predict: "predict.py:Predictor"

示例predict.py文件，其中包含用于设置模型的函数以及在收到推理请求（预测）时执行的函数：

from cog import BasePredictor, Path, Input

import torch

class Predictor(BasePredictor):

def setup(self):

"""将模型加载到内存中，以便多次预测更高效"""

self.net = torch.load("weights.pth")

def predict(self,

image: Path = Input(description="Image to enlarge"),

scale: float = Input(description="Factor to scale image by", default=1.5)

) -> Path:

"""对模型运行单次预测"""

# ... pre-processing ...

output = self.net(input)

# ... post-processing ...

return output

然后，你可以运行cog build来构建容器镜像，并将你的Cog容器推送到Workers AI。我们会为你部署并提供服务，你随后可通过常规的Workers AI API访问它。

我们正在推进一些重大项目，以让更多客户受益，比如面向客户的API和wrangler命令，让你可以推送自己的容器，以及通过GPU快照实现更快的冷启动。我们已经在Cloudflare团队内部以及部分外部客户中进行了测试，他们正指导我们的愿景。如果你有兴趣成为我们的设计合作伙伴，请联系我们！很快，任何人都可以打包自己的模型并通过Workers AI使用它。

使用 Workers AI 模型与 AI 网关结合，对于构建实时代理特别强大——用户对速度的感知取决于首个 token 的到达时间，即代理响应开始的速度，而不是完整响应所需的时间。即使总的推理时间为 3 秒，如果能提前 50 毫秒拿到第一个 token，也能让代理感觉更流畅，而不是迟钝。

Cloudflare 在全球 330 个城市拥有数据中心网络，这意味着 AI 网关既靠近用户，也靠近推理端点，从而最大限度减少流媒体开始前的网络延迟。

Workers AI 还在其公开目录中托管开源模型，其中现在包括专为代理设计的大模型，如 Kimi K2.5 和实时语音模型。当你通过 AI 网关调用这些由 Cloudflare 托管的模型时，无需再经过公共互联网的额外跳转，因为你的代码和推理都在同一个全球网络上运行，从而使代理获得最低的延迟。

为可靠性而设计，支持自动故障转移

在构建代理时，速度并不是用户唯一关心的因素，可靠性同样重要。代理工作流中的每一步都依赖于前面的步骤。可靠的推理对代理至关重要，因为一个调用失败可能会影响整个下游链路。

通过 AI 网关，如果你调用的模型在多个提供商处可用，而其中一个提供商宕机，系统会自动切换到另一个可用的提供商，你无需编写任何自己的故障转移逻辑。

如果你正在使用 Agents SDK 构建长时间运行的代理，其流式推理调用也具备断线恢复能力。AI 网关会在生成过程中缓存流式响应，且该缓存独立于代理的生命周期。如果代理在推理中途被中断，它可以重新连接到 AI 网关并获取已生成的响应，而无需发起新的推理请求或为相同的输出 token 支付两次费用。配合 Agents SDK 内置的检查点机制，最终用户完全不会察觉到中断。

复刻（Replicate）

Replicate 团队已正式加入我们的 AI 平台团队，以至于我们甚至不再将自己视为两个独立团队。我们一直在努力推进 Replicate 与 Cloudflare 之间的集成，包括将所有 Replicate 模型引入 AI 网关，并将托管模型迁移至 Cloudflare 基础设施。很快，你就能通过 AI 网关访问你在 Replicate 上喜爱的模型，也可以将你在 Replicate 上部署的模型迁移到 Workers AI 上运行。

开始使用

要开始使用，请查阅 AI 网关或 Workers AI 的文档。了解更多关于如何通过 Agents SDK 在 Cloudflare 上构建代理的信息。

观看 Cloudflare TV

来源与参考

收录于 2026-04-17