Cloudflare引入Ensemble AI人才强化推理

Cloudflare AI·6月15日 21:00 UTC·作者 Michelle Chen

关键信息

Ensemble AI一直专注于模型压缩和高效推理，其中包括NdLinear，这是一种可直接替代Transformer中标准线性层的方案，能够保留多维结构。团队还开发了NdLinear-LoRA，用于更高效的微调，并与量化和向量量化等技术相互补充。

资讯摘要

Cloudflare表示，Ensemble AI的核心成员将加入其AI团队，以加速AI基础设施工作，并让开发者更容易在大规模场景下高效运行强大的模型。Ensemble AI成立于2023年，总部位于旧金山，过去几年一直聚焦于一个重要问题：如何在不牺牲质量的前提下，让大模型更快、更小、成本更低。文中指出，该团队开发了面向模型压缩和高效推理的新方法，旨在降低大语言模型和多模态架构在内存、计算和部署上的开销。Cloudflare认为，随着模型越来越大、工作负载越来越动态，推理成本的重要性也在上升，而客户则越来越希望AI能够全球分布、快速、可靠且价格可承受。文章强调，Ensemble的思路不是只把效率问题看作量化或硬件问题，而是尝试在模型架构层面保留现代AI模型内部的结构。

一个核心例子是NdLinear，它被描述为Transformer中标准线性层的可直接替换方案，能够直接处理多维激活，而不是将结构扁平化。Ensemble还开发了NdLinear-LoRA，这是一种旨在减少大模型微调所需可训练参数的高效适配方法。Cloudflare表示，这些技术将与其现有的Infire推理引擎、Unweight张量压缩技术以及运行超大语言模型的平台形成互补。公司计划利用这些新增能力，提升Workers AI在模型效率、GPU利用率和可扩展部署方面的表现。

资讯正文

今天，我们很高兴地宣布，Ensemble AI 团队的核心成员将加入 Cloudflare，帮助我们加速在 AI 基础设施方面的工作，并让开发者能够更轻松、更高效地大规模运行强大的 AI 模型。

Ensemble AI 成立于 2023 年，总部位于旧金山，在过去几年里一直专注于 AI 领域最重要的挑战之一：在不牺牲质量的前提下，让大模型运行得更快、更小、更具成本效益。该团队开发了新的模型压缩和高效推理方法，旨在降低大型语言模型和多模态架构的内存、计算和部署开销。

随着 AI 逐渐成为开发者构建应用方式的核心组成部分，推理经济性比以往任何时候都更加重要。模型越来越大；工作负载也越来越动态。客户也越来越期待 AI 无处不在：全球分布、快速、可靠且价格可承受。将 Ensemble AI 团队纳入 Cloudflare，将增强我们实现这一目标的能力。

引入 Ensemble 的专业能力

Ensemble AI 团队一直专注于在降低运行成本的同时，保留现代 AI 模型内部的结构。Ensemble 并未将模型效率仅仅视为量化或硬件问题，而是探索了新的模型构建模块，试图在架构层面让神经网络更紧凑、更高效。

这项工作的核心部分是 NdLinear，它是标准 Transformer 模型中线性层的即插即用替代方案，能够直接在多维激活上运行，而不是将结构展平后再处理。这样一来，模型就可以保留有意义的轴，例如注意力头、通道、空间维度或其他结构化表示，同时减少参数数量和计算量。Ensemble 还开发了 NdLinear-LoRA，这是一种高效的适配方法，旨在减少对大型模型进行微调时所需的可训练参数。

这些方法与量化和向量量化等其他效率技术相辅相成。它们共同指向一个未来：开发者能够以显著更低的内存、计算和成本需求运行能力更强的 AI 模型。

让 AI 推理更高效

Cloudflare Workers AI 为开发者提供在 Cloudflare 全球网络上通过无服务器 GPU 驱动的推理能力。随着开发者构建越来越多 AI 原生应用，高效地提供模型服务正成为该平台的关键组成部分。

推理成本是扩展 AI 应用的最大障碍之一。模型尺寸、内存占用、吞吐量和 GPU 利用率的每一次改进，都能让 AI 更容易被开发者采用，也让客户的使用成本更具经济性。随着 AI 工作负载从简单的文本生成扩展到智能体、多模态模型、个性化、微调、检索以及强化学习，这一点尤为重要。

我们正在加大对核心机器学习能力的投入，以使 Workers AI 更快、更灵活、成本效益更高。这建立在我们现有的模型效率优化工作之上，包括我们的推理引擎 Infire、像 Unweight 这样的张量压缩技术，以及用于运行超大语言模型的平台。该团队将专注于改善托管大语言模型和其他先进 AI 架构的经济性，重点是模型效率、GPU 利用率以及可扩展部署。

为下一代 AI 工作负载而构建

AI 基础设施正在进入一个新阶段。开发者不再只需要访问模型；他们需要能够可靠、经济地运行模型，并且尽可能靠近用户的基础设施。他们需要能够在不同模型规模、微调方法和部署模式之间进行试验，而不会被成本或运维复杂度所阻碍。

Cloudflare 具备独特优势来帮助解决这一问题。我们的全球网络、开发者平台和无服务器架构，为我们将 AI 带到应用已经运行之处附近提供了基础。Workers AI 机器学习工程团队将帮助我们改进支撑这一体验之下的效率层。

通过将 Cloudflare 的全球基础设施与 Ensemble 在模型压缩和高效架构方面的工作结合起来，我们可以继续构建一个平台，让开发者能够以更低成本、更好性能和更少运维开销部署 AI 应用。

接下来

我们将继续携手构建所需的基础设施，使 AI 对全球各地的开发者而言更加高效、易用且更有价值。我们的目标很简单：帮助开发者在全球规模上运行强大的 AI 工作负载，同时改善 Cloudflare 平台上的推理经济性。如果你也想加入我们的使命，欢迎查看我们的招聘页面。

来源与参考

收录于 2026-06-16