OpenAI与伙伴推出MRC网络协议

The Decoder·5月7日 03:13 UTC·作者 Matthias Bastian

关键信息

MRC不再依赖单一路径传输数据包，而是同时把数据分散到数百条路径上，从而降低拥塞，并能在微秒级时间尺度内从故障中恢复。OpenAI表示，这种设计只用两层以太网交换机就能连接超过10万块GPU，相比传统800 Gb/s网络可以减少功耗、硬件数量和网络成本。

资讯摘要

OpenAI宣布推出MRC，并与AMD、Broadcom、Intel、Microsoft和NVIDIA共同开发这一新的网络协议，用来缓解AI超级计算机中的网络瓶颈。MRC全称为Multipath Reliable Connection，目标是在大模型训练过程中，让GPU之间的数据传输更快、更可预测，也更具韧性。它不再把每次传输固定走单一路径，而是把流量分散到数百条路径上，从而减轻网络核心区域的拥塞。若链路、交换机或路径发生故障，MRC可以在微秒级时间内识别问题并自动绕行，而OpenAI表示，传统网络架构的稳定时间可能需要几秒甚至几十秒。OpenAI称，这种能力可以让训练任务在故障和维护期间继续运行，减少中断或停滞。

该公司还表示，MRC的多平面设计只需两层以太网交换机，就能连接超过10万块GPU，而传统800 Gb/s网络通常需要三层或四层交换机级联。这样的设计有助于降低功耗、减少硬件数量，并压低整体网络成本。MRC已经部署在OpenAI最大的NVIDIA GB200超级计算机上，包括位于德克萨斯州阿比林的Oracle Cloud Infrastructure站点，以及Microsoft的Fairwater超级计算机。OpenAI还提到，在训练一款用于ChatGPT和Codex的近期前沿模型时，他们曾需要重启四台一级交换机，但使用MRC后，无需再与训练团队协调这类维护操作。

资讯正文

OpenAI 与 AMD、Broadcom、Intel、Microsoft 和 NVIDIA 联合打造了一种网络协议，以解决 AI 超级计算机的瓶颈问题

OpenAI 已与 AMD、Broadcom、Intel、Microsoft 和 NVIDIA 联手开发一种名为 MRC 的新网络协议，MRC 是 Multipath Reliable Connection 的缩写。

MRC 旨在让大型 AI 超级计算机中 GPU 之间的数据传输更快、更可预测，也更具韧性，而这正是训练大型 AI 模型的一项关键要求。MRC 不会将每一次传输都通过单一路径发送，而是将数据包同时分散到数百条路径上，从而减少网络核心区域的拥塞。

当网络路径、链路或交换机发生故障时，MRC 可以检测到问题，并在微秒级时间尺度上绕开故障。OpenAI 表示，传统网络架构在故障发生后，可能需要数秒甚至数十秒才能恢复稳定。

这有助于训练任务在网络故障和维护事件中继续运行，而在过去，这些情况往往会打断或阻塞训练。OpenAI 说，MRC 的多平面网络设计只需两层以太网交换机，就能连接超过 100,000 个 GPU，而传统的 800 Gb/s 网络则需要三层或四层。这降低了功耗、组件数量以及整体网络成本。

MRC 已经在 OpenAI 最大的超级计算机上运行

MRC 已经部署在 OpenAI 所有用于训练前沿模型的最大规模 NVIDIA GB200 超级计算机上，包括其位于德克萨斯州阿比林的 Oracle Cloud Infrastructure 站点，以及 Microsoft 的 Fairwater 超级计算机。

在最近一次用于 ChatGPT 和 Codex 的前沿模型训练期间，OpenAI 表示它不得不重启 4 台一级交换机。借助 MRC，公司无需再把这次重启与集群中运行训练任务的团队协调安排。

MRC 规范已于今天通过 Open Compute Project（OCP）发布，同时还附带一篇研究论文。除 OpenAI 外，AMD、Broadcom、Intel、Microsoft 和 Nvidia 也参与了这项开发。

来源与参考

收录于 2026-05-07