OpenAI与伙伴推出MRC网络协议
The Decoder··作者 Matthias Bastian
关键信息
MRC不再依赖单一路径传输数据包,而是同时把数据分散到数百条路径上,从而降低拥塞,并能在微秒级时间尺度内从故障中恢复。OpenAI表示,这种设计只用两层以太网交换机就能连接超过10万块GPU,相比传统800 Gb/s网络可以减少功耗、硬件数量和网络成本。
资讯摘要
OpenAI宣布推出MRC,并与AMD、Broadcom、Intel、Microsoft和NVIDIA共同开发这一新的网络协议,用来缓解AI超级计算机中的网络瓶颈。MRC全称为Multipath Reliable Connection,目标是在大模型训练过程中,让GPU之间的数据传输更快、更可预测,也更具韧性。它不再把每次传输固定走单一路径,而是把流量分散到数百条路径上,从而减轻网络核心区域的拥塞。若链路、交换机或路径发生故障,MRC可以在微秒级时间内识别问题并自动绕行,而OpenAI表示,传统网络架构的稳定时间可能需要几秒甚至几十秒。OpenAI称,这种能力可以让训练任务在故障和维护期间继续运行,减少中断或停滞。
该公司还表示,MRC的多平面设计只需两层以太网交换机,就能连接超过10万块GPU,而传统800 Gb/s网络通常需要三层或四层交换机级联。这样的设计有助于降低功耗、减少硬件数量,并压低整体网络成本。MRC已经部署在OpenAI最大的NVIDIA GB200超级计算机上,包括位于德克萨斯州阿比林的Oracle Cloud Infrastructure站点,以及Microsoft的Fairwater超级计算机。OpenAI还提到,在训练一款用于ChatGPT和Codex的近期前沿模型时,他们曾需要重启四台一级交换机,但使用MRC后,无需再与训练团队协调这类维护操作。

资讯正文
OpenAI 与 AMD、Broadcom、Intel、Microsoft 和 NVIDIA 联合打造了一种网络协议,以解决 AI 超级计算机的瓶颈问题
OpenAI 已与 AMD、Broadcom、Intel、Microsoft 和 NVIDIA 联手开发一种名为 MRC 的新网络协议,MRC 是 Multipath Reliable Connection 的缩写。
MRC 旨在让大型 AI 超级计算机中 GPU 之间的数据传输更快、更可预测,也更具韧性,而这正是训练大型 AI 模型的一项关键要求。MRC 不会将每一次传输都通过单一路径发送,而是将数据包同时分散到数百条路径上,从而减少网络核心区域的拥塞。
当网络路径、链路或交换机发生故障时,MRC 可以检测到问题,并在微秒级时间尺度上绕开故障。OpenAI 表示,传统网络架构在故障发生后,可能需要数秒甚至数十秒才能恢复稳定。
这有助于训练任务在网络故障和维护事件中继续运行,而在过去,这些情况往往会打断或阻塞训练。OpenAI 说,MRC 的多平面网络设计只需两层以太网交换机,就能连接超过 100,000 个 GPU,而传统的 800 Gb/s 网络则需要三层或四层。这降低了功耗、组件数量以及整体网络成本。
MRC 已经在 OpenAI 最大的超级计算机上运行
MRC 已经部署在 OpenAI 所有用于训练前沿模型的最大规模 NVIDIA GB200 超级计算机上,包括其位于德克萨斯州阿比林的 Oracle Cloud Infrastructure 站点,以及 Microsoft 的 Fairwater 超级计算机。
在最近一次用于 ChatGPT 和 Codex 的前沿模型训练期间,OpenAI 表示它不得不重启 4 台一级交换机。借助 MRC,公司无需再把这次重启与集群中运行训练任务的团队协调安排。
MRC 规范已于今天通过 Open Compute Project(OCP)发布,同时还附带一篇研究论文。除 OpenAI 外,AMD、Broadcom、Intel、Microsoft 和 Nvidia 也参与了这项开发。
来源与参考
收录于 2026-05-07