OpenAI 联合硬件与云厂商发布了 MRC(Multipath Reliable Connection)协议,通过将单次传输的分组在数百条路径上“喷洒”、采用多平面拓扑和源路由(SRv6)来显著提高大规模 AI 训练集群的性能与鲁棒性;协议已作为 OCP 规范公开,并已在多处超级算力集群中部署与验证。该方案旨在减少拥塞、快速绕开链路或交换机故障,从而保持同步训练作业的可预测性能。
背景与动机
- 大规模同步预训练对网络延迟和抖动高度敏感,单个丢包或链路抖动会导致大量 GPU 闲置或训练中断。
- 随着集群规模增大,链路/交换机故障和拥塞更难避免,传统路由在故障时导致长时间重计算与作业停滞。
MRC 是什么
- MRC(Multipath Reliable Connection)是 OpenAI 与 AMD、Broadcom、Intel、Microsoft、NVIDIA 等共同开发的协议,扩展了 RoCE,并结合 UEC 思路与 SRv6 源路由。
- 将单个传输的分组跨数百条路径并行发送(packet spraying),允许乱序到达并在接收端重组,从而利用全部平面带来的路径多样性。
多平面网络基础设计
- 把单个 800Gb/s 网络接口拆成多个较小的子链路(例如 8×100Gb/s),形成多平面(plane)并行网络。
- 此设计可用更少层级的交换机互连更多 GPU,降低成本与功耗,同时提供更高的路径冗余。
关键技术要点
- 包喷洒(spraying):避免将流限制在一条路径上,减少热点导致的拥塞。
- 源路由(SRv6):采用静态源路由绕过故障点,实现微秒级故障旁路,减少控制平面重计算。
- 与 RoCE 集成:保留硬件加速的 RDMA 能力以满足 GPU 通信需求。
部署与效果
- 已在 OpenAI 的大型 NVIDIA GB200 超级算力集群(包括 OCI Abilene 与 Microsoft Fairwater)中部署并用于多次模型训练。
- 发布为 Open Compute Project (OCP) 贡献,并附带一篇经验论文“Resilient AI Supercomputer Networking using MRC and SRv6”。
对工程实践的影响
- 更可预测的训练性能:降低因链路/交换机故障导致的训练中断与重启次数。
- 更高的网络利用率与更少的核心拥塞,利于大规模同步训练效率提升。
- 促进行业标准化:开源规范有助于生态采用与互操作。
限制与注意点
- 需最新 800Gb/s 网卡与对 SRv6/源路由支持的交换设备。
- 报文乱序要求接收端协议栈或硬件能有效重组和处理乱序数据流。
结论
- MRC 提供了一条面向大规模 AI 训练的网络演进路径:用多平面+多路径喷洒+源路由组合,显著提升鲁棒性与性能,并已在生产环境验证与开源规范化。
将传输拆成数百条路径并用源路由绕开故障,是解决大规模同步训练网络痛点的务实路线。