【OPENAI】MRC：为大规模训练重构网络

OpenAI 联合硬件与云厂商发布了 MRC（Multipath Reliable Connection）协议，通过将单次传输的分组在数百条路径上“喷洒”、采用多平面拓扑和源路由（SRv6）来显著提高大规模 AI 训练集群的性能与鲁棒性；协议已作为 OCP 规范公开，并已在多处超级算力集群中部署与验证。该方案旨在减少拥塞、快速绕开链路或交换机故障，从而保持同步训练作业的可预测性能。

背景与动机

大规模同步预训练对网络延迟和抖动高度敏感，单个丢包或链路抖动会导致大量 GPU 闲置或训练中断。
随着集群规模增大，链路/交换机故障和拥塞更难避免，传统路由在故障时导致长时间重计算与作业停滞。

MRC 是什么

MRC（Multipath Reliable Connection）是 OpenAI 与 AMD、Broadcom、Intel、Microsoft、NVIDIA 等共同开发的协议，扩展了 RoCE，并结合 UEC 思路与 SRv6 源路由。
将单个传输的分组跨数百条路径并行发送（packet spraying），允许乱序到达并在接收端重组，从而利用全部平面带来的路径多样性。

多平面网络基础设计

把单个 800Gb/s 网络接口拆成多个较小的子链路（例如 8×100Gb/s），形成多平面（plane）并行网络。
此设计可用更少层级的交换机互连更多 GPU，降低成本与功耗，同时提供更高的路径冗余。

关键技术要点

包喷洒（spraying）：避免将流限制在一条路径上，减少热点导致的拥塞。
源路由（SRv6）：采用静态源路由绕过故障点，实现微秒级故障旁路，减少控制平面重计算。
与 RoCE 集成：保留硬件加速的 RDMA 能力以满足 GPU 通信需求。

部署与效果

已在 OpenAI 的大型 NVIDIA GB200 超级算力集群（包括 OCI Abilene 与 Microsoft Fairwater）中部署并用于多次模型训练。
发布为 Open Compute Project (OCP) 贡献，并附带一篇经验论文“Resilient AI Supercomputer Networking using MRC and SRv6”。

对工程实践的影响

更可预测的训练性能：降低因链路/交换机故障导致的训练中断与重启次数。
更高的网络利用率与更少的核心拥塞，利于大规模同步训练效率提升。
促进行业标准化：开源规范有助于生态采用与互操作。

限制与注意点

需最新 800Gb/s 网卡与对 SRv6/源路由支持的交换设备。
报文乱序要求接收端协议栈或硬件能有效重组和处理乱序数据流。

结论

MRC 提供了一条面向大规模 AI 训练的网络演进路径：用多平面+多路径喷洒+源路由组合，显著提升鲁棒性与性能，并已在生产环境验证与开源规范化。

将传输拆成数百条路径并用源路由绕开故障，是解决大规模同步训练网络痛点的务实路线。

原文链接

Leave a Comment Cancel reply