【OPENAI】MRC:为大规模训练重构网络

OpenAI 联合硬件与云厂商发布了 MRC(Multipath Reliable Connection)协议,通过将单次传输的分组在数百条路径上“喷洒”、采用多平面拓扑和源路由(SRv6)来显著提高大规模 AI 训练集群的性能与鲁棒性;协议已作为 OCP 规范公开,并已在多处超级算力集群中部署与验证。该方案旨在减少拥塞、快速绕开链路或交换机故障,从而保持同步训练作业的可预测性能。

背景与动机

  • 大规模同步预训练对网络延迟和抖动高度敏感,单个丢包或链路抖动会导致大量 GPU 闲置或训练中断。
  • 随着集群规模增大,链路/交换机故障和拥塞更难避免,传统路由在故障时导致长时间重计算与作业停滞。

MRC 是什么

  • MRC(Multipath Reliable Connection)是 OpenAI 与 AMD、Broadcom、Intel、Microsoft、NVIDIA 等共同开发的协议,扩展了 RoCE,并结合 UEC 思路与 SRv6 源路由。
  • 将单个传输的分组跨数百条路径并行发送(packet spraying),允许乱序到达并在接收端重组,从而利用全部平面带来的路径多样性。

多平面网络基础设计

  • 把单个 800Gb/s 网络接口拆成多个较小的子链路(例如 8×100Gb/s),形成多平面(plane)并行网络。
  • 此设计可用更少层级的交换机互连更多 GPU,降低成本与功耗,同时提供更高的路径冗余。

关键技术要点

  • 包喷洒(spraying):避免将流限制在一条路径上,减少热点导致的拥塞。
  • 源路由(SRv6):采用静态源路由绕过故障点,实现微秒级故障旁路,减少控制平面重计算。
  • 与 RoCE 集成:保留硬件加速的 RDMA 能力以满足 GPU 通信需求。

部署与效果

  • 已在 OpenAI 的大型 NVIDIA GB200 超级算力集群(包括 OCI Abilene 与 Microsoft Fairwater)中部署并用于多次模型训练。
  • 发布为 Open Compute Project (OCP) 贡献,并附带一篇经验论文“Resilient AI Supercomputer Networking using MRC and SRv6”。

对工程实践的影响

  • 更可预测的训练性能:降低因链路/交换机故障导致的训练中断与重启次数。
  • 更高的网络利用率与更少的核心拥塞,利于大规模同步训练效率提升。
  • 促进行业标准化:开源规范有助于生态采用与互操作。

限制与注意点

  • 需最新 800Gb/s 网卡与对 SRv6/源路由支持的交换设备。
  • 报文乱序要求接收端协议栈或硬件能有效重组和处理乱序数据流。

结论

  • MRC 提供了一条面向大规模 AI 训练的网络演进路径:用多平面+多路径喷洒+源路由组合,显著提升鲁棒性与性能,并已在生产环境验证与开源规范化。

将传输拆成数百条路径并用源路由绕开故障,是解决大规模同步训练网络痛点的务实路线。

原文链接

Leave a Comment