OpenAI 工程师详解 MRC:AI 超算如何在海量芯片间保持同步
OpenAI 工程师 Mark Handley 与 Greg Poynting 在播客中讲解新发布的 MRC 协议,剖析超大规模训练集群跨芯片可靠通信的工程挑战与行业开放策略。
查看原文OpenAI 发布 MRC 协议,解决万卡级别训练集群的跨芯片可靠通信难题,在芯片故障率上升的大模型时代成为关键基础设施。相比 NVIDIA 的专有方案,MRC 走开放路线,可跨 InfiniBand / Ethernet 运行,目标用户是超大规模 AI 训练集群运营者。
MRC 是什么
MRC(Machine Reliable Communication)是 OpenAI 新发布的通信协议,专为协调海量芯片(万卡级别以上)同步而设计。在传统 HPC(高性能计算)场景中,InfiniBand 或 NVLink 已在数千节点规模上被验证可行,但大模型训练的独特之处在于:训练时长以月计、芯片数量以万计、单次通信操作数以百亿计——任何一层通信故障都会导致全流程回滚。
MRC 的核心思路是将可靠性下沉到通信层,在不显著增加延迟的前提下实现自动重传、路径冗余和故障隔离。这意味着当某一 GPU 发生静默错误或网络路径短暂中断时,系统无需触发上层 checkpoint 回滚,只需在通信层完成透明修复。
解决什么问题
大规模 AI 训练有三个核心挑战:带宽(数据传输量)、延迟(同步等待时间)、可靠性(错误容忍)。过去业界通过 InfiniBand 自愈机制 + NCCL 集合通信库来平衡三者,但在超过 4096 卡以后,InfiniBand 的树形拓扑反而成为扩展瓶颈,且 NVIDIA 的优化主要针对自家硬件,缺乏跨厂商灵活性。
MRC 的差异化在于协议层开放 + 硬件无关抽象
继续阅读深度解读 + 编辑加注
下方还有 3-5 段深度分析 + Vincent 编辑加注 + 可点击信源,仅 Pro 会员可见
¥99 / 季 · 每周 1 篇深度研报 · 飞书+微信群双通道
已是 Pro 但仍被提示?联系反馈
- OpenAI 工程师详解 MRC 协议播客 · 2026-05-06
- NCCL 官方文档 · 2024-01-01
- RoCE v2 技术白皮书 · 2023-01-01