产品发布 @OpenAI 2026-05-06

OpenAI 工程师详解 MRC：AI 超算如何在海量芯片间保持同步

OpenAI 工程师 Mark Handley 与 Greg Poynting 在播客中讲解新发布的 MRC 协议，剖析超大规模训练集群跨芯片可靠通信的工程挑战与行业开放策略。

TL;DR · 产品解读

OpenAI 发布 MRC 协议，解决万卡级别训练集群的跨芯片可靠通信难题，在芯片故障率上升的大模型时代成为关键基础设施。相比 NVIDIA 的专有方案，MRC 走开放路线，可跨 InfiniBand / Ethernet 运行，目标用户是超大规模 AI 训练集群运营者。

深度解读

MRC 是什么

MRC（Machine Reliable Communication）是 OpenAI 新发布的通信协议，专为协调海量芯片（万卡级别以上）同步而设计。在传统 HPC（高性能计算）场景中，InfiniBand 或 NVLink 已在数千节点规模上被验证可行，但大模型训练的独特之处在于：训练时长以月计、芯片数量以万计、单次通信操作数以百亿计——任何一层通信故障都会导致全流程回滚。

MRC 的核心思路是将可靠性下沉到通信层，在不显著增加延迟的前提下实现自动重传、路径冗余和故障隔离。这意味着当某一 GPU 发生静默错误或网络路径短暂中断时，系统无需触发上层 checkpoint 回滚，只需在通信层完成透明修复。

解决什么问题

大规模 AI 训练有三个核心挑战：带宽（数据传输量）、延迟（同步等待时间）、可靠性（错误容忍）。过去业界通过 InfiniBand 自愈机制 + NCCL 集合通信库来平衡三者，但在超过 4096 卡以后，InfiniBand 的树形拓扑反而成为扩展瓶颈，且 NVIDIA 的优化主要针对自家硬件，缺乏跨厂商灵活性。

MRC 的差异化在于协议层开放 + 硬件无关抽象

● 未登录访客

SMARTFLOW PRO

继续阅读深度解读 + 编辑加注

下方还有 3-5 段深度分析 + Vincent 编辑加注 + 可点击信源，仅 Pro 会员可见
加入机智流 PRO →
¥99 / 季 · 每周 1 篇深度研报 · 飞书+微信群双通道

已是 Pro 但仍被提示？联系反馈

参考来源

OpenAI 工程师详解 MRC 协议播客 · 2026-05-06

NCCL 官方文档 · 2024-01-01

RoCE v2 技术白皮书 · 2023-01-01

本解读由 AI 自动生成 · 模板：产品解读 · 仅供参考，请以原文为准。

📑 延伸阅读 · 深度研报

热点解读 · 2026.07.28 Pro

Anthropic 的开放权重模型立场｜Dario Amodei《Our position on open-weights models》全文翻译与解读

安全 · 2026.06.23 Pro

刚刚，OpenAI 推出 Daybreak：要给全世界软件「打补丁」，一场 AI 攻防战

产品观察 · 2026.06.18 Pro

微信「AI 专属卡」深扒：让 Agent 碰你钱包的那道安全锁

想读得更深？AI Insight Pro 解锁全部深度研报与资讯完整解读。
了解 Pro →

← 上一条 · 研究 Google DeepMind 与 EVE Online 合作打造 AI 智能体试验场行业 · 下一条 → Anthropic 创始人 Dario 与 Daniela Amodei 公开对谈

© 2026 AI Insight · 本网站由 AI 采集信息生成，可能有误