方法论

大模型分布式训练入门:用一个学习小组的类比讲透所有核心概念

数据并行、张量并行、流水线并行、ZeRO、FSDP——从单卡到多机的新手地图

Pro 限定研报

2026-05-30 36 篇信源 读完约 15 分钟

大模型为什么不能在一张显卡上训练完?答案藏在一个简单的数字里:一个 70B 参数的模型,光是 FP16 格式的权重就要占用约 140GB 显存,而当前主流的单张 NVIDIA A100 显卡显存上限只有 40GB 或 80GB[1]。换句话说,连"把模型放进去"这一步都做不到,更别提还要存梯度、优化器状态和中间激活值。