大模型分布式训练入门：用一个学习小组的类比讲透所有核心概念

大模型为什么不能在一张显卡上训练完？答案藏在一个简单的数字里：一个 70B 参数的模型，光是 FP16 格式的权重就要占用约 140GB 显存，而当前主流的单张 NVIDIA A100 显卡显存上限只有 40GB 或 80GB^[1]。换句话说，连"把模型放进去"这一步都做不到，更别提还要存梯度、优化器状态和中间激活值。