2026 具身机器人训练栈全解：从一台 ALOHA 到一个 VLA 的 8 个工程环节

Embodied AI · Engineering Deep Dive · 2026-05

当一个动作要被「学会」时，到底在训什么？

2025-2026 这一年，具身智能进入了一个奇怪的状态：头部公司每个月都在发新模型——Physical Intelligence 的 π0.5^[1]、NVIDIA 的 GR00T N1.6^[2]、Figure 的 Helix^[3]、清华 RDT-2^[4]、Stanford OpenVLA-OFT^[5]、HuggingFace SmolVLA^[6]——但绝大多数从业者只看到论文标题和效果视频，看不到「让机器人学会一个动作」背后的完整工程栈。

这份研报把「让机器人学一个动作」拆成 8 个可观测的工程环节：

训练工作流环节 · 数据→tokenization→训练→sim2real→部署→Fleet

2026 已发布的标杆 VLA 模型 · π0.5 / GR00T N1.6 / Helix / RDT-2 / OpenVLA-OFT / SmolVLA

1M+

Open X-Embodiment 数据集累计真机轨迹（22 个 embodiment / 21 家机构）

$2,999

Jetson T5000 端侧推理模组单价 · 已搭载到 Boston Dynamics Atlas / Agility Digit Gen 6

判断 1 · 训练范式

「Diffusion Policy vs VLA vs World Model」的分歧已经落定，2026 的主流答案是 VLA。

2023 年的 Diffusion Policy^[7]、2024 年下半年的 OpenVLA / Octo、到 2025 年的 π0.5 / Helix / GR00T N1.5——三年里训练范式收敛得非常快。到 2026 年 5 月，头部公司发布的人形机器人 manipulation 模型基本都是 VLA（Vision-Language-Action），且大多数采用「System 2 慢思 + System 1 快控」的双系统结构（Helix S2/S1、GR00T 系列的 VLM + Diffusion Transformer）。

但这不意味着 Diffusion Policy 死了——它退到了 VLA 的 action head 里：π0 系列的 flow matching action expert^[1]、GR00T N1.6 的 32 层 diffusion transformer^[2]、RDT-2 的 VQ token 化 + autoregressive head^[4]，本质都是在把 diffusion / flow / discrete VQ 当成「精细动作生成器」插到大 VLM 后面。

第三条路是 V-JEPA 2 代表的 world model 路线^[8]：Meta 2025-06 用 100 万小时视频 + 仅 62 小时真机数据训出可做 zero-shot 规划的世界模型，对标 NVIDIA Cosmos 的方案。但 world model 目前更多用于「生成训练数据」而非直接做控制——GR00T N1.6 就是用 NVIDIA GR00T-Dreams 蓝图先生成合成轨迹再训 VLA。

三条训练范式的分工：VLA 做主架构，Diffusion 退到 action head，World Model 做数据生成器。Helix S1 的 200Hz 是「人形机器人手臂连续控制可商用」的关键门槛，所有想做量产的厂商都在追这个频率。
范式	代表	训练目标	推理频率	2026 地位
VLA（主流）	π0.5 / GR00T N1.6 / Helix / OpenVLA-OFT	语言指令 + 图像 → 连续动作序列	S2 7-9Hz / S1 100-200Hz	头部公司默认选择
Diffusion Policy	RT-X / Diffusion Policy 原版	多模态动作分布建模	10-20Hz	退到 VLA 的 action head
World Model	V-JEPA 2 / Cosmos / Genesis	预测「下一帧」做规划	异步规划 + 控制层分离	主要用于合成数据生成

环节 1 · 数据采集

ALOHA 2 + Mobile ALOHA 让「数据采集」第一次有了开源参考实现。

整个训练栈的起点是数据。2024 年之前，机器人数据采集是各家厂商的暗箱——直到 Stanford 的 ALOHA 2^[9]（2024-05）和 Mobile ALOHA^[10]（2024-01）把硬件设计、MuJoCo 模型、teleoperation 软件全部开源，这件事才变成可复现的工程任务。