具身智能

2026 具身机器人训练栈全解:从一台 ALOHA 到一个 VLA 的 8 个工程环节

数据采集 · 动作 tokenization · VLA 训练范式 · 仿真器栈 · Sim2Real · 端侧推理 · Fleet Learning · 开源选型

Pro 限定研报

2026-05-25 26 篇信源 读完约 22 分钟

2026 具身机器人训练栈全解:从一台 ALOHA 到一个 VLA 的 8 个工程环节

Embodied AI · Engineering Deep Dive · 2026-05

当一个动作要被「学会」时,到底在训什么?

2025-2026 这一年,具身智能进入了一个奇怪的状态:头部公司每个月都在发新模型——Physical Intelligence 的 π0.5[1]、NVIDIA 的 GR00T N1.6[2]、Figure 的 Helix[3]、清华 RDT-2[4]、Stanford OpenVLA-OFT[5]、HuggingFace SmolVLA[6]——但绝大多数从业者只看到论文标题和效果视频,看不到「让机器人学会一个动作」背后的完整工程栈。

这份研报把「让机器人学一个动作」拆成 8 个可观测的工程环节

8
训练工作流环节 · 数据→tokenization→训练→sim2real→部署→Fleet
6
2026 已发布的标杆 VLA 模型 · π0.5 / GR00T N1.6 / Helix / RDT-2 / OpenVLA-OFT / SmolVLA
1M+
Open X-Embodiment 数据集累计真机轨迹(22 个 embodiment / 21 家机构)
$2,999
Jetson T5000 端侧推理模组单价 · 已搭载到 Boston Dynamics Atlas / Agility Digit Gen 6

判断 1 · 训练范式

「Diffusion Policy vs VLA vs World Model」的分歧已经落定,2026 的主流答案是 VLA。

2023 年的 Diffusion Policy[7]、2024 年下半年的 OpenVLA / Octo、到 2025 年的 π0.5 / Helix / GR00T N1.5——三年里训练范式收敛得非常快。到 2026 年 5 月,头部公司发布的人形机器人 manipulation 模型基本都是 VLA(Vision-Language-Action),且大多数采用「System 2 慢思 + System 1 快控」的双系统结构(Helix S2/S1、GR00T 系列的 VLM + Diffusion Transformer)。

但这不意味着 Diffusion Policy 死了——它退到了 VLA 的 action head 里:π0 系列的 flow matching action expert[1]、GR00T N1.6 的 32 层 diffusion transformer[2]、RDT-2 的 VQ token 化 + autoregressive head[4],本质都是在把 diffusion / flow / discrete VQ 当成「精细动作生成器」插到大 VLM 后面。

第三条路是 V-JEPA 2 代表的 world model 路线[8]:Meta 2025-06 用 100 万小时视频 + 仅 62 小时真机数据训出可做 zero-shot 规划的世界模型,对标 NVIDIA Cosmos 的方案。但 world model 目前更多用于「生成训练数据」而非直接做控制——GR00T N1.6 就是用 NVIDIA GR00T-Dreams 蓝图先生成合成轨迹再训 VLA。

范式代表训练目标推理频率2026 地位
VLA(主流)π0.5 / GR00T N1.6 / Helix / OpenVLA-OFT语言指令 + 图像 → 连续动作序列S2 7-9Hz / S1 100-200Hz头部公司默认选择
Diffusion PolicyRT-X / Diffusion Policy 原版多模态动作分布建模10-20Hz退到 VLA 的 action head
World ModelV-JEPA 2 / Cosmos / Genesis预测「下一帧」做规划异步规划 + 控制层分离主要用于合成数据生成
三条训练范式的分工:VLA 做主架构,Diffusion 退到 action head,World Model 做数据生成器。Helix S1 的 200Hz 是「人形机器人手臂连续控制可商用」的关键门槛,所有想做量产的厂商都在追这个频率。

环节 1 · 数据采集

ALOHA 2 + Mobile ALOHA 让「数据采集」第一次有了开源参考实现。

整个训练栈的起点是数据。2024 年之前,机器人数据采集是各家厂商的暗箱——直到 Stanford 的 ALOHA 2[9](2024-05)和 Mobile ALOHA[10](2024-01)把硬件设计、MuJoCo 模型、teleoperation 软件全部开源,这件事才变成可复现的工程任务。