自变量发布跨模态具身动作分词器 X-Tokenizer,多模态对齐能力提升 13.5%,长程任务性能提升 8.25%
自变量机器人发布跨模态具身动作分词器 X-Tokenizer,将 VLA 中的动作离散化从单一的“压缩-重建”问题,重新定义为“多模态推理与动作之间的语义接口学习”问题。 动作分词器决定了拆分出的动作 Token 是否具有语义,是否能加速预训练模型的收敛,从而最终影响了 VLA 模型输出连续动作的性能。这是自变量机器人的最新发现。 具身智能的 VLA 模型(视觉-语言-动作模型)是将预训练的 VL
查看原文解读生成中或暂时不可用,请稍后刷新重试,或直接查看原文。