宇树科技演示 G1 人形机器人通过语音实时生成任意动作,突破传统预设动作库限制。这是具身智能从「命令执行」向「意图理解」演进的关键节点,语音正在成为人形机器人的主流交互入口。
事件:G1 实现端到端语音动作生成
5月19日,宇树科技发布视频,展示了 G1 人形机器人在完全现场收音、一镜到底的条件下,通过外部语音指令实时生成多样化动作的能力。与传统机器人预录动作库不同,G1 的动作由 AI 模型根据语音输入自主生成,这意味着用户可以用自然语言描述任意动作,机器人在毫秒级延迟内完成理解和执行。视频中可观察到轻微延迟,这是端到端推理架构的典型特征。
技术意义:从「动作库」到「动作生成」的范式跃迁
此前,人形机器人的动作交互依赖预定义动作库——工程师需要提前录制、标注、存储数千种动作片段,机器人的「表达空间」受限于库容量,且无法处理未见过的动作描述。宇树的这次演示指向一条不同路径:语音信号直接映射为全身动作序列,模型在推理时生成全新动作,而非从库中检索。
这一能力背后依赖三个技术模块的协同:语音识别(ASR)将口语转为文本、大语言模型(LLM)解析意图与动作描述、动作生成模型将语义转为机器人关节轨迹。延迟的存在说明这是实时推理而非预录合成,也意味着算力部署(端侧还是云端)是关键工程变量。
行业影响方面,语音作为人形机器人的第一交互入口已确定性增强。Figure、1X、智元等竞品均在推进语音控制能力,而宇树此次演示证明了低成本硬件+自研 AI 整合路径的可行
继续阅读深度解读 + 编辑加注
下方还有 3-5 段深度分析 + Vincent 编辑加注 + 可点击信源,仅 Pro 会员可见
¥99 / 季 · 每周 1 篇深度研报 · 飞书+微信群双通道
已是 Pro 但仍被提示?联系反馈
- 宇树科技 G1 语音驱动动作生成演示 · 2026-05-19
- Unitree G1 产品页 · 2026-05-19