机器人 @UnitreeRobotics 2026-05-19

宇树科技：G1 机器人实现语音驱动的实时任意动作生成

宇树科技展示 G1 人形机器人通过外部语音指令实时生成多样动作，视频一镜到底现场收音，动作由 AI 实时自主生成，存在轻微延迟。

TL;DR · 事件解读

宇树科技演示 G1 人形机器人通过语音实时生成任意动作，突破传统预设动作库限制。这是具身智能从「命令执行」向「意图理解」演进的关键节点，语音正在成为人形机器人的主流交互入口。

深度解读

事件：G1 实现端到端语音动作生成

5月19日，宇树科技发布视频，展示了 G1 人形机器人在完全现场收音、一镜到底的条件下，通过外部语音指令实时生成多样化动作的能力。与传统机器人预录动作库不同，G1 的动作由 AI 模型根据语音输入自主生成，这意味着用户可以用自然语言描述任意动作，机器人在毫秒级延迟内完成理解和执行。视频中可观察到轻微延迟，这是端到端推理架构的典型特征。

技术意义：从「动作库」到「动作生成」的范式跃迁

此前，人形机器人的动作交互依赖预定义动作库——工程师需要提前录制、标注、存储数千种动作片段，机器人的「表达空间」受限于库容量，且无法处理未见过的动作描述。宇树的这次演示指向一条不同路径：语音信号直接映射为全身动作序列，模型在推理时生成全新动作，而非从库中检索。

这一能力背后依赖三个技术模块的协同：语音识别（ASR）将口语转为文本、大语言模型（LLM）解析意图与动作描述、动作生成模型将语义转为机器人关节轨迹。延迟的存在说明这是实时推理而非预录合成，也意味着算力部署（端侧还是云端）是关键工程变量。

行业影响方面，语音作为人形机器人的第一交互入口已确定性增强。Figure、1X、智元等竞品均在推进语音控制能力，而宇树此次演示证明了低成本硬件+自研 AI 整合路径的可行

● 未登录访客

SMARTFLOW PRO

继续阅读深度解读 + 编辑加注

下方还有 3-5 段深度分析 + Vincent 编辑加注 + 可点击信源，仅 Pro 会员可见

加入机智流 PRO →

¥99 / 季 · 每周 1 篇深度研报 · 飞书+微信群双通道

已是 Pro 但仍被提示？联系反馈

参考来源

宇树科技 G1 语音驱动动作生成演示 · 2026-05-19
Unitree G1 产品页 · 2026-05-19

本解读由 AI 自动生成 · 模板：事件解读 · 仅供参考，请以原文为准。