一句话先说清:导航与记忆,为什么放在一起讲
视觉语言导航(Vision-Language Navigation, VLN)的任务很好描述:给智能体一句自然语言指令——"走到走廊尽头,在厨房左转,停在沙发旁"——让它仅凭第一人称视觉,在一个从未见过的三维环境里走到目标[1]。它处在具身智能必须同时解决的三件事的交点上:看懂画面(感知)、把词对到地点与物体(语言接地)、在看不全地图的情况下连续决策(部分可观测下的序列决策)。
前沿技术
从 R2R 到 DualVLN 的方法演进,到空间地图、情景检索、潜空间记忆六条记忆路线——为什么「记忆」是导航从短程反应走向长程泛化的决定性组件,以及它背后的产业与资本版图
Pro 限定研报
视觉语言导航(Vision-Language Navigation, VLN)的任务很好描述:给智能体一句自然语言指令——"走到走廊尽头,在厨房左转,停在沙发旁"——让它仅凭第一人称视觉,在一个从未见过的三维环境里走到目标[1]。它处在具身智能必须同时解决的三件事的交点上:看懂画面(感知)、把词对到地点与物体(语言接地)、在看不全地图的情况下连续决策(部分可观测下的序列决策)。