研究雷锋网 2026-06-25

GAIR Paper 105｜离线强化学习新突破——ROMI：破解对抗式模型学习「过保守、训不稳」深层困局｜ICLR 2026

ROMI：离线强化学习新突破，探索对抗式模型学习范式全新实现路径，破解保守性难控与训练不稳的深层困局。作者丨乔钟健离线强化学习（offline RL）的目标，是在不与环境继续交互的前提下，仅依赖已有数据集学习策略。相比无模型（model-free）方法，基于模型的离线强化学习（model-based offline RL）会额外训练一个环境动力学模型，让策略在该模型上生成轨迹，借此扩展离线训练

查看原文

解读生成中或暂时不可用，请稍后刷新重试，或直接查看原文。