数据中自有答案:判别器引导强化学习纠正 Flow Matching
判别器引导强化学习(DRL)利用预训练表示空间的判别器作为最优奖励信号,纠正分数模型和 Flow Matching 模型的对齐问题,在无需人类偏好数据的情况下提升视觉保真度和语义质量。
查看原文解读生成中或暂时不可用,请稍后刷新重试,或直接查看原文。
判别器引导强化学习(DRL)利用预训练表示空间的判别器作为最优奖励信号,纠正分数模型和 Flow Matching 模型的对齐问题,在无需人类偏好数据的情况下提升视觉保真度和语义质量。
查看原文