← 返回资讯
研究 HuggingFace Daily Papers 2026-06-18

数据中自有答案:判别器引导强化学习纠正 Flow Matching

判别器引导强化学习(DRL)利用预训练表示空间的判别器作为最优奖励信号,纠正分数模型和 Flow Matching 模型的对齐问题,在无需人类偏好数据的情况下提升视觉保真度和语义质量。

查看原文
解读生成中或暂时不可用,请稍后刷新重试,或直接查看原文。