研究 HuggingFace Daily Papers 2026-06-18

数据中自有答案：判别器引导强化学习纠正 Flow Matching

判别器引导强化学习（DRL）利用预训练表示空间的判别器作为最优奖励信号，纠正分数模型和 Flow Matching 模型的对齐问题，在无需人类偏好数据的情况下提升视觉保真度和语义质量。

解读生成中或暂时不可用，请稍后刷新重试，或直接查看原文。