← 返回资讯
大模型 HuggingFace Daily Papers 2026-07-01

DOPD:双在线策略蒸馏

DOPD:双在线策略蒸馏

DOPD 通过基于优势差距和概率在师生策略之间动态路由 token 级监督,解决在线策略蒸馏中的特权幻觉问题,提升大模型和视觉-语言模型的能力迁移效果。

查看原文
解读生成中或暂时不可用,请稍后刷新重试,或直接查看原文。