DOPD 通过基于优势差距和概率在师生策略之间动态路由 token 级监督,解决在线策略蒸馏中的特权幻觉问题,提升大模型和视觉-语言模型的能力迁移效果。
想读得更深?AI Insight Pro 解锁全部深度研报与资讯完整解读。