JavaScript 已关闭 · 阅读 / 搜索 / RSS / Atom / JSON Feed / LLMs.txt 均可用 · 仅 PWA 安装 / 返回顶部 / 移动底部导航等增强功能依赖 JS

大模型 HuggingFace Daily Papers 2026-07-01

DOPD：双在线策略蒸馏

DOPD 通过基于优势差距和概率在师生策略之间动态路由 token 级监督，解决在线策略蒸馏中的特权幻觉问题，提升大模型和视觉-语言模型的能力迁移效果。

解读生成中或暂时不可用，请稍后刷新重试，或直接查看原文。