← 返回资讯
研究 HuggingFace Daily Papers 2026-06-30

AsyncOPD:异步在线策略蒸馏能容忍多陈旧的数据?

AsyncOPD:异步在线策略蒸馏能容忍多陈旧的数据?

异步在线策略蒸馏通过解耦 rollout 生成与学习者更新,解决了大语言模型后训练中的计算瓶颈,但引入了陈旧策略数据问题,需要专门解决方案。

查看原文
解读生成中或暂时不可用,请稍后刷新重试,或直接查看原文。