← 返回资讯
大模型 HuggingFace Daily Papers 2026-06-25

ReNIO 重新加权负面轨迹改进 LLM 蒸馏

ReNIO 基于 token 级概率比重新加权负面轨迹,提升语言模型的在线蒸馏效果,在数学和代码生成任务上推理能力更强。

查看原文
解读生成中或暂时不可用,请稍后刷新重试,或直接查看原文。