← 返回资讯
研究 HuggingFace Daily Papers 2026-06-23

从自身错误中学习:构建用于自蒸馏的可学习微反思轨迹

TAPO 通过创建显式纠正轨迹来增强大型语言模型推理能力,在保留错误推理的同时融入自然语言诊断和纠正,通过改进的错误纠正能力超越传统自蒸馏方法。

查看原文
解读生成中或暂时不可用,请稍后刷新重试,或直接查看原文。