从自身错误中学习:构建用于自蒸馏的可学习微反思轨迹
TAPO 通过创建显式纠正轨迹来增强大型语言模型推理能力,在保留错误推理的同时融入自然语言诊断和纠正,通过改进的错误纠正能力超越传统自蒸馏方法。
查看原文解读生成中或暂时不可用,请稍后刷新重试,或直接查看原文。
TAPO 通过创建显式纠正轨迹来增强大型语言模型推理能力,在保留错误推理的同时融入自然语言诊断和纠正,通过改进的错误纠正能力超越传统自蒸馏方法。
查看原文