STARE:基于惊讶度的Token级优势重加权策略熵稳定方法
GRPO算法在训练中面临策略熵崩溃问题,STARE通过惊讶度引导的Token级优势重加权和目标熵约束来解决这一问题,以维持大语言模型的稳定强化学习。
查看原文解读生成中或暂时不可用,请稍后刷新重试,或直接查看原文。
GRPO算法在训练中面临策略熵崩溃问题,STARE通过惊讶度引导的Token级优势重加权和目标熵约束来解决这一问题,以维持大语言模型的稳定强化学习。
查看原文