JavaScript 已关闭 · 内容可正常浏览，但 PWA 安装 / 返回顶部 / 移动底部导航等增强功能不可用

研究 HuggingFace Daily Papers 2026-06-18

STARE：基于惊讶度的Token级优势重加权策略熵稳定方法

GRPO算法在训练中面临策略熵崩溃问题，STARE通过惊讶度引导的Token级优势重加权和目标熵约束来解决这一问题，以维持大语言模型的稳定强化学习。

解读生成中或暂时不可用，请稍后刷新重试，或直接查看原文。