QVal 通过测量方法评分与 Q 值对齐程度来评估长时程 LLM 智能体任务中的密集监督信号,无需训练即可公平比较不同监督方法。
想读得更深?AI Insight Pro 解锁全部深度研报与资讯完整解读。