← 返回资讯
研究 HuggingFace Daily Papers 2026-07-03

EvoPolicyGym:交互环境中的自主策略演化评估

EvoPolicyGym:交互环境中的自主策略演化评估

自主智能体在固定预算内通过迭代编辑评估策略改进,研究表明成功的策略演化需要任务特定机制与反馈约束的协同优化。

查看原文
解读生成中或暂时不可用,请稍后刷新重试,或直接查看原文。