← 返回资讯
产品发布 HuggingFace Daily Papers 2026-06-23

PlanBench-XL:评估大规模工具生态中 LLM 智能体的长时域规划能力

PlanBench-XL 评估大语言模型智能体在复杂工具环境中、视野受限且存在动态干扰时的规划与适应能力。

查看原文
解读生成中或暂时不可用,请稍后刷新重试,或直接查看原文。