JavaScript 已关闭 · 内容可正常浏览，但 PWA 安装 / 返回顶部 / 移动底部导航等增强功能不可用

产品发布 HuggingFace Daily Papers 2026-06-23

PlanBench-XL：评估大规模工具生态中 LLM 智能体的长时域规划能力

PlanBench-XL 评估大语言模型智能体在复杂工具环境中、视野受限且存在动态干扰时的规划与适应能力。

解读生成中或暂时不可用，请稍后刷新重试，或直接查看原文。