← 返回资讯
产品发布 HuggingFace Daily Papers 2026-06-08

工具失效时:LLM 智能体的动态重规划与异常恢复基准测试

ToolMaze 基准显示,现实场景中的工具故障显著降低 TIR 性能,其中隐式语义故障导致最严重的性能下降,动态重规划成为关键瓶颈。

查看原文
解读生成中或暂时不可用,请稍后刷新重试,或直接查看原文。