工具失效时:LLM 智能体的动态重规划与异常恢复基准测试
ToolMaze 基准显示,现实场景中的工具故障显著降低 TIR 性能,其中隐式语义故障导致最严重的性能下降,动态重规划成为关键瓶颈。
查看原文解读生成中或暂时不可用,请稍后刷新重试,或直接查看原文。
ToolMaze 基准显示,现实场景中的工具故障显著降低 TIR 性能,其中隐式语义故障导致最严重的性能下降,动态重规划成为关键瓶颈。
查看原文