SkillsBench:评估 AI Agent 技能跨任务泛化能力的新基准
最新研究提出 SkillsBench 基准测试,用于系统评估 AI Agent 技能在多样化任务上的表现,填补了 Agent 能力评估领域的空白。
查看原文本解读由 AI 自动生成 · 模板:事件解读 · 仅供参考,请以原文为准。
最新研究提出 SkillsBench 基准测试,用于系统评估 AI Agent 技能在多样化任务上的表现,填补了 Agent 能力评估领域的空白。
查看原文