研究 @_akhaliq 2026-02-18

SkillsBench：评估 AI Agent 技能跨任务泛化能力的新基准

最新研究提出 SkillsBench 基准测试，用于系统评估 AI Agent 技能在多样化任务上的表现，填补了 Agent 能力评估领域的空白。

本解读由 AI 自动生成 · 模板：事件解读 · 仅供参考，请以原文为准。