FrontierCode 基准揭示 SWE-bench 超半数结果不可用
研究显示 SWE-bench 存在大量不可合并的低质数据,FrontierCode 收录 1000+ 小时人工验证的软件工程任务,难度极高(Opus 4.8 仅获 13.8 分)。
查看原文本解读由 AI 自动生成 · 模板:事件解读 · 仅供参考,请以原文为准。
研究显示 SWE-bench 存在大量不可合并的低质数据,FrontierCode 收录 1000+ 小时人工验证的软件工程任务,难度极高(Opus 4.8 仅获 13.8 分)。
查看原文