← 返回资讯
研究 @swyx 2026-06-08

FrontierCode 基准揭示 SWE-bench 超半数结果不可用

研究显示 SWE-bench 存在大量不可合并的低质数据,FrontierCode 收录 1000+ 小时人工验证的软件工程任务,难度极高(Opus 4.8 仅获 13.8 分)。

查看原文
本解读由 AI 自动生成 · 模板:事件解读 · 仅供参考,请以原文为准。