研究 @dotey 2026-04-12

伯克利研究：作弊 AI 攻破 SWE-bench 等 8 大智能体评测基准

伯克利团队构建专门作弊的 AI 攻击 8 个主流评测基准，未调用任何大模型即获近满分。SWE-bench 仅用 10 行代码劫持 pytest 测试框架，500 道题全部通过；WebArena 标准答案直接存在本地文件中可被读取。

本解读由 AI 自动生成 · 模板：事件解读 · 仅供参考，请以原文为准。