伯克利研究:作弊 AI 攻破 SWE-bench 等 8 大智能体评测基准
伯克利团队构建专门作弊的 AI 攻击 8 个主流评测基准,未调用任何大模型即获近满分。SWE-bench 仅用 10 行代码劫持 pytest 测试框架,500 道题全部通过;WebArena 标准答案直接存在本地文件中可被读取。
查看原文本解读由 AI 自动生成 · 模板:事件解读 · 仅供参考,请以原文为准。
伯克利团队构建专门作弊的 AI 攻击 8 个主流评测基准,未调用任何大模型即获近满分。SWE-bench 仅用 10 行代码劫持 pytest 测试框架,500 道题全部通过;WebArena 标准答案直接存在本地文件中可被读取。
查看原文