方法论 · 评测集

AI 评测集方法论
哪些 benchmark 还能反映模型能力,好的 benchmark 怎么设计

SWE-bench Verified 80.9% vs Pro 45.9% 的 35pp 污染税 · MMLU 饱和 · LMSys Arena 被 gamed · HLE / FrontierMath / ARC-AGI-2 为什么仍然硬核

⚡ 污染税差 35pp
🧪 HLE 上限 <50%
🏁 ARC-AGI-2 ~37%
📉 LMSys 已降级
一句话定位
"每个 benchmark 都有半衰期。MMLU 三年,SWE-bench Verified 十八个月。真正的信号不在分数里,而在'同一个模型在污染版和干净版上分差多少'。"
2026 年 AI benchmark 生态迎来一次大规模信用危机:LMSys Arena 被公开证明可以通过"风格控制"游戏化、MMLU 在前沿模型之间分差 < 1pp 已失去区分度、SWE-bench Verified 被 OpenAI 自己宣布"不再测了"[6][11][12]。同时一批新一代 benchmark(HLE、FrontierMath、ARC-AGI-2、SWE-bench Pro、Terminal-Bench 2.0、τ²-bench)凭借"私有题库 + 真实任务 + 人类专家基线"重新提供了可信的区分度。
为什么 benchmark 集体失灵了
93%+
MMLU 饱和
前沿分差 < 1pp
35pp
SWE-bench Verified vs Pro
同一模型的分差
−22.9%
GSM8K 去污染后
实测掉分
68 页
LMArena 内部审计报告
揭露私下测试
三种失灵机制同时发生:
1. 数据污染(contamination)
训练集吞下了测试题。2024 年研究表明 MMLU 测试集大量原文出现在 Common Crawl 等公开语料中,推理时刨除污染样本(ITD 方法)可让虚高得分回落 19%;GSM8K 的去污染回撤最高达 22.9%[13][14]
2. 饱和(saturation)
MMLU 前沿模型普遍 90%+,Epoch AI 已把 GPQA Diamond 标记为"渐近饱和"[7]。饱和本身不是灾难,关键是它不再能区分模型——当两个旗舰模型只差 0.3pp,你根本不知道这是能力差异还是随机噪声。
3. 游戏化(gaming)
LMSys Arena 自己 2024 年的 style-control 博客承认:"排版、emoji、格式会显著影响投票偏好"[11];2025 年一份 68 页独立审计披露 Meta / OpenAI / Google / Amazon 在 Arena 上"私下测多个变体、只公开赢的那个"[12]。Berkeley RDI 研究人员还证明 OSWorld 和 WebArena 可以被一个"不会真正完成任务"的 agent 骗到接近满分[21]
当前高信号 benchmark 清单
按能力维度分类的 2026 年仍然"还能用"的 benchmark,附当前 SOTA 分数与健康度判断。
类别 Benchmark 当前 SOTA 健康度
前沿推理 HLE(Humanity's Last Exam)2500 道专家难题 Gemini 3.1 Pro 44.7%、GPT-5.4 41.6% 健康
ARC-AGI-2 私有题库 + $0.20/题算力上限 Kaggle 24% · Claude Opus 4.5 Thinking 37.6% 健康
GPQA Diamond Gemini 3.1 Pro 94.1% / GPT-5.4 92.0% 将饱和
编码 / Agent SWE-bench Pro(1865 题,含商业代码库与隔离 holdout) Claude Opus 4.7 64.3% / Opus 4.5 45.9% 健康
Terminal-Bench 2.0(Stanford + Laude,89 个 Docker 任务) Claude Mythos 82% · GPT-5.3 Codex 77.3% 健康
SWE-bench Verified(500 题) Claude Opus 4.5 80.9% 已弃用
长上下文 MRCR v2(8-needle @ 1M token) Claude Opus 4.6 76%(4.7 回撤到 32.2%) 健康
LongBench v2(503 题,8k–2M 词) o1-preview 57.7% 略胜人类 53.7% 健康
数学 FrontierMath(Epoch AI 未公开题库) GPT-5.4 Pro 综合 50%、Tier 4 尚 < 35% 健康
MATH-500 / GSM8K > 95% 污染/饱和
真实 Agent / 多轮 τ²-bench(Sierra Research,航空/零售域多轮) AA Index v4 权重项 健康
RE-Bench(METR,7 个 ML R&D 环境 × 61 位人类专家) 2h 预算 agent 胜人 4×;8h 预算人胜 健康
写作 / 偏好 LMSys Chatbot Arena 可游戏化
Artificial Analysis 写作偏好、WildBench Opus 4.7 47% / GPT-5.5 29% 辅助参考
工具调用 BFCL v3/v4(Berkeley) GLM 4.5 76.7% · Qwen3 32B 75.7% 健康
SOTA 数字整合自 Artificial Analysis、SWE-bench Pro Leaderboard、Epoch AI、Scale、tbench.ai 等多个来源,为 2026 年 4 月的公开快照,分数每周都在变化[1][2][3][5][7][8][15][17][18][19]
好 benchmark 的 5 条设计原则
PRINCIPLE 1
抗污染(contamination resistance)
私有题库(ARC-AGI-2 Kaggle holdout / FrontierMath 未公开题目)、商业代码库(SWE-bench Pro 的 GPL 和付费伙伴仓库)、时间滚动(LiveCodeBench 按周更新、AIME 按年更新)、canary 字符串检测泄漏(GPQA 在题目里埋了 UUID 标记)[1][8][9]
PRINCIPLE 2
区分度(top-model discriminability)
前沿模型之间应至少有 3pp 差距。MMLU 已跌到 < 0.5pp,仍然用它排名就是在测随机噪声。HLE、FrontierMath、ARC-AGI-2 仍能把前沿模型分散在 10–20pp 的区间——这才是"能拉开差距"的 benchmark[2][4][7]
PRINCIPLE 3
真实任务接地(real-world grounding)
Terminal-Bench 用 Docker 跑真实 CLI;τ²-bench 模拟真实客服对话与工单流程;RE-Bench 让 agent 和 61 位人类 ML 工程师跑同一套任务(kernel 优化、scaling law 拟合)直接比时间[5][10][20]。合成 trivia 题不会自然迁移到生产环境。
PRINCIPLE 4
自动 grader 可靠(automated grader reliability)
优先级:单元测试(SWE-bench Pro,补丁跑通测试才算对) > 结构化精确匹配 > LLM-as-judge(后者已被证明会被风格、长度、开头"好的"等无关因素带偏)[11]
PRINCIPLE 5
可复现 + 版本迭代(reproducibility & release cadence)
版本化(BFCL v3→v4、LongBench v2、τ→τ²-bench)、公开方法论(AA Intelligence Index v4 的 ±1% 95% 置信区间)、> 10 次重复评估以压低方差。AA 在 2026 年 1 月宣布重做 Intelligence Index,正是因为 v3 在 73 分上饱和了[15][16]
典型反面案例
案例 问题
MMLU 饱和 GPT-5.3 Codex ~93%;前沿差 < 1pp;推理时去污染可让得分掉 19%[13]
SWE-bench Verified 污染 OpenAI 审计发现"所有前沿模型都能逐字复述标准补丁";Claude Opus 4.5 在 Verified 80.9% vs Pro 45.9%——35pp 污染税。OpenAI 已公开停止报告 Verified 结果[3][6]
GSM8K Common Crawl 泄漏 2023 年研究显示剔除污染样本后模型掉分最高 13%,ITD 方法再往下挖可到 −22.9%[14]
HumanEval 记忆化 164 题全网扒遍;业内已降级为"smoke test",不再作为能力信号
LMSys Arena 风格游戏化 LMSys 官方博客确认排版、emoji、格式会显著影响偏好;68 页审计揭露 Meta / OpenAI / Google / Amazon 私下测多个变体只公开最优那个[11][12]
OSWorld / WebArena 被攻破 Berkeley RDI 研究员演示可用"不真正完成任务"的 agent 骗到接近满分[21][22]
Goodhart's Law 单一指标排行榜驱动 targeted fine-tune;AA v4 这类 10 项加权复合指数对此更鲁棒[15]
SWE-bench Verified → Pro:一个完整的 benchmark 换代案例
SWE-bench 的换代过程,可以说是 2025–2026 年"benchmark 出圈、被 gamed、被替换"的标本案例:
同一模型在一个 benchmark 上拿 80%、在它的升级版上只能拿 45%,说明大家过去一年在 Verified 上打的榜 60% 是噪声。这不是 Anthropic 和 OpenAI 的问题,是 benchmark 本身的问题。
新一代 benchmark 怎么设计的
SWE-bench Pro
每题人工核验 → GPL copyleft 许可证隔离 → 商业合作仓库 → holdout repo 防过拟 → arXiv 2509.16941 公开发布[1][4]
Terminal-Bench 2.0
每题三位人类独立评审 → 每题独立 Docker 容器 → Harbor 可复现 harness → ICLR 2026 同行评审[5]
ARC-AGI-2
Kaggle 私有 holdout、每题算力上限 $0.20、每年刷新;2025 赛季 1455 支队伍、15154 份提交;至今纯 LLM 在官方 holdout 上仍然 0 分[8][9]
FrontierMath
题目由研究数学家撰写并同行评审,永不公开题目本体,分 Tier 1–4 难度;Tier 4 目前还没有模型稳定突破 35%[2]
τ²-bench
多轮 agent + user + tool 模拟、语音和文本两种模态、policy adherence 评分[10]
谁在做靠谱的 benchmark
机构 代表作 为什么可信
METR RE-Bench · Time Horizons 专家基线、关注 AI 治理与风险
Epoch AI FrontierMath · benchmark hub 严格统计方法论、私有题库
Scale AI SWE-bench Pro · HLE leaderboard 保留私有 holdout、人工核验
Artificial Analysis Intelligence Index v4(10 项加权、±1% 95% CI) 独立、复合、方法论透明
ARC Prize(Chollet et al.) ARC-AGI-1 / 2 对纯 scale-up 极难突破、Kaggle 私有 holdout
Stanford + Laude Terminal-Bench 1 / 2 容器化、ICLR 2026 同行评审
Berkeley Gorilla 组 BFCL v3 / v4 工具调用场景快速迭代
Sierra Research τ-bench · τ²-bench 真实 agent + user 交互模拟
LMArena / LMSYS Chatbot Arena 可作为偏好信号 —— 不再适合能力排名
Anthropic、OpenAI 都维持有强大的内部评测体系(Anthropic Model Spec evals、OpenAI SimpleQA / MMMLU-Pro),但未完全公开。OpenAI 的 Model Spec 更像规范文档而非 benchmark。
读 benchmark 的 5 条实用建议
  1. 看新版本,不看旧版本。SWE-bench → SWE-bench Pro、τ → τ²、BFCL v3 → v4、LongBench → LongBench v2、Terminal-Bench 1 → 2
  2. 看"同模型跨版本分差"。这是真正的污染税,比绝对分数更诚实
  3. 看复合指数胜过看单榜。AA Intelligence Index v4 这种 10 项加权的指数对 Goodhart's Law 更鲁棒
  4. 看是否有私有 holdout。没有 holdout 的 benchmark,它的半衰期只以月计
  5. 看是否有人类基线。HLE、FrontierMath、RE-Bench 都能告诉你"离人类专家还差多少"——这比"离 SOTA 还差多少"重要得多
编辑观点

2026 年的 benchmark 生态正在经历一次"大洗牌",本质是过去三年大模型厂商、研究者、测评方之间的一场博弈:厂商有动力把 benchmark 分数推到 100%,而真正的"能力"永远藏在模型还没见过的分布里。好 benchmark 的唯一出路是跑得比训练数据更快——用私有 holdout、用滚动更新、用真实任务。

"如果一个 benchmark 的 SOTA 超过 90%,它在测记忆;如果前沿模型在上面分差小于 3pp,它什么都不在测。"这不是刻薄的吐槽,是 2026 年读任何一篇"我们在 XX benchmark 上拿到 SOTA"公告时应该默念的口诀。Claude Opus 4.5 在 SWE-bench Verified 拿 80.9%,在 Pro 上 45.9%——这 35pp 的污染税,才是唯一值得写进研报的数字。

MMLU 的故事注定会在每个 benchmark 身上重演一遍。当年让大家惊呼"模型要突破人类了"的那个数字,三年之后会变成一个 saturated 的脚注。真正有长期价值的是方法论:私有题库、真实任务、专家基线、版本迭代。沿着这四条线,下一代 benchmark 会比模型活得更久。

对业务选型而言,最实际的动作不是追最新 SOTA,而是在自己的真实任务上搭一个 mini benchmark——50 到 200 个你业务上最典型的 case,自己跑 3–5 次不同模型,自己判分。这套"私有 holdout"对你来说永远不会被污染,永远反映你最关心的那组能力。

参考文献
[1] SWE-Bench Pro: Can AI Agents Solve Long-Horizon Software Engineering Tasks? — arxiv.org/abs/2509.16941
[2] FrontierMath — epoch.ai/frontiermath
[3] SWE-Bench Pro Leaderboard 2026 — morphllm.com/swe-bench-pro
[4] SWE-Bench Pro: Raising the Bar — Scale — scale.com/blog/swe-bench-pro
[5] Terminal-Bench — tbench.ai · ICLR 2026 paper — openreview.net
[6] Why we no longer evaluate SWE-bench Verified — OpenAI — openai.com
[7] GPQA Diamond — Epoch AI — epoch.ai/benchmarks/gpqa-diamond
[8] Announcing ARC-AGI-2 and ARC Prize 2025 — arcprize.org
[9] ARC Prize 2025 Results and Analysis — arcprize.org
[10] τ²-bench — Sierra Research — github.com/sierra-research/tau2-bench
[11] LMSYS: Does style matter? — lmsys.org
[12] LM Arena has been gamed — bskiller.com
[13] MMLU-CF Contamination-free benchmark (arXiv 2412.15194) — arxiv.org/abs/2412.15194
[14] Benchmarking Benchmark Leakage in LLMs (arXiv 2404.18824) — arxiv.org/abs/2404.18824
[15] Artificial Analysis Intelligence Index methodology — artificialanalysis.ai
[16] AA overhauls Intelligence Index — VentureBeat — venturebeat.com
[17] Humanity's Last Exam — agi.safe.ai · Leaderboard — artificialanalysis.ai
[18] LongBench v2 — longbench2.github.io
[19] BFCL — Berkeley Function Calling Leaderboard — gorilla.cs.berkeley.edu
[20] RE-Bench — METR — metr.org
[21] How We Broke Top AI Agent Benchmarks — Berkeley RDI — rdi.berkeley.edu
[22] AI agent achieves perfect scores by hacking benchmarks — Cybernews — cybernews.com

登录后阅读完整报告

包含详细分析、数据图表、竞品对比、参考文献等

Google 登录