AI 评测集方法论｜哪些 benchmark 还能反映模型能力，好的 benchmark 怎么设计

一句话定位

  "每个 benchmark 都有半衰期。MMLU 三年，SWE-bench Verified 十八个月。真正的信号不在分数里，而在'同一个模型在污染版和干净版上分差多少'。"

2026 年 AI benchmark 生态迎来一次大规模信用危机：LMSys Arena 被公开证明可以通过"风格控制"游戏化、MMLU 在前沿模型之间分差 < 1pp 已失去区分度、SWE-bench Verified 被 OpenAI 自己宣布"不再测了"^[6][11][12]。同时一批新一代 benchmark（HLE、FrontierMath、ARC-AGI-2、SWE-bench Pro、Terminal-Bench 2.0、τ²-bench）凭借"私有题库 + 真实任务 + 人类专家基线"重新提供了可信的区分度。

为什么 benchmark 集体失灵了

93%+

MMLU 饱和
前沿分差 < 1pp

35pp

SWE-bench Verified vs Pro
同一模型的分差

−22.9%

GSM8K 去污染后
实测掉分

68 页

LMArena 内部审计报告
揭露私下测试

三种失灵机制同时发生：

1. 数据污染（contamination）

训练集吞下了测试题。2024 年研究表明 MMLU 测试集大量原文出现在 Common Crawl 等公开语料中，推理时刨除污染样本（ITD 方法）可让虚高得分回落 19%；GSM8K 的去污染回撤最高达 22.9%^[13][14]。

2. 饱和（saturation）

MMLU 前沿模型普遍 90%+，Epoch AI 已把 GPQA Diamond 标记为"渐近饱和"^[7]。饱和本身不是灾难，关键是它不再能区分模型——当两个旗舰模型只差 0.3pp，你根本不知道这是能力差异还是随机噪声。

3. 游戏化（gaming）

LMSys Arena 自己 2024 年的 style-control 博客承认："排版、emoji、格式会显著影响投票偏好"^[11]；2025 年一份 68 页独立审计披露 Meta / OpenAI / Google / Amazon 在 Arena 上"私下测多个变体、只公开赢的那个"^[12]。Berkeley RDI 研究人员还证明 OSWorld 和 WebArena 可以被一个"不会真正完成任务"的 agent 骗到接近满分^[21]。

当前高信号 benchmark 清单

按能力维度分类的 2026 年仍然"还能用"的 benchmark，附当前 SOTA 分数与健康度判断。

类别	Benchmark	当前 SOTA	健康度
前沿推理	HLE（Humanity's Last Exam）2500 道专家难题	Gemini 3.1 Pro 44.7%、GPT-5.4 41.6%	健康
	ARC-AGI-2 私有题库 + $0.20/题算力上限	Kaggle 24% · Claude Opus 4.5 Thinking 37.6%	健康
	GPQA Diamond	Gemini 3.1 Pro 94.1% / GPT-5.4 92.0%	将饱和
编码 / Agent	SWE-bench Pro（1865 题，含商业代码库与隔离 holdout）	Claude Opus 4.7 64.3% / Opus 4.5 45.9%	健康
	Terminal-Bench 2.0（Stanford + Laude，89 个 Docker 任务）	Claude Mythos 82% · GPT-5.3 Codex 77.3%	健康
	SWE-bench Verified（500 题）	Claude Opus 4.5 80.9%	已弃用
长上下文	MRCR v2（8-needle @ 1M token）	Claude Opus 4.6 76%（4.7 回撤到 32.2%）	健康
长上下文	LongBench v2（503 题，8k–2M 词）	o1-preview 57.7% 略胜人类 53.7%	健康
数学	FrontierMath（Epoch AI 未公开题库）	GPT-5.4 Pro 综合 50%、Tier 4 尚 < 35%	健康
数学	MATH-500 / GSM8K	> 95%	污染/饱和
真实 Agent / 多轮	τ²-bench（Sierra Research，航空/零售域多轮）	AA Index v4 权重项	健康
真实 Agent / 多轮	RE-Bench（METR，7 个 ML R&D 环境 × 61 位人类专家）	2h 预算 agent 胜人 4×；8h 预算人胜	健康
写作 / 偏好	LMSys Chatbot Arena	—	可游戏化
写作 / 偏好	Artificial Analysis 写作偏好、WildBench	Opus 4.7 47% / GPT-5.5 29%	辅助参考
工具调用	BFCL v3/v4（Berkeley）	GLM 4.5 76.7% · Qwen3 32B 75.7%	健康

SOTA 数字整合自 Artificial Analysis、SWE-bench Pro Leaderboard、Epoch AI、Scale、tbench.ai 等多个来源，为 2026 年 4 月的公开快照，分数每周都在变化^{[1][2][3][5][7][8][15][17][18][19]}。

好 benchmark 的 5 条设计原则

PRINCIPLE 1

抗污染（contamination resistance）

私有题库（ARC-AGI-2 Kaggle holdout / FrontierMath 未公开题目）、商业代码库（SWE-bench Pro 的 GPL 和付费伙伴仓库）、时间滚动（LiveCodeBench 按周更新、AIME 按年更新）、canary 字符串检测泄漏（GPQA 在题目里埋了 UUID 标记）^[1][8][9]。

PRINCIPLE 2

区分度（top-model discriminability）

前沿模型之间应至少有 3pp 差距。MMLU 已跌到 < 0.5pp，仍然用它排名就是在测随机噪声。HLE、FrontierMath、ARC-AGI-2 仍能把前沿模型分散在 10–20pp 的区间——这才是"能拉开差距"的 benchmark^[2][4][7]。

PRINCIPLE 3

真实任务接地（real-world grounding）

Terminal-Bench 用 Docker 跑真实 CLI；τ²-bench 模拟真实客服对话与工单流程；RE-Bench 让 agent 和 61 位人类 ML 工程师跑同一套任务（kernel 优化、scaling law 拟合）直接比时间^[5][10][20]。合成 trivia 题不会自然迁移到生产环境。

PRINCIPLE 4

自动 grader 可靠（automated grader reliability）

优先级：单元测试（SWE-bench Pro，补丁跑通测试才算对） > 结构化精确匹配 > LLM-as-judge（后者已被证明会被风格、长度、开头"好的"等无关因素带偏）^[11]。

PRINCIPLE 5

可复现 + 版本迭代（reproducibility & release cadence）

版本化（BFCL v3→v4、LongBench v2、τ→τ²-bench）、公开方法论（AA Intelligence Index v4 的 ±1% 95% 置信区间）、> 10 次重复评估以压低方差。AA 在 2026 年 1 月宣布重做 Intelligence Index，正是因为 v3 在 73 分上饱和了^[15][16]。

典型反面案例

案例	问题
MMLU 饱和	GPT-5.3 Codex ~93%；前沿差 < 1pp；推理时去污染可让得分掉 19%^[13]
SWE-bench Verified 污染	OpenAI 审计发现"所有前沿模型都能逐字复述标准补丁"；Claude Opus 4.5 在 Verified 80.9% vs Pro 45.9%——35pp 污染税。OpenAI 已公开停止报告 Verified 结果^[3][6]
GSM8K Common Crawl 泄漏	2023 年研究显示剔除污染样本后模型掉分最高 13%，ITD 方法再往下挖可到 −22.9%^[14]
HumanEval 记忆化	164 题全网扒遍；业内已降级为"smoke test"，不再作为能力信号
LMSys Arena 风格游戏化	LMSys 官方博客确认排版、emoji、格式会显著影响偏好；68 页审计揭露 Meta / OpenAI / Google / Amazon 私下测多个变体只公开最优那个^[11][12]
OSWorld / WebArena 被攻破	Berkeley RDI 研究员演示可用"不真正完成任务"的 agent 骗到接近满分^[21][22]
Goodhart's Law	单一指标排行榜驱动 targeted fine-tune；AA v4 这类 10 项加权复合指数对此更鲁棒^[15]

SWE-bench Verified → Pro：一个完整的 benchmark 换代案例

SWE-bench 的换代过程，可以说是 2025–2026 年"benchmark 出圈、被 gamed、被替换"的标本案例：

SWE-bench 原版（2023）：2294 个 GitHub issue。很快被证明训练集包含大量相同 repo 的历史 commit
SWE-bench Verified（2024）：人工筛选 500 题，OpenAI 和 Anthropic 都把它当主力榜
2025 年 OpenAI 审计：所有前沿模型都能背出标准补丁，意味着 verified 版仍在训练分布内^[6]
SWE-bench Pro（arXiv 2509.16941）：1865 题，含 731 公共 GPL 题 + 276 商业合作代码题 + holdout repo，每题人工 verify、跨仓库 holdout 防过拟^[1][4]
结果：Claude Opus 4.5 在 Verified 上 80.9%，在 Pro 上只有 45.9%。差 35pp——这 35pp 才是真正"污染税"
OpenAI 表态：2026 年初公开宣布 "We no longer evaluate SWE-bench Verified"^[6]

同一模型在一个 benchmark 上拿 80%、在它的升级版上只能拿 45%，说明大家过去一年在 Verified 上打的榜 60% 是噪声。这不是 Anthropic 和 OpenAI 的问题，是 benchmark 本身的问题。

新一代 benchmark 怎么设计的

SWE-bench Pro

每题人工核验 → GPL copyleft 许可证隔离 → 商业合作仓库 → holdout repo 防过拟 → arXiv 2509.16941 公开发布^[1][4]

Terminal-Bench 2.0

每题三位人类独立评审 → 每题独立 Docker 容器 → Harbor 可复现 harness → ICLR 2026 同行评审^[5]

ARC-AGI-2

Kaggle 私有 holdout、每题算力上限 $0.20、每年刷新；2025 赛季 1455 支队伍、15154 份提交；至今纯 LLM 在官方 holdout 上仍然 0 分^[8][9]

FrontierMath

题目由研究数学家撰写并同行评审，永不公开题目本体，分 Tier 1–4 难度；Tier 4 目前还没有模型稳定突破 35%^[2]

τ²-bench

多轮 agent + user + tool 模拟、语音和文本两种模态、policy adherence 评分^[10]

谁在做靠谱的 benchmark

机构	代表作	为什么可信
METR	RE-Bench · Time Horizons	专家基线、关注 AI 治理与风险
Epoch AI	FrontierMath · benchmark hub	严格统计方法论、私有题库
Scale AI	SWE-bench Pro · HLE leaderboard	保留私有 holdout、人工核验
Artificial Analysis	Intelligence Index v4（10 项加权、±1% 95% CI）	独立、复合、方法论透明
ARC Prize（Chollet et al.）	ARC-AGI-1 / 2	对纯 scale-up 极难突破、Kaggle 私有 holdout
Stanford + Laude	Terminal-Bench 1 / 2	容器化、ICLR 2026 同行评审
Berkeley Gorilla 组	BFCL v3 / v4	工具调用场景快速迭代
Sierra Research	τ-bench · τ²-bench	真实 agent + user 交互模拟
LMArena / LMSYS	Chatbot Arena	可作为偏好信号 —— 不再适合能力排名

Anthropic、OpenAI 都维持有强大的内部评测体系（Anthropic Model Spec evals、OpenAI SimpleQA / MMMLU-Pro），但未完全公开。OpenAI 的 Model Spec 更像规范文档而非 benchmark。

读 benchmark 的 5 条实用建议

看新版本，不看旧版本。SWE-bench → SWE-bench Pro、τ → τ²、BFCL v3 → v4、LongBench → LongBench v2、Terminal-Bench 1 → 2
看"同模型跨版本分差"。这是真正的污染税，比绝对分数更诚实
看复合指数胜过看单榜。AA Intelligence Index v4 这种 10 项加权的指数对 Goodhart's Law 更鲁棒
看是否有私有 holdout。没有 holdout 的 benchmark，它的半衰期只以月计
看是否有人类基线。HLE、FrontierMath、RE-Bench 都能告诉你"离人类专家还差多少"——这比"离 SOTA 还差多少"重要得多

编辑观点

2026 年的 benchmark 生态正在经历一次"大洗牌"，本质是过去三年大模型厂商、研究者、测评方之间的一场博弈：厂商有动力把 benchmark 分数推到 100%，而真正的"能力"永远藏在模型还没见过的分布里。好 benchmark 的唯一出路是跑得比训练数据更快——用私有 holdout、用滚动更新、用真实任务。

"如果一个 benchmark 的 SOTA 超过 90%，它在测记忆；如果前沿模型在上面分差小于 3pp，它什么都不在测。"这不是刻薄的吐槽，是 2026 年读任何一篇"我们在 XX benchmark 上拿到 SOTA"公告时应该默念的口诀。Claude Opus 4.5 在 SWE-bench Verified 拿 80.9%，在 Pro 上 45.9%——这 35pp 的污染税，才是唯一值得写进研报的数字。

MMLU 的故事注定会在每个 benchmark 身上重演一遍。当年让大家惊呼"模型要突破人类了"的那个数字，三年之后会变成一个 saturated 的脚注。真正有长期价值的是方法论：私有题库、真实任务、专家基线、版本迭代。沿着这四条线，下一代 benchmark 会比模型活得更久。

对业务选型而言，最实际的动作不是追最新 SOTA，而是在自己的真实任务上搭一个 mini benchmark——50 到 200 个你业务上最典型的 case，自己跑 3–5 次不同模型，自己判分。这套"私有 holdout"对你来说永远不会被污染，永远反映你最关心的那组能力。

参考文献

[1] SWE-Bench Pro: Can AI Agents Solve Long-Horizon Software Engineering Tasks? — arxiv.org/abs/2509.16941

[2] FrontierMath — epoch.ai/frontiermath

[3] SWE-Bench Pro Leaderboard 2026 — morphllm.com/swe-bench-pro

[4] SWE-Bench Pro: Raising the Bar — Scale — scale.com/blog/swe-bench-pro

[5] Terminal-Bench — tbench.ai · ICLR 2026 paper — openreview.net

[6] Why we no longer evaluate SWE-bench Verified — OpenAI — openai.com

[7] GPQA Diamond — Epoch AI — epoch.ai/benchmarks/gpqa-diamond

[8] Announcing ARC-AGI-2 and ARC Prize 2025 — arcprize.org

[9] ARC Prize 2025 Results and Analysis — arcprize.org

[10] τ²-bench — Sierra Research — github.com/sierra-research/tau2-bench

[11] LMSYS: Does style matter? — lmsys.org

[12] LM Arena has been gamed — bskiller.com

[13] MMLU-CF Contamination-free benchmark (arXiv 2412.15194) — arxiv.org/abs/2412.15194

[14] Benchmarking Benchmark Leakage in LLMs (arXiv 2404.18824) — arxiv.org/abs/2404.18824

[15] Artificial Analysis Intelligence Index methodology — artificialanalysis.ai

[16] AA overhauls Intelligence Index — VentureBeat — venturebeat.com

[17] Humanity's Last Exam — agi.safe.ai · Leaderboard — artificialanalysis.ai

[18] LongBench v2 — longbench2.github.io

[19] BFCL — Berkeley Function Calling Leaderboard — gorilla.cs.berkeley.edu

[20] RE-Bench — METR — metr.org

[21] How We Broke Top AI Agent Benchmarks — Berkeley RDI — rdi.berkeley.edu

[22] AI agent achieves perfect scores by hacking benchmarks — Cybernews — cybernews.com

登录后阅读完整报告

包含详细分析、数据图表、竞品对比、参考文献等

Google 登录

或

AI 评测集方法论哪些 benchmark 还能反映模型能力，好的 benchmark 怎么设计

登录后阅读完整报告

AI 评测集方法论
哪些 benchmark 还能反映模型能力，好的 benchmark 怎么设计