前沿分差 < 1pp
同一模型的分差
实测掉分
揭露私下测试
| 类别 | Benchmark | 当前 SOTA | 健康度 |
|---|---|---|---|
| 前沿推理 | HLE(Humanity's Last Exam)2500 道专家难题 | Gemini 3.1 Pro 44.7%、GPT-5.4 41.6% | 健康 |
| ARC-AGI-2 私有题库 + $0.20/题算力上限 | Kaggle 24% · Claude Opus 4.5 Thinking 37.6% | 健康 | |
| GPQA Diamond | Gemini 3.1 Pro 94.1% / GPT-5.4 92.0% | 将饱和 | |
| 编码 / Agent | SWE-bench Pro(1865 题,含商业代码库与隔离 holdout) | Claude Opus 4.7 64.3% / Opus 4.5 45.9% | 健康 |
| Terminal-Bench 2.0(Stanford + Laude,89 个 Docker 任务) | Claude Mythos 82% · GPT-5.3 Codex 77.3% | 健康 | |
| SWE-bench Verified(500 题) | Claude Opus 4.5 80.9% | 已弃用 | |
| 长上下文 | MRCR v2(8-needle @ 1M token) | Claude Opus 4.6 76%(4.7 回撤到 32.2%) | 健康 |
| LongBench v2(503 题,8k–2M 词) | o1-preview 57.7% 略胜人类 53.7% | 健康 | |
| 数学 | FrontierMath(Epoch AI 未公开题库) | GPT-5.4 Pro 综合 50%、Tier 4 尚 < 35% | 健康 |
| MATH-500 / GSM8K | > 95% | 污染/饱和 | |
| 真实 Agent / 多轮 | τ²-bench(Sierra Research,航空/零售域多轮) | AA Index v4 权重项 | 健康 |
| RE-Bench(METR,7 个 ML R&D 环境 × 61 位人类专家) | 2h 预算 agent 胜人 4×;8h 预算人胜 | 健康 | |
| 写作 / 偏好 | LMSys Chatbot Arena | — | 可游戏化 |
| Artificial Analysis 写作偏好、WildBench | Opus 4.7 47% / GPT-5.5 29% | 辅助参考 | |
| 工具调用 | BFCL v3/v4(Berkeley) | GLM 4.5 76.7% · Qwen3 32B 75.7% | 健康 |
| 案例 | 问题 |
|---|---|
| MMLU 饱和 | GPT-5.3 Codex ~93%;前沿差 < 1pp;推理时去污染可让得分掉 19%[13] |
| SWE-bench Verified 污染 | OpenAI 审计发现"所有前沿模型都能逐字复述标准补丁";Claude Opus 4.5 在 Verified 80.9% vs Pro 45.9%——35pp 污染税。OpenAI 已公开停止报告 Verified 结果[3][6] |
| GSM8K Common Crawl 泄漏 | 2023 年研究显示剔除污染样本后模型掉分最高 13%,ITD 方法再往下挖可到 −22.9%[14] |
| HumanEval 记忆化 | 164 题全网扒遍;业内已降级为"smoke test",不再作为能力信号 |
| LMSys Arena 风格游戏化 | LMSys 官方博客确认排版、emoji、格式会显著影响偏好;68 页审计揭露 Meta / OpenAI / Google / Amazon 私下测多个变体只公开最优那个[11][12] |
| OSWorld / WebArena 被攻破 | Berkeley RDI 研究员演示可用"不真正完成任务"的 agent 骗到接近满分[21][22] |
| Goodhart's Law | 单一指标排行榜驱动 targeted fine-tune;AA v4 这类 10 项加权复合指数对此更鲁棒[15] |
- SWE-bench 原版(2023):2294 个 GitHub issue。很快被证明训练集包含大量相同 repo 的历史 commit
- SWE-bench Verified(2024):人工筛选 500 题,OpenAI 和 Anthropic 都把它当主力榜
- 2025 年 OpenAI 审计:所有前沿模型都能背出标准补丁,意味着 verified 版仍在训练分布内[6]
- SWE-bench Pro(arXiv 2509.16941):1865 题,含 731 公共 GPL 题 + 276 商业合作代码题 + holdout repo,每题人工 verify、跨仓库 holdout 防过拟[1][4]
- 结果:Claude Opus 4.5 在 Verified 上 80.9%,在 Pro 上只有 45.9%。差 35pp——这 35pp 才是真正"污染税"
- OpenAI 表态:2026 年初公开宣布 "We no longer evaluate SWE-bench Verified"[6]
| 机构 | 代表作 | 为什么可信 |
|---|---|---|
| METR | RE-Bench · Time Horizons | 专家基线、关注 AI 治理与风险 |
| Epoch AI | FrontierMath · benchmark hub | 严格统计方法论、私有题库 |
| Scale AI | SWE-bench Pro · HLE leaderboard | 保留私有 holdout、人工核验 |
| Artificial Analysis | Intelligence Index v4(10 项加权、±1% 95% CI) | 独立、复合、方法论透明 |
| ARC Prize(Chollet et al.) | ARC-AGI-1 / 2 | 对纯 scale-up 极难突破、Kaggle 私有 holdout |
| Stanford + Laude | Terminal-Bench 1 / 2 | 容器化、ICLR 2026 同行评审 |
| Berkeley Gorilla 组 | BFCL v3 / v4 | 工具调用场景快速迭代 |
| Sierra Research | τ-bench · τ²-bench | 真实 agent + user 交互模拟 |
| LMArena / LMSYS | Chatbot Arena | 可作为偏好信号 —— 不再适合能力排名 |
- 看新版本,不看旧版本。SWE-bench → SWE-bench Pro、τ → τ²、BFCL v3 → v4、LongBench → LongBench v2、Terminal-Bench 1 → 2
- 看"同模型跨版本分差"。这是真正的污染税,比绝对分数更诚实
- 看复合指数胜过看单榜。AA Intelligence Index v4 这种 10 项加权的指数对 Goodhart's Law 更鲁棒
- 看是否有私有 holdout。没有 holdout 的 benchmark,它的半衰期只以月计
- 看是否有人类基线。HLE、FrontierMath、RE-Bench 都能告诉你"离人类专家还差多少"——这比"离 SOTA 还差多少"重要得多
2026 年的 benchmark 生态正在经历一次"大洗牌",本质是过去三年大模型厂商、研究者、测评方之间的一场博弈:厂商有动力把 benchmark 分数推到 100%,而真正的"能力"永远藏在模型还没见过的分布里。好 benchmark 的唯一出路是跑得比训练数据更快——用私有 holdout、用滚动更新、用真实任务。
"如果一个 benchmark 的 SOTA 超过 90%,它在测记忆;如果前沿模型在上面分差小于 3pp,它什么都不在测。"这不是刻薄的吐槽,是 2026 年读任何一篇"我们在 XX benchmark 上拿到 SOTA"公告时应该默念的口诀。Claude Opus 4.5 在 SWE-bench Verified 拿 80.9%,在 Pro 上 45.9%——这 35pp 的污染税,才是唯一值得写进研报的数字。
MMLU 的故事注定会在每个 benchmark 身上重演一遍。当年让大家惊呼"模型要突破人类了"的那个数字,三年之后会变成一个 saturated 的脚注。真正有长期价值的是方法论:私有题库、真实任务、专家基线、版本迭代。沿着这四条线,下一代 benchmark 会比模型活得更久。
对业务选型而言,最实际的动作不是追最新 SOTA,而是在自己的真实任务上搭一个 mini benchmark——50 到 200 个你业务上最典型的 case,自己跑 3–5 次不同模型,自己判分。这套"私有 holdout"对你来说永远不会被污染,永远反映你最关心的那组能力。