深度研报 · Agent 评测 · 2026.03

WildClawBench:野生环境 AI Agent 能力评测
10 大模型谁的"龙虾"最强?

InternLM 团队发布 WildClawBench,在 OpenClaw 真实运行环境中评测 AI Agent。60 个任务、独立 Docker 容器、评分脚本后注入——所有顶尖模型都在 55% 以下。你的龙虾,够硬吗?

60
评测任务
10
参评模型
51.1%
最高得分
6
任务类别
核心发现:WildClawBench 是第一个在 OpenClaw 真实运行环境中评测 AI Agent 的基准。60 个任务覆盖日常工作与生活,每个任务在独立 Docker 容器中运行,评分脚本在任务结束后才注入——这意味着模型无法"偷看答案"。结果令人清醒:最强的 Claude Opus 4.6 也只拿到 51.1%,而且花了 $80.85。

过去的 AI Agent 评测大多在理想化的实验室环境中进行——预设好的工具、干净的输入、明确的指令。但现实世界不是这样的。你的 OpenClaw Agent(龙虾)每天面对的是模糊的需求、冲突的信息、需要 20 分钟以上才能完成的长程任务。[1]

InternLM 团队的 WildClawBench 正是为了回答这个问题:当 AI Agent 被放进"野外",它到底有多能打?答案是——即使是最强模型,也远没有到"够用"的阶段。10 个模型、60 个任务、6 大类别,本报告带你逐一拆解。[2]

§1

什么是 WildClawBench

首个在 OpenClaw 真实运行环境中评测 AI Agent 的基准

WildClawBench 由 InternLM 团队开发并开源,核心理念是"在野生环境中测试 Agent"——不是给模型一个精心设计的沙盒,而是把它扔进真实用户每天使用 OpenClaw Agent 的场景中,看它能不能活下来。[1]

60
评测任务总数
6
任务类别
<55%
所有模型最高分
Docker
容器级隔离

三大难度维度:为什么这么难?

M 多模态推理

任务可能涉及图像理解、音频处理、视频分析。Agent 不仅要"看懂",还要根据多模态信息做出决策和行动。传统纯文本 benchmark 完全无法覆盖这个维度。[2]

P 长程规划

部分任务需要60+ 次工具调用20+ 分钟的持续执行。这不是"一问一答",而是需要 Agent 制定计划、分步执行、处理中间失败、动态调整策略的长链推理。[1]

C 代码生成

大量任务需要 Agent 编写和执行真实代码——不是 LeetCode 式的算法题,而是"帮我把这堆 CSV 文件按照特定规则合并并生成可视化报告"这种真实工程任务。[2]

T
任务下发
自然语言指令
D
Docker 容器
独立沙箱环境
A
Agent 执行
工具调用 + 代码
E
评分注入
任务结束后才注入
"We designed WildClawBench to answer one question: when you take AI agents out of the lab and drop them into the wild, how well do they actually perform? The answer, it turns out, is humbling." —— WildClawBench 团队[1]
§2

完整排行榜:10 大模型对比

谁的龙虾最强?谁的性价比最高?谁在裸泳?

以下是 WildClawBench 首批 10 个模型的完整评测结果。每个模型在全部 60 个任务上独立运行,记录总得分、总耗时和总 API 调用成本。[1]

排名模型得分耗时成本机构Tier
1Claude Opus 4.651.1%30,485s$80.85AnthropicT0
2GPT-5.448.5%21,002s$20.08OpenAIT0
3MiMo V2 Pro40.6%27,508s$26.47小米T1
4Gemini 3.1 Pro38.4%14,373s$18.22GoogleT1
5Qwen 3.5 397B33.5%27,527s$22.33阿里T1
6GLM 5 Turbo33.4%29,916s$14.80智谱T1
7MiniMax M2.733.0%33,085s$7.47MiniMaxT1
8Kimi K2.528.7%24,333s$6.73月之暗面T2
9Step 3.5 Flash27.7%25,798s$6.63阶跃星辰T2
10Grok 4.20 Beta19.5%5,640s$9.63xAIT2

五大关键发现

1 Opus 4.6 最强但天价

51.1% 的得分遥遥领先,但 $80.85 的成本是 GPT-5.4 的 4 倍。每提升 1% 的分数需要多花 $23。对于企业级部署,这个"最后 3% 的溢价"值不值,是个真问题。[1]

2 GPT-5.4 是性价比之王(T0 级)

48.5% 的得分仅落后 Opus 2.6 个百分点,但成本只有 $20.08——不到 Opus 的四分之一。如果你追求的是"够强且不破产",GPT-5.4 是当前最优解。[1]

3 MiMo V2 Pro:国产黑马

小米的 MiMo V2 Pro 以 40.6% 拿下国产模型第一,超越 Gemini 3.1 Pro、GLM 5 Turbo、Qwen 3.5 397B。这匹黑马证明了国产模型在 Agent 任务上的竞争力不容小觑。[1]

4 MiniMax M2.7:成本效率冠军

33.0% 的得分在 T1 梯队中规中矩,但 $7.47 的成本是所有模型中第二低的。如果你的任务对精度要求不那么极端,M2.7 用十分之一的钱拿到了 Opus 六成的能力。[1]

5 Grok 4.20:"快但不准"

5,640 秒的总耗时遥遥领先(其他模型普遍 2-3 万秒),但 19.5% 的得分垫底。速度快是因为很多任务直接放弃了,而不是真的高效。在 Agent 场景下,"想都没想就回答"比"想半天答对了"更危险。[1]

所有模型都在 55% 以下——这说明什么?
WildClawBench 揭示了一个残酷的现实:AI Agent 的真实能力,远没有日常 demo 演示看起来那么强。在受控环境里,Agent 可以完成令人惊叹的任务;但一旦放进"野外"——信息不完整、工具不稳定、需求模糊——即使是最强的 Claude Opus 4.6 也只能做对一半。[2]
关于成本的残酷算术:跑完 60 个任务,Opus 花了 $80.85,相当于每个任务 $1.35。如果你的 Agent 每天处理 100 个类似复杂度的任务,月成本约 $4,050。用 MiniMax M2.7 则降到约 $375/月——10 倍的成本差距,这就是为什么"性价比"在 Agent 时代是核心竞争力。

登录后阅读完整报告

包含详细分析、数据图表、竞品对比、参考文献等

Google 登录