过去的 AI Agent 评测大多在理想化的实验室环境中进行——预设好的工具、干净的输入、明确的指令。但现实世界不是这样的。你的 OpenClaw Agent(龙虾)每天面对的是模糊的需求、冲突的信息、需要 20 分钟以上才能完成的长程任务。[1]
InternLM 团队的 WildClawBench 正是为了回答这个问题:当 AI Agent 被放进"野外",它到底有多能打?答案是——即使是最强模型,也远没有到"够用"的阶段。10 个模型、60 个任务、6 大类别,本报告带你逐一拆解。[2]
什么是 WildClawBench
首个在 OpenClaw 真实运行环境中评测 AI Agent 的基准
WildClawBench 由 InternLM 团队开发并开源,核心理念是"在野生环境中测试 Agent"——不是给模型一个精心设计的沙盒,而是把它扔进真实用户每天使用 OpenClaw Agent 的场景中,看它能不能活下来。[1]
- 60 个精心构建的评测任务覆盖日常工作、编码、社交互动、信息检索、创意合成、安全对齐六大场景。每个任务都来源于 OpenClaw 用户的真实使用记录,不是人为编造的"考试题"。[2]
- 独立 Docker 容器隔离每个任务在全新的 Docker 容器中运行,模型无法访问其他任务的数据或环境。更关键的是——评分脚本在任务结束后才注入,杜绝了模型通过"偷看评分标准"来作弊的可能。[1]
- 0.00-1.00 连续评分不是简单的"通过/失败"二元评价,而是 0.00 到 1.00 的连续分数。部分完成也能拿到分数,但要拿高分极其困难——最强模型也只有 51.1%。[1]
三大难度维度:为什么这么难?
任务可能涉及图像理解、音频处理、视频分析。Agent 不仅要"看懂",还要根据多模态信息做出决策和行动。传统纯文本 benchmark 完全无法覆盖这个维度。[2]
部分任务需要60+ 次工具调用和20+ 分钟的持续执行。这不是"一问一答",而是需要 Agent 制定计划、分步执行、处理中间失败、动态调整策略的长链推理。[1]
大量任务需要 Agent 编写和执行真实代码——不是 LeetCode 式的算法题,而是"帮我把这堆 CSV 文件按照特定规则合并并生成可视化报告"这种真实工程任务。[2]
完整排行榜:10 大模型对比
谁的龙虾最强?谁的性价比最高?谁在裸泳?
以下是 WildClawBench 首批 10 个模型的完整评测结果。每个模型在全部 60 个任务上独立运行,记录总得分、总耗时和总 API 调用成本。[1]
| 排名 | 模型 | 得分 | 耗时 | 成本 | 机构 | Tier |
|---|---|---|---|---|---|---|
| 1 | Claude Opus 4.6 | 51.1% | 30,485s | $80.85 | Anthropic | T0 |
| 2 | GPT-5.4 | 48.5% | 21,002s | $20.08 | OpenAI | T0 |
| 3 | MiMo V2 Pro | 40.6% | 27,508s | $26.47 | 小米 | T1 |
| 4 | Gemini 3.1 Pro | 38.4% | 14,373s | $18.22 | T1 | |
| 5 | Qwen 3.5 397B | 33.5% | 27,527s | $22.33 | 阿里 | T1 |
| 6 | GLM 5 Turbo | 33.4% | 29,916s | $14.80 | 智谱 | T1 |
| 7 | MiniMax M2.7 | 33.0% | 33,085s | $7.47 | MiniMax | T1 |
| 8 | Kimi K2.5 | 28.7% | 24,333s | $6.73 | 月之暗面 | T2 |
| 9 | Step 3.5 Flash | 27.7% | 25,798s | $6.63 | 阶跃星辰 | T2 |
| 10 | Grok 4.20 Beta | 19.5% | 5,640s | $9.63 | xAI | T2 |
五大关键发现
51.1% 的得分遥遥领先,但 $80.85 的成本是 GPT-5.4 的 4 倍。每提升 1% 的分数需要多花 $23。对于企业级部署,这个"最后 3% 的溢价"值不值,是个真问题。[1]
48.5% 的得分仅落后 Opus 2.6 个百分点,但成本只有 $20.08——不到 Opus 的四分之一。如果你追求的是"够强且不破产",GPT-5.4 是当前最优解。[1]
小米的 MiMo V2 Pro 以 40.6% 拿下国产模型第一,超越 Gemini 3.1 Pro、GLM 5 Turbo、Qwen 3.5 397B。这匹黑马证明了国产模型在 Agent 任务上的竞争力不容小觑。[1]
33.0% 的得分在 T1 梯队中规中矩,但 $7.47 的成本是所有模型中第二低的。如果你的任务对精度要求不那么极端,M2.7 用十分之一的钱拿到了 Opus 六成的能力。[1]
5,640 秒的总耗时遥遥领先(其他模型普遍 2-3 万秒),但 19.5% 的得分垫底。速度快是因为很多任务直接放弃了,而不是真的高效。在 Agent 场景下,"想都没想就回答"比"想半天答对了"更危险。[1]
WildClawBench 揭示了一个残酷的现实:AI Agent 的真实能力,远没有日常 demo 演示看起来那么强。在受控环境里,Agent 可以完成令人惊叹的任务;但一旦放进"野外"——信息不完整、工具不稳定、需求模糊——即使是最强的 Claude Opus 4.6 也只能做对一半。[2]