一句话定位
"一把极度锋利但也极度专用的 agent 编程手术刀——擅长的更擅长了,不擅长的更差了。"
Claude Opus 4.7 在编程 agent、代码审查、细颗粒度修复等"真正干活"的场景拉开差距;但在长上下文召回、创意写作、多轮研究这三个维度出现明显能力回撤。它不再是"默认最强模型",而是"特定场景下断档领先的模型"[1][2][3]。
- AA Intelligence Index:57(与 Gemini 3.1 Pro 并列,GPT-5.5 为 60)[3]
- SWE-bench Pro:64.3%(单模型榜首,OpenAI 对结果有争议)[2][6]
- Terminal-Bench:69.4%(GPT-5.5 为 82.7%)[3][6]
- CursorBench:70%(Cursor 官方盲测,排名第一)[4]
- MRCR 长上下文召回:78.3%→32.2%(vs Opus 4.6,严重回撤)[3][7]
- 定价不变,但 tokenizer 改动导致同一段文本多切 0–35%(实际花费隐性上涨)[8]
核心升级(vs 4.6)
| 维度 | Opus 4.6 | Opus 4.7 | 变化 |
|---|---|---|---|
| SWE-bench Pro | 59.4% | 64.3% | +4.9pp |
| Terminal-Bench | 63.8% | 69.4% | +5.6pp |
| CursorBench(盲测) | 62% | 70% | +8pp |
| MRCR 长上下文召回 | 78.3% | 32.2% | −46.1pp |
| 写作偏好(盲测) | 41% | 47% | +6pp |
| 新特性 · xhigh effort | — | ✅ | 新增推理档位 |
| 新特性 · Task Budgets | — | ✅ | API 端控 token 上限 |
| 模型 ID | claude-opus-4-6 | claude-opus-4-7 | — |
数据来自 Anthropic 官方 System Card 与 Artificial Analysis 盲测榜单[1][3]。MRCR 回撤由社区在 1M 上下文开启后首次发现[7]。
场景推荐矩阵
Opus 4.7 最大的争议是——它在某些场景断档领先,在另一些场景明显变差。下面按"该不该用"给出 6 个具体建议。
✅ 强烈推荐
场景 1|硬 agent 编程(自主改多文件、跑测试、提 PR)
这是 Opus 4.7 打造的主战场。SWE-bench Pro 单模型 64.3%,CursorBench 盲测 70%,Cursor、Claude Code、Codex CLI 等 agent 环境下表现优于 GPT-5.5 与 Gemini 3.1 Pro[2][4][6]。
判断依据:如果你的任务是"给一个 repo,读懂上下文 → 修改 3–10 个文件 → 跑测试 → 迭代",Opus 4.7 的工具调用成功率、错误恢复能力明显优于 4.6;xhigh effort 档位可以再压 5–8pp 提升(代价是延迟翻倍)[5]。
✅ 强烈推荐
场景 2|代码审查 / ultrareview / 安全审计
与"写代码"同一层能力,但在"看代码"方向上 4.7 的提升更明显——遗漏率下降、解释质量提升、对隐蔽 bug(竞态、空指针、SQL 注入)敏感度高[4][5]。
判断依据:PR review、CI 集成审计、Claude Code 的
/ultrareview 多 agent 并行审查等场景优先用 Opus 4.7 + xhigh。单次 review 少则 15 万 token,成本虽高但换来的是漏检风险下降——这是少数"贵得值"的场景。
✅ 推荐
场景 3|精细单次补丁(人工审查后手工 apply)
4.7 的生成风格更"守规矩"——不会无故重写周边代码、不会引入无关抽象、不会过度改动格式。对于"我只想改这一处 bug,别动别的"的场景,这是 4.6 之后最被低估的升级[4]。
判断依据:如果你是人工过目每个 diff 才合并的开发者,这种"外科手术式修复"正是你要的;如果你是完全放手让 agent 自主跑的团队,它的保守可能反而让任务进度慢——那种场景更适合开 xhigh 或切 Sonnet 4.6 做初稿。
❌ 不推荐
场景 4|长上下文、多文档研究、跨 session 对话
Opus 4.7 在 MRCR 长上下文召回基准上从 4.6 的 78.3% 跌到 32.2%——这是近两年 Anthropic 旗舰模型中最剧烈的一次能力回撤[3][7]。社区在 1M 上下文开放几天内就发现:一旦输入超过 200K token,4.7 会开始"忘记"前半段的关键细节。
判断依据:研报综述、合同全文分析、整本书问答、长客服会话等任务,切 GPT-5.5(MRCR v2 74%)或 Gemini 3.1 Pro。这不是"差一点",而是"明显错位"——Anthropic 自己也在 System Card 里承认权衡[1]。
❌ 不推荐
场景 5|创意写作、小说、情感对话、角色扮演
尽管 Artificial Analysis 盲测显示 4.7 的"写作偏好" 47% 高于 GPT-5.5 的 29%[3],但大量长期用户反馈 4.7 的文本"温度感消失、更机械、更工具化"——适合写报告、写说明,不适合写故事或有血肉的角色对话[9]。
判断依据:如果你用 Claude 的场景偏创作(AI 陪伴、NovelAI 风格、人物小说),建议保留 4.6 或混用 Sonnet 4.6——4.7 的 RLHF 取向明显更偏"任务完成"而非"情感表达",并且不对主动询问 hold。写作偏好榜单是单问答盲测,并不代表长篇小说的体验。
⚠️ 必须重写
场景 6|把旧 Opus 4.6 的 prompt 直接切到 4.7
4.7 的指令遵循风格显著更"字面化"——4.6 能"领悟意图"的半结构化 prompt,4.7 很可能直接照字面执行[4][5]。大量用户切过来第一天就发现结果发生质变,回退到 4.6。
判断依据:如果你生产环境跑着 4.6 prompt,不要改模型 ID 就上线。建议:① 小流量 A/B;② 把"言下之意"写成"显式指令";③ 涉及 tool calling 的再看一次 tool schema 是否需要加更明确的 hint。对 100+ 条 prompt 的团队,这是个一周以上的迁移工程。
小结:如果你的业务八成以上属于"硬 agent 编程 / 代码审查 / 精细补丁",切 4.7,配合 xhigh;如果八成以上属于"长文档研究 / 创意写作",保留 4.6 或切 GPT-5.5;混合场景则建议做模型路由——这也是社区这几天讨论最多的实操路径[4][9]。
vs GPT-5.5 / Gemini 3.1 Pro
| 评测项 | Opus 4.7 | GPT-5.5 | Gemini 3.1 Pro |
|---|---|---|---|
| SWE-bench Pro | 64.3 * | 58.6 | — |
| Terminal-Bench | 69.4 | 82.7 | 68.5 |
| CursorBench(盲测) | 70 | — | — |
| 长上下文召回 | 32.2 | 74.0 | — |
| BrowseComp Pro(网页研究) | — | 90.1 | 85.9 |
| 写作偏好 | 47 | 29 | 24 |
| Intelligence Index | 57 | 60 | 57 |
| 定价(输入/输出 per 1M) | $15 / $75 | $5 / $30 | $3.5 / $17.5 |
* OpenAI 方面指出 Anthropic 的 SWE-bench Pro 部分题目存在记忆化嫌疑,结果有争议[6]。Opus 4.7 的 Terminal-Bench 与 GPT-5.5 差距较大,但 Cursor 官方盲测(真实 IDE 任务)反而是 Opus 4.7 排名第一——benchmark 差异本身就是这次 4.7 最值得玩味的地方[4]。
隐性涨价:tokenizer 变更 0–35%
Opus 4.7 的账面价格与 4.6 完全一致($15 输入 / $75 输出),但 Anthropic 在这一版更换了 tokenizer 词表——同一段文本在 4.7 上被切成的 token 数量,比 4.6 多 0–35%(取决于语言和内容)[8]。
- 中文、日文、代码 diff 这几类"4.6 本来就压缩不好"的文本涨幅最小(0–5%)
- 英文自然语言、JSON schema、Markdown 涨幅最大(可能到 30%+)
- 对重度 API 用户意味着隐性涨价——以往成本预算需要乘以 1.1–1.3 做安全垫
- Cache read/write 价格同步保持 $1.5 / $18.75,但缓存命中率在新 tokenizer 下仍待实测
- 建议:上 4.7 之前用你自己真实流量里的 1000 条样本,分别在 4.6 / 4.7 上走一次 count_tokens 接口做基线对比
xhigh effort 与 task budgets
4.7 同时上线两个 API 侧的新能力,对控制成本与质量都很关键[5]:
1. reasoning_effort: "xhigh"(新增档位)
- 在 low / medium / high 之上新增的最高档
- 在 SWE-bench / CursorBench 上比 high 再提升 3–5pp
- 代价:延迟翻倍,平均 token 用量 1.5–2x
- 适合:一次性"不计成本只要质量"的任务(关键 PR 审查、生产故障诊断)
2. task_budgets(请求级预算上限)
- 在请求里直接声明 token 上限,超限模型自动收尾输出
- 解决了 4.6 时代"agent 跑飞"烧钱的痛点
- 与 xhigh 搭配使用最合理:开 xhigh 但设 budget cap 防暴走
- 与 Claude Agent SDK 深度集成,Anthropic 同时开源了 SDK 示例
Mythos Preview 与 Project Glasswing
两个与 4.7 一起发布、但容易被忽视的能力[1][10]:
Mythos Preview(官方预览)
- Claude.ai 上线的多步 agent 预览模式——Claude 先展示"我打算怎么做",再用户确认后执行
- 对"一次生成 2 小时工作量"的超长任务体感提升显著
- 仅限 Claude.ai 前端,API 尚未开放同等接口
Project Glasswing(设计工具野心)
- Claude Design 背后的代号,Opus 4.7 是其默认驱动模型
- Mike Krieger(Instagram 联合创始人,现任 Anthropic CPO)主推
- 发布当日 Figma 股价应声下跌约 7%,是近期 Anthropic 公关声量最高的"非模型产品"
- 参考:Claude Design 深度解读
API 破坏性变更
上 4.7 前必看:以下几个点在 4.6→4.7 升级时实际已经咬过不少用户[4][5][8]:
- Tokenizer 换了——count_tokens 接口数字会变,计费也跟着变
- System prompt 敏感度提升——同一 system prompt 在 4.7 上输出风格会有可感知差异
- Tool use 更严格——tool schema 里描述不清晰的参数,4.7 会拒绝调用或反问用户,4.6 会"猜着填"
- Prompt caching 结构一致但命中率需重测——tokenizer 变动下缓存粒度会重新对齐
- 流式输出首 token 延迟——xhigh 档下 TTFT 可达数秒,前端需要 loading 态优化
- 旧版模型 ID 并未下线——claude-opus-4-6 仍可访问,回退路径保留
编辑观点
Opus 4.7 是 Anthropic 近两年定位最清晰、也最具争议的一次发布。"硬 agent 编程 + 代码审查"这两个场景断档领先,是 Claude 商业上最要守住的基本盘;但把长上下文和创意写作能力拿出去换编程能力,这个取舍比起之前的"全能旗舰"路线,更像 OpenAI o 系列"推理模型"范式的正式确认——Anthropic 也承认这一代无法同时做到两头。
真正应该关注的不是 benchmark 分数,而是你的业务场景。SWE-bench Pro 64.3%、Terminal-Bench 69.4%、CursorBench 70% 这三个数字互相"打架"——说明现在 agent 类 benchmark 本身已经没有一个万能的排名,更好的方法是在自己的任务集上做小规模盲测后再决定切不切。
MRCR 的 46pp 回撤是这次发布最大的"黑天鹅"。在 Anthropic 正积极推 1M context 的当口,一个旗舰模型的长上下文能力反而变得比上代更不可靠,是对"1M 可用"本身的打脸。短期之内,如果你的 agent 需要读超过 200K token 的文档,请在生产环境保留 GPT-5.5 作为备选 route。
最后是成本信号:tokenizer 变更带来的 0–35% 隐性涨价,比公开涨价更麻烦。它不会在新闻里刷屏,但会在季度账单上出现——对所有已经在 Opus 档投入深度的团队来说,下一个月的预算需要重新跑一遍。
参考文献
[1] Anthropic — anthropic.com/news/claude-opus-4-7(官方发布与 System Card)
[2] SWE-bench Pro Leaderboard — swebench.com
[3] Artificial Analysis — artificialanalysis.ai/models/claude-opus-4-7(Intelligence Index / MRCR / 写作偏好盲测)
[4] Cursor Blog — cursor.com/blog/opus-4-7(CursorBench 盲测与迁移建议)
[5] Anthropic API Docs — docs.anthropic.com/en/docs/about-claude/models/overview(xhigh / task_budgets / tool use 变更)
[6] VentureBeat — venturebeat.com(OpenAI 对 Anthropic SWE-bench Pro 结果的质疑)
[7] MRCR v2 社区复测 — github.com/openai/mrcr(开源复测脚本 + 社区 issue 记录 4.7 回撤)
[8] Anthropic Pricing — anthropic.com/pricing(价格不变,tokenizer 变更说明见 Discord 官方答疑)
[9] Reddit r/ClaudeAI — reddit.com/r/ClaudeAI(社区对创意写作 / 长对话体验回撤的集中反馈)
[10] Claude Design — AI Insight 深度解读(Project Glasswing / Mike Krieger / Figma 股价)