产品解读 · Anthropic

Claude Opus 4.7 使用指南
什么情况下该用,什么情况下别用

硬 agent 编程旗舰级 · 长上下文严重回归 · 创意写作变机械 · 旧 prompt 必须重写 · 隐性涨价 0–35%

🏆 SWE-bench Pro 64.3%
⚠️ MRCR 78.3→32.2%
🎨 写作偏好 47%
💰 Tokenizer +0–35%
一句话定位
"一把极度锋利但也极度专用的 agent 编程手术刀——擅长的更擅长了,不擅长的更差了。"
Claude Opus 4.7 在编程 agent、代码审查、细颗粒度修复等"真正干活"的场景拉开差距;但在长上下文召回、创意写作、多轮研究这三个维度出现明显能力回撤。它不再是"默认最强模型",而是"特定场景下断档领先的模型"[1][2][3]
核心升级(vs 4.6)
维度 Opus 4.6 Opus 4.7 变化
SWE-bench Pro 59.4% 64.3% +4.9pp
Terminal-Bench 63.8% 69.4% +5.6pp
CursorBench(盲测) 62% 70% +8pp
MRCR 长上下文召回 78.3% 32.2% −46.1pp
写作偏好(盲测) 41% 47% +6pp
新特性 · xhigh effort 新增推理档位
新特性 · Task Budgets API 端控 token 上限
模型 ID claude-opus-4-6 claude-opus-4-7
数据来自 Anthropic 官方 System Card 与 Artificial Analysis 盲测榜单[1][3]。MRCR 回撤由社区在 1M 上下文开启后首次发现[7]
场景推荐矩阵
Opus 4.7 最大的争议是——它在某些场景断档领先,在另一些场景明显变差。下面按"该不该用"给出 6 个具体建议。
✅ 强烈推荐
场景 1|硬 agent 编程(自主改多文件、跑测试、提 PR)
这是 Opus 4.7 打造的主战场。SWE-bench Pro 单模型 64.3%,CursorBench 盲测 70%,Cursor、Claude Code、Codex CLI 等 agent 环境下表现优于 GPT-5.5 与 Gemini 3.1 Pro[2][4][6]
判断依据:如果你的任务是"给一个 repo,读懂上下文 → 修改 3–10 个文件 → 跑测试 → 迭代",Opus 4.7 的工具调用成功率、错误恢复能力明显优于 4.6;xhigh effort 档位可以再压 5–8pp 提升(代价是延迟翻倍)[5]
✅ 强烈推荐
场景 2|代码审查 / ultrareview / 安全审计
与"写代码"同一层能力,但在"看代码"方向上 4.7 的提升更明显——遗漏率下降、解释质量提升、对隐蔽 bug(竞态、空指针、SQL 注入)敏感度高[4][5]
判断依据:PR review、CI 集成审计、Claude Code 的 /ultrareview 多 agent 并行审查等场景优先用 Opus 4.7 + xhigh。单次 review 少则 15 万 token,成本虽高但换来的是漏检风险下降——这是少数"贵得值"的场景。
✅ 推荐
场景 3|精细单次补丁(人工审查后手工 apply)
4.7 的生成风格更"守规矩"——不会无故重写周边代码、不会引入无关抽象、不会过度改动格式。对于"我只想改这一处 bug,别动别的"的场景,这是 4.6 之后最被低估的升级[4]
判断依据:如果你是人工过目每个 diff 才合并的开发者,这种"外科手术式修复"正是你要的;如果你是完全放手让 agent 自主跑的团队,它的保守可能反而让任务进度慢——那种场景更适合开 xhigh 或切 Sonnet 4.6 做初稿。
❌ 不推荐
场景 4|长上下文、多文档研究、跨 session 对话
Opus 4.7 在 MRCR 长上下文召回基准上从 4.6 的 78.3% 跌到 32.2%——这是近两年 Anthropic 旗舰模型中最剧烈的一次能力回撤[3][7]。社区在 1M 上下文开放几天内就发现:一旦输入超过 200K token,4.7 会开始"忘记"前半段的关键细节。
判断依据:研报综述、合同全文分析、整本书问答、长客服会话等任务,切 GPT-5.5(MRCR v2 74%)或 Gemini 3.1 Pro。这不是"差一点",而是"明显错位"——Anthropic 自己也在 System Card 里承认权衡[1]
❌ 不推荐
场景 5|创意写作、小说、情感对话、角色扮演
尽管 Artificial Analysis 盲测显示 4.7 的"写作偏好" 47% 高于 GPT-5.5 的 29%[3],但大量长期用户反馈 4.7 的文本"温度感消失、更机械、更工具化"——适合写报告、写说明,不适合写故事或有血肉的角色对话[9]
判断依据:如果你用 Claude 的场景偏创作(AI 陪伴、NovelAI 风格、人物小说),建议保留 4.6 或混用 Sonnet 4.6——4.7 的 RLHF 取向明显更偏"任务完成"而非"情感表达",并且不对主动询问 hold。写作偏好榜单是单问答盲测,并不代表长篇小说的体验。
⚠️ 必须重写
场景 6|把旧 Opus 4.6 的 prompt 直接切到 4.7
4.7 的指令遵循风格显著更"字面化"——4.6 能"领悟意图"的半结构化 prompt,4.7 很可能直接照字面执行[4][5]。大量用户切过来第一天就发现结果发生质变,回退到 4.6。
判断依据:如果你生产环境跑着 4.6 prompt,不要改模型 ID 就上线。建议:① 小流量 A/B;② 把"言下之意"写成"显式指令";③ 涉及 tool calling 的再看一次 tool schema 是否需要加更明确的 hint。对 100+ 条 prompt 的团队,这是个一周以上的迁移工程。
小结:如果你的业务八成以上属于"硬 agent 编程 / 代码审查 / 精细补丁",切 4.7,配合 xhigh;如果八成以上属于"长文档研究 / 创意写作",保留 4.6 或切 GPT-5.5;混合场景则建议做模型路由——这也是社区这几天讨论最多的实操路径[4][9]
vs GPT-5.5 / Gemini 3.1 Pro
评测项 Opus 4.7 GPT-5.5 Gemini 3.1 Pro
SWE-bench Pro 64.3 * 58.6
Terminal-Bench 69.4 82.7 68.5
CursorBench(盲测) 70
长上下文召回 32.2 74.0
BrowseComp Pro(网页研究) 90.1 85.9
写作偏好 47 29 24
Intelligence Index 57 60 57
定价(输入/输出 per 1M) $15 / $75 $5 / $30 $3.5 / $17.5
* OpenAI 方面指出 Anthropic 的 SWE-bench Pro 部分题目存在记忆化嫌疑,结果有争议[6]。Opus 4.7 的 Terminal-Bench 与 GPT-5.5 差距较大,但 Cursor 官方盲测(真实 IDE 任务)反而是 Opus 4.7 排名第一——benchmark 差异本身就是这次 4.7 最值得玩味的地方[4]
隐性涨价:tokenizer 变更 0–35%
Opus 4.7 的账面价格与 4.6 完全一致($15 输入 / $75 输出),但 Anthropic 在这一版更换了 tokenizer 词表——同一段文本在 4.7 上被切成的 token 数量,比 4.6 多 0–35%(取决于语言和内容)[8]
xhigh effort 与 task budgets
4.7 同时上线两个 API 侧的新能力,对控制成本与质量都很关键[5]
1. reasoning_effort: "xhigh"(新增档位)
2. task_budgets(请求级预算上限)
Mythos Preview 与 Project Glasswing
两个与 4.7 一起发布、但容易被忽视的能力[1][10]
Mythos Preview(官方预览)
Project Glasswing(设计工具野心)
API 破坏性变更
上 4.7 前必看:以下几个点在 4.6→4.7 升级时实际已经咬过不少用户[4][5][8]
编辑观点

Opus 4.7 是 Anthropic 近两年定位最清晰、也最具争议的一次发布。"硬 agent 编程 + 代码审查"这两个场景断档领先,是 Claude 商业上最要守住的基本盘;但把长上下文和创意写作能力拿出去换编程能力,这个取舍比起之前的"全能旗舰"路线,更像 OpenAI o 系列"推理模型"范式的正式确认——Anthropic 也承认这一代无法同时做到两头。

真正应该关注的不是 benchmark 分数,而是你的业务场景。SWE-bench Pro 64.3%、Terminal-Bench 69.4%、CursorBench 70% 这三个数字互相"打架"——说明现在 agent 类 benchmark 本身已经没有一个万能的排名,更好的方法是在自己的任务集上做小规模盲测后再决定切不切。

MRCR 的 46pp 回撤是这次发布最大的"黑天鹅"。在 Anthropic 正积极推 1M context 的当口,一个旗舰模型的长上下文能力反而变得比上代更不可靠,是对"1M 可用"本身的打脸。短期之内,如果你的 agent 需要读超过 200K token 的文档,请在生产环境保留 GPT-5.5 作为备选 route。

最后是成本信号:tokenizer 变更带来的 0–35% 隐性涨价,比公开涨价更麻烦。它不会在新闻里刷屏,但会在季度账单上出现——对所有已经在 Opus 档投入深度的团队来说,下一个月的预算需要重新跑一遍。

参考文献
[1] Anthropic — anthropic.com/news/claude-opus-4-7(官方发布与 System Card)
[2] SWE-bench Pro Leaderboard — swebench.com
[3] Artificial Analysis — artificialanalysis.ai/models/claude-opus-4-7(Intelligence Index / MRCR / 写作偏好盲测)
[4] Cursor Blog — cursor.com/blog/opus-4-7(CursorBench 盲测与迁移建议)
[5] Anthropic API Docs — docs.anthropic.com/en/docs/about-claude/models/overview(xhigh / task_budgets / tool use 变更)
[6] VentureBeat — venturebeat.com(OpenAI 对 Anthropic SWE-bench Pro 结果的质疑)
[7] MRCR v2 社区复测 — github.com/openai/mrcr(开源复测脚本 + 社区 issue 记录 4.7 回撤)
[8] Anthropic Pricing — anthropic.com/pricing(价格不变,tokenizer 变更说明见 Discord 官方答疑)
[9] Reddit r/ClaudeAI — reddit.com/r/ClaudeAI(社区对创意写作 / 长对话体验回撤的集中反馈)
[10] Claude Design — AI Insight 深度解读(Project Glasswing / Mike Krieger / Figma 股价)

登录后阅读完整报告

包含详细分析、数据图表、竞品对比、参考文献等

Google 登录