Claude Opus 4.7 深度解读｜什么情况下该用，什么情况下别用

一句话定位

  "一把极度锋利但也极度专用的 agent 编程手术刀——擅长的更擅长了，不擅长的更差了。"

Claude Opus 4.7 在编程 agent、代码审查、细颗粒度修复等"真正干活"的场景拉开差距；但在长上下文召回、创意写作、多轮研究这三个维度出现明显能力回撤。它不再是"默认最强模型"，而是"特定场景下断档领先的模型"^[1][2][3]。

AA Intelligence Index：57（与 Gemini 3.1 Pro 并列，GPT-5.5 为 60）^[3]
SWE-bench Pro：64.3%（单模型榜首，OpenAI 对结果有争议）^[2][6]
Terminal-Bench：69.4%（GPT-5.5 为 82.7%）^[3][6]
CursorBench：70%（Cursor 官方盲测，排名第一）^[4]
MRCR 长上下文召回：78.3%→32.2%（vs Opus 4.6，严重回撤）^[3][7]
定价不变，但 tokenizer 改动导致同一段文本多切 0–35%（实际花费隐性上涨）^[8]

核心升级（vs 4.6）

维度	Opus 4.6	Opus 4.7	变化
SWE-bench Pro	59.4%	64.3%	+4.9pp
Terminal-Bench	63.8%	69.4%	+5.6pp
CursorBench（盲测）	62%	70%	+8pp
MRCR 长上下文召回	78.3%	32.2%	−46.1pp
写作偏好（盲测）	41%	47%	+6pp
新特性 · xhigh effort	—	✅	新增推理档位
新特性 · Task Budgets	—	✅	API 端控 token 上限
模型 ID	claude-opus-4-6	claude-opus-4-7	—

数据来自 Anthropic 官方 System Card 与 Artificial Analysis 盲测榜单^[1][3]。MRCR 回撤由社区在 1M 上下文开启后首次发现^[7]。

场景推荐矩阵

Opus 4.7 最大的争议是——它在某些场景断档领先，在另一些场景明显变差。下面按"该不该用"给出 6 个具体建议。

❌ 不推荐

场景 4｜长上下文、多文档研究、跨 session 对话

Opus 4.7 在 MRCR 长上下文召回基准上从 4.6 的 78.3% 跌到 32.2%——这是近两年 Anthropic 旗舰模型中最剧烈的一次能力回撤^[3][7]。社区在 1M 上下文开放几天内就发现：一旦输入超过 200K token，4.7 会开始"忘记"前半段的关键细节。

判断依据：研报综述、合同全文分析、整本书问答、长客服会话等任务，切 GPT-5.5（MRCR v2 74%）或 Gemini 3.1 Pro。这不是"差一点"，而是"明显错位"——Anthropic 自己也在 System Card 里承认权衡^[1]。

❌ 不推荐

场景 5｜创意写作、小说、情感对话、角色扮演

尽管 Artificial Analysis 盲测显示 4.7 的"写作偏好" 47% 高于 GPT-5.5 的 29%^[3]，但大量长期用户反馈 4.7 的文本"温度感消失、更机械、更工具化"——适合写报告、写说明，不适合写故事或有血肉的角色对话^[9]。

判断依据：如果你用 Claude 的场景偏创作（AI 陪伴、NovelAI 风格、人物小说），建议保留 4.6 或混用 Sonnet 4.6——4.7 的 RLHF 取向明显更偏"任务完成"而非"情感表达"，并且不对主动询问 hold。写作偏好榜单是单问答盲测，并不代表长篇小说的体验。

⚠️ 必须重写

场景 6｜把旧 Opus 4.6 的 prompt 直接切到 4.7

4.7 的指令遵循风格显著更"字面化"——4.6 能"领悟意图"的半结构化 prompt，4.7 很可能直接照字面执行^[4][5]。大量用户切过来第一天就发现结果发生质变，回退到 4.6。

判断依据：如果你生产环境跑着 4.6 prompt，不要改模型 ID 就上线。建议：① 小流量 A/B；② 把"言下之意"写成"显式指令"；③ 涉及 tool calling 的再看一次 tool schema 是否需要加更明确的 hint。对 100+ 条 prompt 的团队，这是个一周以上的迁移工程。

小结：如果你的业务八成以上属于"硬 agent 编程 / 代码审查 / 精细补丁"，切 4.7，配合 xhigh；如果八成以上属于"长文档研究 / 创意写作"，保留 4.6 或切 GPT-5.5；混合场景则建议做模型路由——这也是社区这几天讨论最多的实操路径^[4][9]。

vs GPT-5.5 / Gemini 3.1 Pro

评测项	Opus 4.7	GPT-5.5	Gemini 3.1 Pro
SWE-bench Pro	64.3 *	58.6	—
Terminal-Bench	69.4	82.7	68.5
CursorBench（盲测）	70	—	—
长上下文召回	32.2	74.0	—
BrowseComp Pro（网页研究）	—	90.1	85.9
写作偏好	47	29	24
Intelligence Index	57	60	57
定价（输入/输出 per 1M）	$15 / $75	$5 / $30	$3.5 / $17.5

* OpenAI 方面指出 Anthropic 的 SWE-bench Pro 部分题目存在记忆化嫌疑，结果有争议^[6]。Opus 4.7 的 Terminal-Bench 与 GPT-5.5 差距较大，但 Cursor 官方盲测（真实 IDE 任务）反而是 Opus 4.7 排名第一——benchmark 差异本身就是这次 4.7 最值得玩味的地方^[4]。

隐性涨价：tokenizer 变更 0–35%

Opus 4.7 的账面价格与 4.6 完全一致（$15 输入 / $75 输出），但 Anthropic 在这一版更换了 tokenizer 词表——同一段文本在 4.7 上被切成的 token 数量，比 4.6 多 0–35%（取决于语言和内容）^[8]。

中文、日文、代码 diff 这几类"4.6 本来就压缩不好"的文本涨幅最小（0–5%）
英文自然语言、JSON schema、Markdown 涨幅最大（可能到 30%+）
对重度 API 用户意味着隐性涨价——以往成本预算需要乘以 1.1–1.3 做安全垫
Cache read/write 价格同步保持 $1.5 / $18.75，但缓存命中率在新 tokenizer 下仍待实测
建议：上 4.7 之前用你自己真实流量里的 1000 条样本，分别在 4.6 / 4.7 上走一次 count_tokens 接口做基线对比

xhigh effort 与 task budgets

4.7 同时上线两个 API 侧的新能力，对控制成本与质量都很关键^[5]：

1. reasoning_effort: "xhigh"（新增档位）

在 low / medium / high 之上新增的最高档
在 SWE-bench / CursorBench 上比 high 再提升 3–5pp
代价：延迟翻倍，平均 token 用量 1.5–2x
适合：一次性"不计成本只要质量"的任务（关键 PR 审查、生产故障诊断）

2. task_budgets（请求级预算上限）

在请求里直接声明 token 上限，超限模型自动收尾输出
解决了 4.6 时代"agent 跑飞"烧钱的痛点
与 xhigh 搭配使用最合理：开 xhigh 但设 budget cap 防暴走
与 Claude Agent SDK 深度集成，Anthropic 同时开源了 SDK 示例

Mythos Preview 与 Project Glasswing

两个与 4.7 一起发布、但容易被忽视的能力^[1][10]：

Mythos Preview（官方预览）

Claude.ai 上线的多步 agent 预览模式——Claude 先展示"我打算怎么做"，再用户确认后执行
对"一次生成 2 小时工作量"的超长任务体感提升显著
仅限 Claude.ai 前端，API 尚未开放同等接口

Project Glasswing（设计工具野心）

Claude Design 背后的代号，Opus 4.7 是其默认驱动模型
Mike Krieger（Instagram 联合创始人，现任 Anthropic CPO）主推
发布当日 Figma 股价应声下跌约 7%，是近期 Anthropic 公关声量最高的"非模型产品"
参考：Claude Design 深度解读

API 破坏性变更

上 4.7 前必看：以下几个点在 4.6→4.7 升级时实际已经咬过不少用户^[4][5][8]：

Tokenizer 换了——count_tokens 接口数字会变，计费也跟着变
System prompt 敏感度提升——同一 system prompt 在 4.7 上输出风格会有可感知差异
Tool use 更严格——tool schema 里描述不清晰的参数，4.7 会拒绝调用或反问用户，4.6 会"猜着填"
Prompt caching 结构一致但命中率需重测——tokenizer 变动下缓存粒度会重新对齐
流式输出首 token 延迟——xhigh 档下 TTFT 可达数秒，前端需要 loading 态优化
旧版模型 ID 并未下线——claude-opus-4-6 仍可访问，回退路径保留

编辑观点

Opus 4.7 是 Anthropic 近两年定位最清晰、也最具争议的一次发布。"硬 agent 编程 + 代码审查"这两个场景断档领先，是 Claude 商业上最要守住的基本盘；但把长上下文和创意写作能力拿出去换编程能力，这个取舍比起之前的"全能旗舰"路线，更像 OpenAI o 系列"推理模型"范式的正式确认——Anthropic 也承认这一代无法同时做到两头。

真正应该关注的不是 benchmark 分数，而是你的业务场景。SWE-bench Pro 64.3%、Terminal-Bench 69.4%、CursorBench 70% 这三个数字互相"打架"——说明现在 agent 类 benchmark 本身已经没有一个万能的排名，更好的方法是在自己的任务集上做小规模盲测后再决定切不切。

MRCR 的 46pp 回撤是这次发布最大的"黑天鹅"。在 Anthropic 正积极推 1M context 的当口，一个旗舰模型的长上下文能力反而变得比上代更不可靠，是对"1M 可用"本身的打脸。短期之内，如果你的 agent 需要读超过 200K token 的文档，请在生产环境保留 GPT-5.5 作为备选 route。

最后是成本信号：tokenizer 变更带来的 0–35% 隐性涨价，比公开涨价更麻烦。它不会在新闻里刷屏，但会在季度账单上出现——对所有已经在 Opus 档投入深度的团队来说，下一个月的预算需要重新跑一遍。

参考文献

[1] Anthropic — anthropic.com/news/claude-opus-4-7（官方发布与 System Card）

[2] SWE-bench Pro Leaderboard — swebench.com

[3] Artificial Analysis — artificialanalysis.ai/models/claude-opus-4-7（Intelligence Index / MRCR / 写作偏好盲测）

[4] Cursor Blog — cursor.com/blog/opus-4-7（CursorBench 盲测与迁移建议）

[5] Anthropic API Docs — docs.anthropic.com/en/docs/about-claude/models/overview（xhigh / task_budgets / tool use 变更）

[6] VentureBeat — venturebeat.com（OpenAI 对 Anthropic SWE-bench Pro 结果的质疑）

[7] MRCR v2 社区复测 — github.com/openai/mrcr（开源复测脚本 + 社区 issue 记录 4.7 回撤）

[8] Anthropic Pricing — anthropic.com/pricing（价格不变，tokenizer 变更说明见 Discord 官方答疑）

[9] Reddit r/ClaudeAI — reddit.com/r/ClaudeAI（社区对创意写作 / 长对话体验回撤的集中反馈）

[10] Claude Design — AI Insight 深度解读（Project Glasswing / Mike Krieger / Figma 股价）

登录后阅读完整报告

包含详细分析、数据图表、竞品对比、参考文献等

Google 登录

或

Claude Opus 4.7 使用指南什么情况下该用，什么情况下别用

登录后阅读完整报告

Claude Opus 4.7 使用指南
什么情况下该用，什么情况下别用