产品解读 · OpenAI

GPT-5.5 深度解读
"AGI 前最后一个里程碑" · 完全重训练

代号 Spud · 82.7% Terminal-Bench · 长上下文跳跃式提升 · 定价翻倍但 token 省 40% · Altman 称 AGI 前最后里程碑

📅 2026.04.23 发布
🏆 Terminal-Bench 82.7%
⚡ 延迟追平 GPT-5.4
💰 $5 / $30
一句话定位
"不是 GPT-5.4 的微调版,而是自 GPT-4.5 以来首次完全重新预训练的基础模型。"
代号 Spud,GPT-5.5 融合了 GPT 系列的生成能力与 o1 的结构化推理框架,于 2026 年 3 月 24 日完成预训练,是 OpenAI 进入 AGI 冲刺阶段前最后一次大规模基础模型重构[1]
Benchmark:9/10 超越 GPT-5.4
82.7%
Terminal-Bench
+7.6pp vs GPT-5.4
74.0%
长上下文召回
+37.4pp(36.6→74.0)
-60%
幻觉率降幅
企业场景
-40%
Token 用量减少
同等任务
评测项 GPT-5.5 GPT-5.4 变化
Terminal-Bench 82.7% 75.1% +7.6pp
ARC-AGI-2 +11.7pp
MCP Atlas +8.1pp
长上下文召回 74.0% 36.6% +37.4pp
GDPval 84.9%
幻觉率 -60% 基准 大幅降低
Token 效率 -40% 基准 更省 token
竞品对比
与同期旗舰模型横向对比[5][8][10]
评测项 GPT-5.5 Claude Opus 4.7 Gemini 3.1 Pro
Terminal-Bench 82.7 69.4 68.5
SWE-Bench Pro 58.6 64.3 *
BrowseComp Pro 90.1 85.9
长上下文 74.0 32.2
写作偏好 29% 47% 24%
Intelligence Index 60 57 57
* OpenAI 方面指出,Anthropic 在 SWE-Bench Pro 上的部分题目存在记忆化嫌疑,结果有争议[5]。写作偏好数据来自 Artificial Analysis 盲测[10]
API 定价
GPT-5.5 定价相比 GPT-5.4 翻倍,但官方强调 token 效率提升 40% 可部分抵消成本增量[1]
模型 输入(/1M tokens) 输出(/1M tokens) 备注
GPT-5.5 $5 $30 GPT-5.4 的 2x
GPT-5.5 Pro $30 $180 深度推理版
GPT-5.4(参考) $2.5 $15
Codex 集成
GPT-5.5 是 OpenAI Codex 的默认推荐模型[7][9]
Altman 的 AGI 宣言
"To a significant degree, we have to become an AI inference company now." — Sam Altman,GPT-5.5 发布会
"the last major milestone before AGI" — Sam Altman,对 GPT-5.5 的定位[3]
"the completion of a specific phase of intelligence development" — Sam Altman,关于 GPT-5 系列[3]
Altman 的"AGI 前最后里程碑"定位意味着 OpenAI 认为 GPT-5 系列已触及现有训练范式的边界,下一步将进入质变阶段。"成为 AI 推理公司"的表述则暗示商业模式正在从模型授权向推理服务转型。
业界反响
Ethan Mollick(沃顿商学院)[6]
"very big deal…rapid improvement is not finished" — 认为 GPT-5.5 标志着 AI 能力快速提升的势头并未放缓。
纽约银行 CIO
"impressive hallucination resistance" — 幻觉率降低 60% 对金融场景合规应用具有实质价值。
开发者社区
普遍反馈模型更快更精简,倾向小范围可执行修改而非大段重写,Codex 集成体验明显改善。
主要争议
定价翻倍是核心抱怨,部分开发者表示会维持使用 GPT-5.4 或等待 Batch API 折扣窗口[8]
怎么用
入口 说明 状态
ChatGPT Plus / Pro / Business / Enterprise 直接使用 已上线
Codex 默认推荐模型 已上线
API "very soon"(正式上线日期待定)[1] 即将
模型 ID gpt-5.5 / gpt-5.5-2026-04-23
编辑观点

首个完全重训练的 GPT-5 系列模型,意味着 GPT-5 的能力天花板被重新设定。此前 5.1/5.2/5.3/5.4 的迭代均基于同一基础模型进行微调,而 5.5 从预训练起点开始,释放的信号是 OpenAI 认为有足够新数据和架构改进值得重新训练。

长上下文 37pp 的跳跃(36.6%→74.0%)是这次发布最被低估的数字。对企业级应用(合同逐条分析、大型代码库审计、多轮研究综述)而言,这不是锦上添花,而是从"勉强可用"到"真正可部署"的质变。

"AGI 前最后里程碑"的叙事在加速——但 SWE-Bench Pro 上以 58.6% 输给 Claude Opus 4.7(64.3%,争议未解)说明真正通用的编程能力仍有差距。Altman 擅长用宏大叙事推动期待,投资者和用户需要区分营销与技术事实。

定价翻倍是一个市场信号:顶级推理能力不再低价竞争。对平台开发者而言,多模型路由(对话用 GPT-5.4,长上下文/复杂任务用 GPT-5.5)将成为控制成本的标配策略。

参考文献
[1] OpenAI Blog — openai.com/index/introducing-gpt-5-5/
[2] System Card — deploymentsafety.openai.com/gpt-5-5
[3] CNBC — cnbc.com(Sam Altman 访谈引述)
[4] The Decoder — the-decoder.com/openai-unveils-gpt-5-5
[5] VentureBeat — venturebeat.com(GPT-5.5 narrowly beats Anthropic)
[6] Ethan Mollick — oneusefulthing.org/p/sign-of-the-future-gpt-55
[7] NVIDIA Blog — blogs.nvidia.com/blog/openai-codex-gpt-5-5-ai-agents/
[8] LLM Stats — llm-stats.com/blog/research/gpt-5-5-vs-gpt-5-4
[9] 9to5Mac — 9to5mac.com(Codex + ChatGPT)
[10] Artificial Analysis — artificialanalysis.ai(Intelligence Index)

登录后阅读完整报告

包含详细分析、数据图表、竞品对比、参考文献等

Google 登录