一句话定位
"不是 GPT-5.4 的微调版,而是自 GPT-4.5 以来首次完全重新预训练的基础模型。"
代号 Spud,GPT-5.5 融合了 GPT 系列的生成能力与 o1 的结构化推理框架,于 2026 年 3 月 24 日完成预训练,是 OpenAI 进入 AGI 冲刺阶段前最后一次大规模基础模型重构[1]。
- 代号 Spud,融合 GPT 生成能力与 o1 结构化推理[1]
- Sam Altman:"the last major milestone before AGI"[3]
- 预训练于 2026 年 3 月 24 日完成[4]
- NVIDIA GB200 NVL72 10 万卡集群支撑训练[7]
Benchmark:9/10 超越 GPT-5.4
82.7%
Terminal-Bench
+7.6pp vs GPT-5.4
+7.6pp vs GPT-5.4
74.0%
长上下文召回
+37.4pp(36.6→74.0)
+37.4pp(36.6→74.0)
-60%
幻觉率降幅
企业场景
企业场景
-40%
Token 用量减少
同等任务
同等任务
| 评测项 | GPT-5.5 | GPT-5.4 | 变化 |
|---|---|---|---|
| Terminal-Bench | 82.7% | 75.1% | +7.6pp |
| ARC-AGI-2 | — | — | +11.7pp |
| MCP Atlas | — | — | +8.1pp |
| 长上下文召回 | 74.0% | 36.6% | +37.4pp |
| GDPval | 84.9% | — | — |
| 幻觉率 | -60% | 基准 | 大幅降低 |
| Token 效率 | -40% | 基准 | 更省 token |
竞品对比
与同期旗舰模型横向对比[5][8][10]:
| 评测项 | GPT-5.5 | Claude Opus 4.7 | Gemini 3.1 Pro |
|---|---|---|---|
| Terminal-Bench | 82.7 | 69.4 | 68.5 |
| SWE-Bench Pro | 58.6 | 64.3 * | — |
| BrowseComp Pro | 90.1 | — | 85.9 |
| 长上下文 | 74.0 | 32.2 | — |
| 写作偏好 | 29% | 47% | 24% |
| Intelligence Index | 60 | 57 | 57 |
* OpenAI 方面指出,Anthropic 在 SWE-Bench Pro 上的部分题目存在记忆化嫌疑,结果有争议[5]。写作偏好数据来自 Artificial Analysis 盲测[10]。
API 定价
GPT-5.5 定价相比 GPT-5.4 翻倍,但官方强调 token 效率提升 40% 可部分抵消成本增量[1]。
| 模型 | 输入(/1M tokens) | 输出(/1M tokens) | 备注 |
|---|---|---|---|
| GPT-5.5 | $5 | $30 | GPT-5.4 的 2x |
| GPT-5.5 Pro | $30 | $180 | 深度推理版 |
| GPT-5.4(参考) | $2.5 | $15 | — |
- 上下文窗口:1M tokens
- Batch API 照常享受 50% 折扣
- Token 效率 +40%:同等任务实际消耗 token 更少,综合成本增幅约 20%
- 模型 ID:
gpt-5.5/gpt-5.5-2026-04-23
Codex 集成
GPT-5.5 是 OpenAI Codex 的默认推荐模型[7][9]:
- 更擅长实现、重构、调试、测试四类核心编码任务
- 在大型系统间保持上下文连贯性的能力显著提升
- 长上下文 74% 召回率对跨文件代码审计有直接价值
- 训练集群:NVIDIA GB200 NVL72 10 万卡,OpenAI 与 NVIDIA 深度协同[7]
Altman 的 AGI 宣言
"To a significant degree, we have to become an AI inference company now."
— Sam Altman,GPT-5.5 发布会
"the last major milestone before AGI"
— Sam Altman,对 GPT-5.5 的定位[3]
"the completion of a specific phase of intelligence development"
— Sam Altman,关于 GPT-5 系列[3]
Altman 的"AGI 前最后里程碑"定位意味着 OpenAI 认为 GPT-5 系列已触及现有训练范式的边界,下一步将进入质变阶段。"成为 AI 推理公司"的表述则暗示商业模式正在从模型授权向推理服务转型。
业界反响
Ethan Mollick(沃顿商学院)[6]
"very big deal…rapid improvement is not finished" — 认为 GPT-5.5 标志着 AI 能力快速提升的势头并未放缓。
"very big deal…rapid improvement is not finished" — 认为 GPT-5.5 标志着 AI 能力快速提升的势头并未放缓。
纽约银行 CIO
"impressive hallucination resistance" — 幻觉率降低 60% 对金融场景合规应用具有实质价值。
"impressive hallucination resistance" — 幻觉率降低 60% 对金融场景合规应用具有实质价值。
开发者社区
普遍反馈模型更快更精简,倾向小范围可执行修改而非大段重写,Codex 集成体验明显改善。
普遍反馈模型更快更精简,倾向小范围可执行修改而非大段重写,Codex 集成体验明显改善。
主要争议
定价翻倍是核心抱怨,部分开发者表示会维持使用 GPT-5.4 或等待 Batch API 折扣窗口[8]。
定价翻倍是核心抱怨,部分开发者表示会维持使用 GPT-5.4 或等待 Batch API 折扣窗口[8]。
怎么用
| 入口 | 说明 | 状态 |
|---|---|---|
| ChatGPT | Plus / Pro / Business / Enterprise 直接使用 | 已上线 |
| Codex | 默认推荐模型 | 已上线 |
| API | "very soon"(正式上线日期待定)[1] | 即将 |
| 模型 ID | gpt-5.5 / gpt-5.5-2026-04-23 |
— |
编辑观点
首个完全重训练的 GPT-5 系列模型,意味着 GPT-5 的能力天花板被重新设定。此前 5.1/5.2/5.3/5.4 的迭代均基于同一基础模型进行微调,而 5.5 从预训练起点开始,释放的信号是 OpenAI 认为有足够新数据和架构改进值得重新训练。
长上下文 37pp 的跳跃(36.6%→74.0%)是这次发布最被低估的数字。对企业级应用(合同逐条分析、大型代码库审计、多轮研究综述)而言,这不是锦上添花,而是从"勉强可用"到"真正可部署"的质变。
"AGI 前最后里程碑"的叙事在加速——但 SWE-Bench Pro 上以 58.6% 输给 Claude Opus 4.7(64.3%,争议未解)说明真正通用的编程能力仍有差距。Altman 擅长用宏大叙事推动期待,投资者和用户需要区分营销与技术事实。
定价翻倍是一个市场信号:顶级推理能力不再低价竞争。对平台开发者而言,多模型路由(对话用 GPT-5.4,长上下文/复杂任务用 GPT-5.5)将成为控制成本的标配策略。
参考文献
[1] OpenAI Blog — openai.com/index/introducing-gpt-5-5/
[2] System Card — deploymentsafety.openai.com/gpt-5-5
[3] CNBC — cnbc.com(Sam Altman 访谈引述)
[4] The Decoder — the-decoder.com/openai-unveils-gpt-5-5
[5] VentureBeat — venturebeat.com(GPT-5.5 narrowly beats Anthropic)
[6] Ethan Mollick — oneusefulthing.org/p/sign-of-the-future-gpt-55
[7] NVIDIA Blog — blogs.nvidia.com/blog/openai-codex-gpt-5-5-ai-agents/
[8] LLM Stats — llm-stats.com/blog/research/gpt-5-5-vs-gpt-5-4
[9] 9to5Mac — 9to5mac.com(Codex + ChatGPT)
[10] Artificial Analysis — artificialanalysis.ai(Intelligence Index)