GPT-5.5 深度解读｜"AGI 前最后一个里程碑" · 完全重训练 · Terminal-Bench SOTA

一句话定位

  "不是 GPT-5.4 的微调版，而是自 GPT-4.5 以来首次完全重新预训练的基础模型。"

代号 Spud，GPT-5.5 融合了 GPT 系列的生成能力与 o1 的结构化推理框架，于 2026 年 3 月 24 日完成预训练，是 OpenAI 进入 AGI 冲刺阶段前最后一次大规模基础模型重构^[1]。

代号 Spud，融合 GPT 生成能力与 o1 结构化推理^[1]
Sam Altman："the last major milestone before AGI"^[3]
预训练于 2026 年 3 月 24 日完成^[4]
NVIDIA GB200 NVL72 10 万卡集群支撑训练^[7]

Benchmark：9/10 超越 GPT-5.4

82.7%

Terminal-Bench
+7.6pp vs GPT-5.4

74.0%

长上下文召回
+37.4pp（36.6→74.0）

-60%

幻觉率降幅
企业场景

-40%

Token 用量减少
同等任务

评测项	GPT-5.5	GPT-5.4	变化
Terminal-Bench	82.7%	75.1%	+7.6pp
ARC-AGI-2	—	—	+11.7pp
MCP Atlas	—	—	+8.1pp
长上下文召回	74.0%	36.6%	+37.4pp
GDPval	84.9%	—	—
幻觉率	-60%	基准	大幅降低
Token 效率	-40%	基准	更省 token

竞品对比

与同期旗舰模型横向对比^[5][8][10]：

评测项	GPT-5.5	Claude Opus 4.7	Gemini 3.1 Pro
Terminal-Bench	82.7	69.4	68.5
SWE-Bench Pro	58.6	64.3 *	—
BrowseComp Pro	90.1	—	85.9
长上下文	74.0	32.2	—
写作偏好	29%	47%	24%
Intelligence Index	60	57	57

* OpenAI 方面指出，Anthropic 在 SWE-Bench Pro 上的部分题目存在记忆化嫌疑，结果有争议^[5]。写作偏好数据来自 Artificial Analysis 盲测^[10]。

API 定价

GPT-5.5 定价相比 GPT-5.4 翻倍，但官方强调 token 效率提升 40% 可部分抵消成本增量^[1]。

模型	输入（/1M tokens）	输出（/1M tokens）	备注
GPT-5.5	$5	$30	GPT-5.4 的 2x
GPT-5.5 Pro	$30	$180	深度推理版
GPT-5.4（参考）	$2.5	$15	—

上下文窗口：1M tokens
Batch API 照常享受 50% 折扣
Token 效率 +40%：同等任务实际消耗 token 更少，综合成本增幅约 20%
模型 ID：gpt-5.5 / gpt-5.5-2026-04-23

Codex 集成

GPT-5.5 是 OpenAI Codex 的默认推荐模型^[7][9]：

更擅长实现、重构、调试、测试四类核心编码任务
在大型系统间保持上下文连贯性的能力显著提升
长上下文 74% 召回率对跨文件代码审计有直接价值
训练集群：NVIDIA GB200 NVL72 10 万卡，OpenAI 与 NVIDIA 深度协同^[7]

Altman 的 AGI 宣言

"To a significant degree, we have to become an AI inference company now." — Sam Altman，GPT-5.5 发布会

"the last major milestone before AGI" — Sam Altman，对 GPT-5.5 的定位^[3]

"the completion of a specific phase of intelligence development" — Sam Altman，关于 GPT-5 系列^[3]

Altman 的"AGI 前最后里程碑"定位意味着 OpenAI 认为 GPT-5 系列已触及现有训练范式的边界，下一步将进入质变阶段。"成为 AI 推理公司"的表述则暗示商业模式正在从模型授权向推理服务转型。

业界反响

Ethan Mollick（沃顿商学院）^[6]
"very big deal…rapid improvement is not finished" — 认为 GPT-5.5 标志着 AI 能力快速提升的势头并未放缓。

纽约银行 CIO
"impressive hallucination resistance" — 幻觉率降低 60% 对金融场景合规应用具有实质价值。

开发者社区
普遍反馈模型更快更精简，倾向小范围可执行修改而非大段重写，Codex 集成体验明显改善。

主要争议
定价翻倍是核心抱怨，部分开发者表示会维持使用 GPT-5.4 或等待 Batch API 折扣窗口^[8]。

怎么用

入口	说明	状态
ChatGPT	Plus / Pro / Business / Enterprise 直接使用	已上线
Codex	默认推荐模型	已上线
API	"very soon"（正式上线日期待定）^[1]	即将
模型 ID	`gpt-5.5` / `gpt-5.5-2026-04-23`	—

编辑观点

首个完全重训练的 GPT-5 系列模型，意味着 GPT-5 的能力天花板被重新设定。此前 5.1/5.2/5.3/5.4 的迭代均基于同一基础模型进行微调，而 5.5 从预训练起点开始，释放的信号是 OpenAI 认为有足够新数据和架构改进值得重新训练。

长上下文 37pp 的跳跃（36.6%→74.0%）是这次发布最被低估的数字。对企业级应用（合同逐条分析、大型代码库审计、多轮研究综述）而言，这不是锦上添花，而是从"勉强可用"到"真正可部署"的质变。

"AGI 前最后里程碑"的叙事在加速——但 SWE-Bench Pro 上以 58.6% 输给 Claude Opus 4.7（64.3%，争议未解）说明真正通用的编程能力仍有差距。Altman 擅长用宏大叙事推动期待，投资者和用户需要区分营销与技术事实。

定价翻倍是一个市场信号：顶级推理能力不再低价竞争。对平台开发者而言，多模型路由（对话用 GPT-5.4，长上下文/复杂任务用 GPT-5.5）将成为控制成本的标配策略。

参考文献

[1] OpenAI Blog — openai.com/index/introducing-gpt-5-5/

[2] System Card — deploymentsafety.openai.com/gpt-5-5

[3] CNBC — cnbc.com（Sam Altman 访谈引述）

[4] The Decoder — the-decoder.com/openai-unveils-gpt-5-5

[5] VentureBeat — venturebeat.com（GPT-5.5 narrowly beats Anthropic）

[6] Ethan Mollick — oneusefulthing.org/p/sign-of-the-future-gpt-55

[7] NVIDIA Blog — blogs.nvidia.com/blog/openai-codex-gpt-5-5-ai-agents/

[8] LLM Stats — llm-stats.com/blog/research/gpt-5-5-vs-gpt-5-4

[9] 9to5Mac — 9to5mac.com（Codex + ChatGPT）

[10] Artificial Analysis — artificialanalysis.ai（Intelligence Index）

登录后阅读完整报告

包含详细分析、数据图表、竞品对比、参考文献等

Google 登录

或

GPT-5.5 深度解读"AGI 前最后一个里程碑" · 完全重训练

登录后阅读完整报告

GPT-5.5 深度解读
"AGI 前最后一个里程碑" · 完全重训练