产品解读 · OpenAI

GPT-Image-2 深度解读
图像生成的"GPT-3 到 GPT-5"时刻

文字渲染 99% 准确率 · LM Arena 三榜第一 · 3840px · ~3 秒生成 · DALL-E 终结

📅 2026.04.21 发布
🏆 Arena #1 (1512 Elo)
📝 99% 文字准确率
~3s / 张
一句话定位
"不是 DALL-E 4,而是图像生成的 GPT 时刻"
自回归单次推理,不再是扩散模型
2026 年 4 月 21 日,OpenAI 正式发布 GPT-Image-2——Sam Altman 在发布直播中称其飞跃"相当于从 GPT-3 一步到 GPT-5"的图像生成模型[1]。不叫 DALL-E 4,不是偶然:这不是扩散模型的迭代升级,而是一次架构层面的范式转换。
配合发布的还有一个时间节点:2026 年 5 月 12 日,DALL-E 2 和 DALL-E 3 将正式关停[1]。一个时代就此落幕。
核心能力
99%
文字渲染准确率
中日韩阿希印全覆盖
3840px
最大分辨率
比例 1:3 ~ 3:1
~3s
1024×1024 生成
GPT Image 1.5 需 8-18s
8张
单 prompt 最多
一致风格批量输出
核心能力清单[2][3]
文字渲染 99% 多语言支持 3840px 最大分辨率 ~3s 生成 思考模式 图像编辑(mask) 透明背景 批量 8 张
技术架构
GPT-Image-2 最大的技术突破不是参数量,而是架构范式的转换:被广泛认为采用了自回归架构(Autoregressive Model),而非扩散模型(OpenAI 未官方确认架构细节)[1]
核心架构要点
架构类型 自回归模型(非扩散)
推理阶段 单阶段(vs GPT Image 1.5 两阶段)
推理能力 集成(类 o-series)
架构重建 从头重建(研究科学家 Boyuan Chen 表述)
与 GPT-5 关系 独立模型,GPT-5.x 可作为工具调用
OpenAI 研究科学家 Boyuan Chen 表示,GPT-Image-2 的架构是"从头重建",而非对 DALL-E 的改进[1]。第三方路由平台 OpenRouter 上也出现了 gpt-5.4-image-2 组合模型(非 OpenAI 官方模型 ID),支持在 GPT-5 内调用图像生成能力[8]
API 定价
GPT-Image-2 对 API 开发者开放,采用质量分级定价[10]。需要通过 Organization Verification(组织验证)才能调用。
质量档位 每张成本 适用场景
Low $0.006 草稿、预览、批量测试
Medium $0.053 日常内容生产
High $0.211 商业发布、高精度设计
Token 定价(按 token 计费场景)
图像输入:$8 / 1M tokens
图像输出:$30 / 1M tokens
文本输入:$5 / 1M tokens
文本输出:$10 / 1M tokens
Batch API 享五折优惠
模型演进时间线
2025 年 3 月
GPT Image 1 发布——吉卜力风格病毒传播,1 小时 100 万新用户注册,7 亿张图片生成,ChatGPT 用户从 4 亿翻倍到 8 亿[1]
2025 年 10 月
GPT Image 1 Mini 发布——成本降低 80%,面向大规模 API 调用
2025 年 12 月
GPT Image 1.5 发布——生成速度提升 4 倍,成本降低 20%,两阶段推理架构
2026 年 4 月 21 日
GPT Image 2 发布——自回归架构、99% 文字渲染、3840px、LM Arena 三榜第一(1512 Elo)[1]
2026 年 5 月 12 日
DALL-E 2 和 DALL-E 3 正式关停——扩散模型时代落幕[1]
竞品对比
LM Arena 文生图排行榜显示,GPT-Image-2 以 1512 Elo 分位居第一,与第二名差距达 242 分[5]。要知道 GPT-4o 当年在 NLP 榜单的领先优势也没有这么悬殊。
模型 文字准确率 速度 最大分辨率 成本/张 Elo
GPT Image 2 ~99% ~3s 3840px $0.006-0.211 1512
Midjourney V7 改进中 10-15s 2048px ~$0.01-0.04 ~1270
Flux 2 Pro 2048px $0.055 1265
Ideogram 3.0 90-95% 中等 2048px ~$0.04 ~1250
Google Imagen 4 2.7s 2048px $0.02-0.06 ~1240
数据来源:LM Arena[5] + 各厂商官方文档。Elo 分数截至 2026 年 4 月。竞品成本为公开定价,不含 Batch 折扣。
安全与版权
GPT-Image-2 的安全体系比前代更复杂,但版权问题仍是悬案[4]
三层安全过滤
1 上游拒绝:在 LLM 阶段即拒绝违规 prompt
2 输入检测:图像输入的内容安全审查
3 输出检测:生成结果的后置内容过滤
技术措施与合规
吉卜力事件回顾
理解 GPT-Image-2 的定位,必须先理解 2025 年 3 月那次"病毒事件"[1][7]
事件数据
生成图片总量:7 亿张
参与用户:1.3 亿
1 小时内新注册:100 万
用户总量变化:5 亿 → 8 亿
宫崎骏曾在 2016 年的 NHK 纪录片中称 AI 创作"是对生命的侮辱"——这句话在吉卜力 AI 热潮中被大量引用,尽管它本指一个完全不同的 AI 动画演示,而非针对 ChatGPT[6]。无论如何,GPT-Image-2 的定位明确转向了"专业、实用",而非追求病毒式传播的风格模仿。
定位转变 从"能模仿吉卜力"到"能生成可用于商业设计的精准图像"——99% 的文字准确率才是 GPT-Image-2 真正的护城河。
开发者反响
发布首日,Figma、Canva、Adobe Firefly、fal.ai 等主流设计工具均宣布集成[6][9]
媒体与社区评价
已知局限
怎么用
三种方式使用 GPT-Image-2:
方式 1:ChatGPT(最简单)
Plus / Pro / Business / Team / Enterprise 用户直接在 ChatGPT 中描述图片即可,模型自动选择 GPT-Image-2。开启"思考模式"可获得更高质量。
入口:chat.openai.com → 直接描述你想要的图片
方式 2:API(开发者)
前提:需完成 Organization Verification(组织认证)
端点POST api.openai.com/v1/images/generations
文档developers.openai.com/api/docs/guides/image-generation
# Python
from openai import OpenAI
client = OpenAI()
result = client.images.generate(
  model="gpt-image-2",
  prompt="一只戴贝雷帽的猫在巴黎画埃菲尔铁塔",
  size="1024x1024",
  quality="high"
)
方式 3:Responses API(多轮编辑)
通过 Responses API 的 image_generation 内置工具,支持 previous_response_id 实现多轮迭代编辑。GPT-5 及更新模型可直接调用。
适合"生成→修改→再修改"的工作流
•  API 返回 base64 编码(不是 URL),需自行解码保存
•  Organization Verification 是硬性要求,个人账号需先完成组织认证
•  Batch API 五折(图像输出 $15/M tokens),适合批量生成
•  DALL-E 2/3 将于 5 月 12 日关停,现有项目需提前迁移到 gpt-image-2
编辑观点

1. 范式转换,不是迭代升级。图像生成从"扩散去噪"转向"自回归推理",意味着未来的改进路径与 LLM 高度重叠——更大的模型、更多的计算、更好的推理能力。这是对整个图像生成行业的重新定义[1]

2. 99% 文字准确率是商业关键。对于海报、PPT、UI mockup 等商业设计场景,之前 AI 图像生成的最大障碍不是画质,而是文字错误。这一障碍的消除意味着商业设计师第一次可以把 AI 作为可信赖的生产工具,而非"只能做灵感参考"的玩具。

3. DALL-E 关停是信号。OpenAI 主动关停自己的两款成熟产品,表明扩散模型作为主流图像生成范式可能正在退场——至少在 OpenAI 内部的技术路线判断中如此。

4. 242 分 Elo 差距是压倒性的,但竞争格局未必终结。Midjourney 在美学风格控制、Flux 在真实感摄影风格上仍有受众。Arena 排名衡量的是综合偏好,专业垂直场景可能呈现不同结论。

5. 关键问题尚待观察:当图像生成也进入"推理时代",训练成本和推理成本会怎样变化?自回归图像模型的 scaling law 是否与 LLM 一致?高成本的 High 质量档($0.211/张)能否被创作者接受?这些问题的答案,将决定 GPT-Image-2 是否真如 Sam Altman 所说,代表了一个时代级别的跃迁[1]

参考文献
[1] OpenAI Blog — openai.com/index/introducing-chatgpt-images-2-0/
[2] OpenAI API Docs — developers.openai.com/api/docs/models/gpt-image-2
[3] Image Generation Guide — developers.openai.com/api/docs/guides/image-generation
[4] System Card — deploymentsafety.openai.com/chatgpt-images-2-0
[5] LM Arena Text-to-Image Leaderboard — arena.ai/leaderboard/text-to-image
[6] TechCrunch — techcrunch.com/2026/04/21/chatgpts-new-images-2-0-model
[7] The Decoder — the-decoder.com/openais-chatgpt-images-2-0
[8] Latent Space — latent.space/p/ainews-openai-launches-gpt-image
[9] The New Stack — thenewstack.io/chatgpt-images-20-openai/
[10] API Pricing — developers.openai.com/api/docs/pricing

登录后阅读完整报告

包含详细分析、数据图表、竞品对比、参考文献等

Google 登录