一句话定位
"不是 DALL-E 4,而是图像生成的 GPT 时刻"
自回归单次推理,不再是扩散模型
自回归单次推理,不再是扩散模型
2026 年 4 月 21 日,OpenAI 正式发布 GPT-Image-2——Sam Altman 在发布直播中称其飞跃"相当于从 GPT-3 一步到 GPT-5"的图像生成模型[1]。不叫 DALL-E 4,不是偶然:这不是扩散模型的迭代升级,而是一次架构层面的范式转换。
配合发布的还有一个时间节点:2026 年 5 月 12 日,DALL-E 2 和 DALL-E 3 将正式关停[1]。一个时代就此落幕。
核心能力
99%
文字渲染准确率
中日韩阿希印全覆盖
中日韩阿希印全覆盖
3840px
最大分辨率
比例 1:3 ~ 3:1
比例 1:3 ~ 3:1
~3s
1024×1024 生成
GPT Image 1.5 需 8-18s
GPT Image 1.5 需 8-18s
8张
单 prompt 最多
一致风格批量输出
一致风格批量输出
核心能力清单[2][3]:
文字渲染 99%
多语言支持
3840px 最大分辨率
~3s 生成
思考模式
图像编辑(mask)
透明背景
批量 8 张
- 文字渲染:中文、日文、韩文、阿拉伯文、希伯来文、印地文均支持,约 99% 准确率
- 分辨率:最大 3840px,支持 1:3 到 3:1 任意比例
- 速度:~3 秒生成 1024×1024(上一代 GPT Image 1.5 需 8-18 秒)
- 单次前向推理:无两阶段流程
- 批量生成:单 prompt 最多 8 张风格一致的图像
- 思考模式:集成 reasoning + web search,处理复杂 prompt
- 图像编辑:支持 inpainting(通过 mask 局部修改)
- 透明背景:PNG 格式直接导出透明背景
技术架构
GPT-Image-2 最大的技术突破不是参数量,而是架构范式的转换:被广泛认为采用了自回归架构(Autoregressive Model),而非扩散模型(OpenAI 未官方确认架构细节)[1]。
核心架构要点
| 架构类型 | 自回归模型(非扩散) |
| 推理阶段 | 单阶段(vs GPT Image 1.5 两阶段) |
| 推理能力 | 集成(类 o-series) |
| 架构重建 | 从头重建(研究科学家 Boyuan Chen 表述) |
| 与 GPT-5 关系 | 独立模型,GPT-5.x 可作为工具调用 |
OpenAI 研究科学家 Boyuan Chen 表示,GPT-Image-2 的架构是"从头重建",而非对 DALL-E 的改进[1]。第三方路由平台 OpenRouter 上也出现了
gpt-5.4-image-2 组合模型(非 OpenAI 官方模型 ID),支持在 GPT-5 内调用图像生成能力[8]。
API 定价
GPT-Image-2 对 API 开发者开放,采用质量分级定价[10]。需要通过 Organization Verification(组织验证)才能调用。
| 质量档位 | 每张成本 | 适用场景 |
|---|---|---|
| Low | $0.006 | 草稿、预览、批量测试 |
| Medium | $0.053 | 日常内容生产 |
| High | $0.211 | 商业发布、高精度设计 |
Token 定价(按 token 计费场景)
图像输入:$8 / 1M tokens
图像输出:$30 / 1M tokens
文本输入:$5 / 1M tokens
文本输出:$10 / 1M tokens
Batch API 享五折优惠
模型演进时间线
2025 年 3 月
GPT Image 1 发布——吉卜力风格病毒传播,1 小时 100 万新用户注册,7 亿张图片生成,ChatGPT 用户从 4 亿翻倍到 8 亿[1]
2025 年 10 月
GPT Image 1 Mini 发布——成本降低 80%,面向大规模 API 调用
2025 年 12 月
GPT Image 1.5 发布——生成速度提升 4 倍,成本降低 20%,两阶段推理架构
2026 年 4 月 21 日
GPT Image 2 发布——自回归架构、99% 文字渲染、3840px、LM Arena 三榜第一(1512 Elo)[1]
2026 年 5 月 12 日
DALL-E 2 和 DALL-E 3 正式关停——扩散模型时代落幕[1]
竞品对比
LM Arena 文生图排行榜显示,GPT-Image-2 以 1512 Elo 分位居第一,与第二名差距达 242 分[5]。要知道 GPT-4o 当年在 NLP 榜单的领先优势也没有这么悬殊。
| 模型 | 文字准确率 | 速度 | 最大分辨率 | 成本/张 | Elo |
|---|---|---|---|---|---|
| GPT Image 2 | ~99% | ~3s | 3840px | $0.006-0.211 | 1512 |
| Midjourney V7 | 改进中 | 10-15s | 2048px | ~$0.01-0.04 | ~1270 |
| Flux 2 Pro | 好 | 快 | 2048px | $0.055 | 1265 |
| Ideogram 3.0 | 90-95% | 中等 | 2048px | ~$0.04 | ~1250 |
| Google Imagen 4 | 好 | 2.7s | 2048px | $0.02-0.06 | ~1240 |
数据来源:LM Arena[5] + 各厂商官方文档。Elo 分数截至 2026 年 4 月。竞品成本为公开定价,不含 Batch 折扣。
安全与版权
GPT-Image-2 的安全体系比前代更复杂,但版权问题仍是悬案[4]。
三层安全过滤
1
上游拒绝:在 LLM 阶段即拒绝违规 prompt
2
输入检测:图像输入的内容安全审查
3
输出检测:生成结果的后置内容过滤
技术措施与合规
- C2PA 元数据:所有生成图像嵌入 Coalition for Content Provenance and Authenticity 标准元数据
- 不可见水印:通过水印可追溯 AI 生成来源
- moderation 参数:API 支持
auto/low两档过滤强度 - 思考模式越狱率:仅 6.7%(通用越狱率的显著改进)[4]
- 版权诉讼:51+ 起版权诉讼悬而未决,平台层面尚未解决
吉卜力事件回顾
理解 GPT-Image-2 的定位,必须先理解 2025 年 3 月那次"病毒事件"[1][7]。
事件数据
生成图片总量:7 亿张
参与用户:1.3 亿
1 小时内新注册:100 万
用户总量变化:5 亿 → 8 亿
宫崎骏曾在 2016 年的 NHK 纪录片中称 AI 创作"是对生命的侮辱"——这句话在吉卜力 AI 热潮中被大量引用,尽管它本指一个完全不同的 AI 动画演示,而非针对 ChatGPT[6]。无论如何,GPT-Image-2 的定位明确转向了"专业、实用",而非追求病毒式传播的风格模仿。
定位转变 从"能模仿吉卜力"到"能生成可用于商业设计的精准图像"——99% 的文字准确率才是 GPT-Image-2 真正的护城河。
开发者反响
发布首日,Figma、Canva、Adobe Firefly、fal.ai 等主流设计工具均宣布集成[6][9]。
媒体与社区评价
- Latent Space:"不只是更好看,而是更可用——UI、mockup、文档、生产力视觉场景都能用了"[8]
- TechCrunch:"文字生成出人意料地好,在海报和演示文稿设计中表现突出"[6]
- The New Stack:"API 定价和批处理折扣让企业级集成成为可行选项"[9]
已知局限
- 复杂物理建模(如液体、烟雾动态)仍有明显问题
- 复杂 prompt 在思考模式下最长等待约 2 分钟
- 多轮迭代编辑中存在质量递减现象
- Organization Verification 门槛限制了小团队快速接入
怎么用
三种方式使用 GPT-Image-2:
方式 1:ChatGPT(最简单)
Plus / Pro / Business / Team / Enterprise 用户直接在 ChatGPT 中描述图片即可,模型自动选择 GPT-Image-2。开启"思考模式"可获得更高质量。
入口:chat.openai.com → 直接描述你想要的图片
入口:chat.openai.com → 直接描述你想要的图片
方式 2:API(开发者)
前提:需完成 Organization Verification(组织认证)
端点:
文档:developers.openai.com/api/docs/guides/image-generation
端点:
POST api.openai.com/v1/images/generations文档:developers.openai.com/api/docs/guides/image-generation
# Python
from openai import OpenAI
client = OpenAI()
result = client.images.generate(
model="gpt-image-2",
prompt="一只戴贝雷帽的猫在巴黎画埃菲尔铁塔",
size="1024x1024",
quality="high"
)
from openai import OpenAI
client = OpenAI()
result = client.images.generate(
model="gpt-image-2",
prompt="一只戴贝雷帽的猫在巴黎画埃菲尔铁塔",
size="1024x1024",
quality="high"
)
方式 3:Responses API(多轮编辑)
通过 Responses API 的
适合"生成→修改→再修改"的工作流
image_generation 内置工具,支持 previous_response_id 实现多轮迭代编辑。GPT-5 及更新模型可直接调用。适合"生成→修改→再修改"的工作流
• API 返回 base64 编码(不是 URL),需自行解码保存
• Organization Verification 是硬性要求,个人账号需先完成组织认证
• Batch API 五折(图像输出 $15/M tokens),适合批量生成
• DALL-E 2/3 将于 5 月 12 日关停,现有项目需提前迁移到 gpt-image-2
编辑观点
1. 范式转换,不是迭代升级。图像生成从"扩散去噪"转向"自回归推理",意味着未来的改进路径与 LLM 高度重叠——更大的模型、更多的计算、更好的推理能力。这是对整个图像生成行业的重新定义[1]。
2. 99% 文字准确率是商业关键。对于海报、PPT、UI mockup 等商业设计场景,之前 AI 图像生成的最大障碍不是画质,而是文字错误。这一障碍的消除意味着商业设计师第一次可以把 AI 作为可信赖的生产工具,而非"只能做灵感参考"的玩具。
3. DALL-E 关停是信号。OpenAI 主动关停自己的两款成熟产品,表明扩散模型作为主流图像生成范式可能正在退场——至少在 OpenAI 内部的技术路线判断中如此。
4. 242 分 Elo 差距是压倒性的,但竞争格局未必终结。Midjourney 在美学风格控制、Flux 在真实感摄影风格上仍有受众。Arena 排名衡量的是综合偏好,专业垂直场景可能呈现不同结论。
5. 关键问题尚待观察:当图像生成也进入"推理时代",训练成本和推理成本会怎样变化?自回归图像模型的 scaling law 是否与 LLM 一致?高成本的 High 质量档($0.211/张)能否被创作者接受?这些问题的答案,将决定 GPT-Image-2 是否真如 Sam Altman 所说,代表了一个时代级别的跃迁[1]。
参考文献
[1] OpenAI Blog — openai.com/index/introducing-chatgpt-images-2-0/
[2] OpenAI API Docs — developers.openai.com/api/docs/models/gpt-image-2
[3] Image Generation Guide — developers.openai.com/api/docs/guides/image-generation
[4] System Card — deploymentsafety.openai.com/chatgpt-images-2-0
[5] LM Arena Text-to-Image Leaderboard — arena.ai/leaderboard/text-to-image
[6] TechCrunch — techcrunch.com/2026/04/21/chatgpts-new-images-2-0-model
[7] The Decoder — the-decoder.com/openais-chatgpt-images-2-0
[8] Latent Space — latent.space/p/ainews-openai-launches-gpt-image
[9] The New Stack — thenewstack.io/chatgpt-images-20-openai/
[10] API Pricing — developers.openai.com/api/docs/pricing