← 返回资讯
产品发布 @OpenAI 2026-05-07

OpenAI:Realtime API 上线三款新语音模型

GPT-Realtime-2 可构建生产级语音 Agent;Translate 版支持 70+ 输入语言、13 输出语言流式翻译;Whisper 版用于实时音频转写。

查看原文
TL;DR · 产品解读

OpenAI Realtime API 补齐三款专用语音模型,覆盖流式翻译、实时转写、语音 Agent 三大场景,形成完整语音处理流水线。但 GPT-Realtime-2 目前仅输出文本而非原生音频,限制了端到端语音交互的应用深度。

深度解读

产品具体是什么

OpenAI 此次发布的三款模型并非单一产品,而是 Realtime API 能力矩阵的三个专业化组件:

三者的组合逻辑清晰:Whisper 负责「听」,Translate 负责「译」,GPT-Realtime-2 负责「想」,共同构成从音频输入到文本输出的完整闭环。

解决什么问题

此前开发者要用语音能力,需要自拼管线:语音识别调用 Whisper API → 翻译找第三方或自己实现 → 对话走 ChatGPT API → 再接 TTS 回到语音。Realtime API 此前已提供部分能力,但模型层面的专业化分工意味着更低的延迟和更精准的场景适配。

Translate 版

未登录访客
SMARTFLOW PRO

继续阅读深度解读 + 编辑加注

下方还有 3-5 段深度分析 + Vincent 编辑加注 + 可点击信源,仅 Pro 会员可见

加入机智流 PRO →

¥99 / 季 · 每周 1 篇深度研报 · 飞书+微信群双通道

已是 Pro 但仍被提示?联系反馈

参考来源
  1. OpenAI 官方推文 · 2026-05-07
  2. OpenAI Realtime API 文档 · 2026-05-07
  3. Whisper 模型技术报告 · 2023-09-01
本解读由 AI 自动生成 · 模板:产品解读 · 仅供参考,请以原文为准。