OpenAI:发布 GPT-Realtime-2,把 GPT-5 级推理带进语音 Agent
OpenAI 在 API 推出最新语音模型 GPT-Realtime-2,主打 GPT-5 级推理与实时协作;同时上线流式翻译模型 GPT-Realtime-Translate 与转写模型 GPT-Realtime-Whisper。
查看原文OpenAI 在 API 侧发布三款实时语音类产品:GPT-Realtime-2 主打「GPT-5 级」推理嵌入语音 Agent,另有翻译与转写模型。定价与上线时间尚未公布,但意图明显——在语音赛道正面挑战 Twilio、ElevenLabs 和 LiveKit。
产品是什么
GPT-Realtime-2 是 OpenAI 将大语言模型推理能力直接嵌入语音交互链路的尝试。它的核心卖点是把原本需要「语音→文字→LLM→语音」四步走的pipeline,压缩为端到端实时推理——模型在接收音频流的同时完成语义理解和生成响应,理论上可以显著降低延迟并减少信息损耗。
同期发布的两款辅助模型各有分工:GPT-Realtime-Translate 定位流式翻译,据称支持多语种实时互译;GPT-Realtime-Whisper 则是一款基于 Whisper 改进的转写模型,OpenAI 声称其在低信噪比环境下的 WER(词错误率)有所优化。
解决什么问题
当前语音 Agent 的主流瓶颈在于延迟和上下文连贯性。多数产品依赖转录→LLM→合成的串联链路,端到端延迟往往在 1.5-3 秒之间,用户体验接近「对讲机」而非「对话」。GPT-Realtime-2 的端到端架构若属实,可以在单模型内完成意图识别→推理→话术生成,有望将延迟压至 500ms 以下。
另一个痛点是复杂推理在语音场景中的落地。现有方案中,用户要求模型做多步骤推理(如行程规划+比价+风险提示),文字模型表现良好,但语音链路会因为中间结果无法顺畅表达而断裂。G
继续阅读深度解读 + 编辑加注
下方还有 3-5 段深度分析 + Vincent 编辑加注 + 可点击信源,仅 Pro 会员可见
¥99 / 季 · 每周 1 篇深度研报 · 飞书+微信群双通道
已是 Pro 但仍被提示?联系反馈
- OpenAI 官方推文 · 2026-05-07
- OpenAI Realtime API 官方文档 · 2025-01-01
- LiveKit 实时语音架构白皮书 · 2025-03-01