← 返回资讯
大模型 @sama 2026-05-07

用户开始大量用语音和 AI 交互,GPT-Realtime-2 是大幅升级

Sam Altman 称用户在需要倾倒大量上下文时已习惯用语音与 AI 互动,GPT-Realtime-2 在 API 上线是相当大的一步,ChatGPT 内的语音体验也在改进中。

查看原文
TL;DR · 产品解读

OpenAI 发布 GPT-Realtime-2 API,将语音交互质量提升到新水平,延迟更低、功能更强。语音 AI 正从玩具向生产力工具转变。

深度解读

产品是什么

GPT-Realtime-2 是 OpenAI 推出的新一代实时语音交互 API。前代 Realtime API 于 2024 年 10 月上线,支持低延迟语音对话;这次升级在延迟、多模态上下文注入、以及 ChatGPT 内置语音体验上都有实质提升。用户现在可以在对话中通过语音高效地"倾倒"大量上下文信息,Altman 确认这一使用模式正在成为主流。

解决什么问题

传统语音 AI 流程需要经过 ASR(语音识别)→ LLM(语言模型)→ TTS(语音合成)三跳,延迟高、误差累积。Realtime-2 将这一流程压缩,让语音信号直接进入多模态模型,减少中间环节损耗。核心价值是降低用户"倾倒信息"的门槛——当需要输入大量上下文时,语音比打字更快、更自然。

对比同类竞品

参考来源
  1. Sam Altman:用户开始大量用语音和 AI 交互,GPT-Realtime-2 是大幅升级 · 2026-05-07
  2. OpenAI Realtime API Documentation · 2024-10-01
本解读由 AI 自动生成 · 模板:产品解读 · 仅供参考,请以原文为准。