OpenAI把实时语音从“能说话”推到“能边想边翻译”
发生了什么:OpenAI 正式把实时 API 推向通用可用阶段,一口气发布 GPT-Realtime-2、GPT-Realtime-Translate 与 GPT-Realtime-Whisper。其中 Realtime-2 被描述为具备 GPT-5 级推理能力、128K 上下文和五档推理强度;Translate 支持 70 多种输入语言、13 种输出语言 的实时互译。
为什么重要:这意味着语音不再只是聊天机器人的一个输入方式,而是在向“实时语音智能体”演进。过去语音产品的短板是听写、理解、翻译、工具调用往往分属不同模块,延迟高、上下文断裂,也很难在长对话里保持一致。现在 OpenAI 把推理、长上下文、翻译和转录塞进同一条实时链路,语音入口第一次具备了持续执行复杂任务的可能。
具体细节:新模型支持工具调用、中断恢复和更自然的多轮对话,说明它瞄准的不是语音客服脚本,而是需要“听—想—做”连续闭环的场景。与之呼应的是,ElevenLabs 年化经常性收入已超过 5 亿美元,增长核心正来自语音代理业务;教育产品 VideoTutor 也在用实时视频讲解验证 ToC+ToB 闭环。换句话说,OpenAI 今天补的不是一个功能点,而是整个语音应用市场最值钱的基础层。
| 模型 | 关键信号 |
|---|---|
| GPT-Realtime-2 | 128K 上下文、五档推理强度、工具调用 |
| Realtime-Translate | 70+ 输入语言,13 输出语言 |
| Realtime-Whisper | 低延迟流式转录 |
主题二|可解释性突破