OpenAI把实时语音从“能说话”推到“能边想边翻译”

发生了什么:OpenAI 正式把实时 API 推向通用可用阶段,一口气发布 GPT-Realtime-2、GPT-Realtime-Translate 与 GPT-Realtime-Whisper。其中 Realtime-2 被描述为具备 GPT-5 级推理能力、128K 上下文和五档推理强度;Translate 支持 70 多种输入语言、13 种输出语言 的实时互译。

为什么重要:这意味着语音不再只是聊天机器人的一个输入方式,而是在向“实时语音智能体”演进。过去语音产品的短板是听写、理解、翻译、工具调用往往分属不同模块,延迟高、上下文断裂,也很难在长对话里保持一致。现在 OpenAI 把推理、长上下文、翻译和转录塞进同一条实时链路,语音入口第一次具备了持续执行复杂任务的可能。

具体细节:新模型支持工具调用、中断恢复和更自然的多轮对话,说明它瞄准的不是语音客服脚本,而是需要“听—想—做”连续闭环的场景。与之呼应的是,ElevenLabs 年化经常性收入已超过 5 亿美元,增长核心正来自语音代理业务;教育产品 VideoTutor 也在用实时视频讲解验证 ToC+ToB 闭环。换句话说,OpenAI 今天补的不是一个功能点,而是整个语音应用市场最值钱的基础层。

实时语音能力栈完整度
实时翻译覆盖面
传统语音助手的复杂任务能力
模型关键信号
GPT-Realtime-2128K 上下文、五档推理强度、工具调用
Realtime-Translate70+ 输入语言,13 输出语言
Realtime-Whisper低延迟流式转录
主题二|可解释性突破
OpenAI把实时语音从“能说话”推到“能边想边翻译” | AI 趋势