OpenAI把实时语音从“能说话”推到“能边想边翻译”

2026年5月8日 · 672 字 · AI 趋势日报深度解读

发生了什么：OpenAI 正式把实时 API 推向通用可用阶段，一口气发布 GPT-Realtime-2、GPT-Realtime-Translate 与 GPT-Realtime-Whisper。其中 Realtime-2 被描述为具备 GPT-5 级推理能力、128K 上下文和五档推理强度；Translate 支持 70 多种输入语言、13 种输出语言的实时互译。

为什么重要：这意味着语音不再只是聊天机器人的一个输入方式，而是在向“实时语音智能体”演进。过去语音产品的短板是听写、理解、翻译、工具调用往往分属不同模块，延迟高、上下文断裂，也很难在长对话里保持一致。现在 OpenAI 把推理、长上下文、翻译和转录塞进同一条实时链路，语音入口第一次具备了持续执行复杂任务的可能。

具体细节：新模型支持工具调用、中断恢复和更自然的多轮对话，说明它瞄准的不是语音客服脚本，而是需要“听—想—做”连续闭环的场景。与之呼应的是，ElevenLabs 年化经常性收入已超过 5 亿美元，增长核心正来自语音代理业务；教育产品 VideoTutor 也在用实时视频讲解验证 ToC+ToB 闭环。换句话说，OpenAI 今天补的不是一个功能点，而是整个语音应用市场最值钱的基础层。

实时语音能力栈完整度

实时翻译覆盖面

传统语音助手的复杂任务能力

模型	关键信号
GPT-Realtime-2	128K 上下文、五档推理强度、工具调用
Realtime-Translate	70+ 输入语言，13 输出语言
Realtime-Whisper	低延迟流式转录