OpenAI 新一代 Realtime 语音模型：GPT-Realtime-2、实时翻译与流式转写

Sat, 09 May 2026 10:58:47 +0800

OpenAI 在 2026 年 5 月 7 日发布了新一代 Realtime API 语音模型，重点不只是“说得更像人”，而是让语音代理可以在实时对话中理解、推理、调用工具、翻译和转写。

这次更新包括三个模型：

GPT-Realtime-2：面向实时语音 Agent 的主模型，支持更强推理、工具调用和长上下文。
GPT-Realtime-Translate：实时语音翻译模型，支持 70 多种输入语言到 13 种输出语言。
GPT-Realtime-Whisper：低延迟流式语音转文字模型，用于字幕、会议记录和实时工作流。

如果说早期语音助手更像“问一句、答一句”，这次更新的方向更接近“边听边做事”的语音界面。

GPT-Realtime-2：语音 Agent 的主力模型

GPT-Realtime-2 面向实时语音交互场景。它不仅要回答问题，还要在用户说话、改口、插话、补充约束时保持上下文，并在必要时调用工具完成任务。

官方重点提到的能力包括：

可以在回答前输出简短提示，例如“我查一下”，让用户知道系统正在处理。
支持并行工具调用，适合日程、搜索、订单、客服系统等多工具场景。
失败恢复更自然，避免语音会话突然中断或沉默。
上下文窗口从 32K 提升到 128K，适合更长的对话和复杂任务流。
对专业术语、专有名词、医疗词汇等场景有更好的保持能力。
语气和表达方式更可控，可以根据场景调整为冷静、同理、确认或更有活力的语气。
reasoning effort 可调，支持 minimal、low、medium、high、xhigh，默认是 low。

这意味着开发者可以把语音 Agent 用在更复杂的业务里，而不是只做简单问答。例如客服可以边听用户描述边查订单；旅行应用可以根据航班变化主动给出下一步建议；房产应用可以根据用户口头条件筛选房源并安排看房。

实时翻译：面向跨语言语音产品

GPT-Realtime-Translate 的定位是实时语音翻译。用户可以用自己的语言说话，对方听到翻译后的语音，同时还能看到实时转写。

它适合的场景比较明确：

多语言客服。
跨境销售和售前沟通。
在线教育和直播活动。
国际会议与活动主持。
视频平台和创作者内容本地化。

实时翻译的难点不只是“翻译准”，还包括低延迟、自然停顿、语气保留、口音适应和专业词汇处理。OpenAI 这次强调的是让跨语言对话更接近自然交流，而不是等一整段说完后再翻译。

流式转写：让语音内容马上进入工作流

GPT-Realtime-Whisper 是新的流式语音转文字模型。它的价值在于把语音在发生时就变成可处理文本，而不是等录音结束再统一转写。

常见应用包括：

会议实时字幕。
课堂和直播字幕。
实时会议纪要。
语音 Agent 的连续听写输入。
客服、医疗、招聘、销售等高频语音场景的后续流程。

对产品来说，流式转写可以明显缩短“说话到可操作文本”的时间。字幕更快出现，会议记录可以边说边生成，后续摘要、任务提取、CRM 写入等流程也能更早启动。

价格与可用性

这三个模型都已经在 Realtime API 中可用。官方给出的价格是：

模型	价格
`GPT-Realtime-2`	音频输入 $32 / 1M tokens，缓存输入 $0.40 / 1M tokens，音频输出 $64 / 1M tokens
`GPT-Realtime-Translate`	$0.034 / 分钟
`GPT-Realtime-Whisper`	$0.017 / 分钟

OpenAI 还提到，Realtime API 支持 EU Data Residency，并受到企业隐私承诺覆盖。对于欧洲企业或有数据驻留要求的语音产品，这是一个需要单独评估的点。

对开发者意味着什么

这次发布的重点，是语音能力开始从“输入输出层”变成“产品交互层”。

过去很多语音功能只是把语音转成文字，再把文字回复转成语音。真正难的是中间那层：理解用户意图、处理打断、补全上下文、调用工具、告诉用户系统正在做什么、在失败时自然恢复。

GPT-Realtime-2 试图把这部分能力直接放进实时语音模型里。对开发者来说，最值得关注的不是单次回答质量，而是它能否支撑持续会话和多步骤任务。

比较适合优先尝试的产品包括：

客服语音 Agent。
车载和移动端语音助手。
旅游、订票、房产、金融等需要边问边查的服务。
多语言会议和跨境沟通工具。
实时字幕、会议纪要和通话质检系统。

也要注意安全和告知

OpenAI 在发布页中强调，Realtime API 会包含多层安全措施，例如对会话进行主动分类，必要时中止违反政策的内容。开发者也可以通过 Agents SDK 增加自己的安全护栏。

还有一个容易被忽略的要求：当终端用户正在与 AI 交互时，开发者需要清楚告知，除非场景本身已经足够明显。

这对客服、销售、教育、医疗等场景都很重要。语音越自然，越需要在产品设计上明确边界：用户知道自己在和 AI 沟通，也知道哪些操作会被记录、转写或触发工具调用。

总结

OpenAI 这次 Realtime API 更新，把实时语音从“能听能说”推进到“能边听边处理任务”。

GPT-Realtime-2 负责更复杂的语音 Agent，GPT-Realtime-Translate 负责跨语言实时交流，GPT-Realtime-Whisper 负责低延迟转写。三者合在一起，覆盖了语音产品里最常见的三个基础能力：对话、翻译和转写。

如果你正在做客服、车载、会议、教育、跨境沟通或移动端语音助手，这次更新值得重点测试。真正需要验证的，不只是模型听起来是否自然，而是它在长对话、打断、工具调用、失败恢复和成本控制上的表现。

参考链接：

OpenAI：Advancing voice intelligence with new models in the API

Realtime API on KnightLi的博客