<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>Realtime API on KnightLi的博客</title>
        <link>https://www.knightli.com/tags/realtime-api/</link>
        <description>Recent content in Realtime API on KnightLi的博客</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>zh-cn</language>
        <lastBuildDate>Sat, 09 May 2026 10:58:47 +0800</lastBuildDate><atom:link href="https://www.knightli.com/tags/realtime-api/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>OpenAI 新一代 Realtime 语音模型：GPT-Realtime-2、实时翻译与流式转写</title>
        <link>https://www.knightli.com/2026/05/09/openai-realtime-voice-models-gpt-realtime-2-translate-whisper/</link>
        <pubDate>Sat, 09 May 2026 10:58:47 +0800</pubDate>
        
        <guid>https://www.knightli.com/2026/05/09/openai-realtime-voice-models-gpt-realtime-2-translate-whisper/</guid>
        <description>&lt;p&gt;OpenAI 在 2026 年 5 月 7 日发布了新一代 Realtime API 语音模型，重点不只是“说得更像人”，而是让语音代理可以在实时对话中理解、推理、调用工具、翻译和转写。&lt;/p&gt;
&lt;p&gt;这次更新包括三个模型：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;GPT-Realtime-2&lt;/code&gt;：面向实时语音 Agent 的主模型，支持更强推理、工具调用和长上下文。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;GPT-Realtime-Translate&lt;/code&gt;：实时语音翻译模型，支持 70 多种输入语言到 13 种输出语言。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;GPT-Realtime-Whisper&lt;/code&gt;：低延迟流式语音转文字模型，用于字幕、会议记录和实时工作流。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;如果说早期语音助手更像“问一句、答一句”，这次更新的方向更接近“边听边做事”的语音界面。&lt;/p&gt;
&lt;h2 id=&#34;gpt-realtime-2语音-agent-的主力模型&#34;&gt;GPT-Realtime-2：语音 Agent 的主力模型
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;GPT-Realtime-2&lt;/code&gt; 面向实时语音交互场景。它不仅要回答问题，还要在用户说话、改口、插话、补充约束时保持上下文，并在必要时调用工具完成任务。&lt;/p&gt;
&lt;p&gt;官方重点提到的能力包括：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;可以在回答前输出简短提示，例如“我查一下”，让用户知道系统正在处理。&lt;/li&gt;
&lt;li&gt;支持并行工具调用，适合日程、搜索、订单、客服系统等多工具场景。&lt;/li&gt;
&lt;li&gt;失败恢复更自然，避免语音会话突然中断或沉默。&lt;/li&gt;
&lt;li&gt;上下文窗口从 32K 提升到 128K，适合更长的对话和复杂任务流。&lt;/li&gt;
&lt;li&gt;对专业术语、专有名词、医疗词汇等场景有更好的保持能力。&lt;/li&gt;
&lt;li&gt;语气和表达方式更可控，可以根据场景调整为冷静、同理、确认或更有活力的语气。&lt;/li&gt;
&lt;li&gt;reasoning effort 可调，支持 &lt;code&gt;minimal&lt;/code&gt;、&lt;code&gt;low&lt;/code&gt;、&lt;code&gt;medium&lt;/code&gt;、&lt;code&gt;high&lt;/code&gt;、&lt;code&gt;xhigh&lt;/code&gt;，默认是 &lt;code&gt;low&lt;/code&gt;。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这意味着开发者可以把语音 Agent 用在更复杂的业务里，而不是只做简单问答。例如客服可以边听用户描述边查订单；旅行应用可以根据航班变化主动给出下一步建议；房产应用可以根据用户口头条件筛选房源并安排看房。&lt;/p&gt;
&lt;h2 id=&#34;实时翻译面向跨语言语音产品&#34;&gt;实时翻译：面向跨语言语音产品
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;GPT-Realtime-Translate&lt;/code&gt; 的定位是实时语音翻译。用户可以用自己的语言说话，对方听到翻译后的语音，同时还能看到实时转写。&lt;/p&gt;
&lt;p&gt;它适合的场景比较明确：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;多语言客服。&lt;/li&gt;
&lt;li&gt;跨境销售和售前沟通。&lt;/li&gt;
&lt;li&gt;在线教育和直播活动。&lt;/li&gt;
&lt;li&gt;国际会议与活动主持。&lt;/li&gt;
&lt;li&gt;视频平台和创作者内容本地化。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;实时翻译的难点不只是“翻译准”，还包括低延迟、自然停顿、语气保留、口音适应和专业词汇处理。OpenAI 这次强调的是让跨语言对话更接近自然交流，而不是等一整段说完后再翻译。&lt;/p&gt;
&lt;h2 id=&#34;流式转写让语音内容马上进入工作流&#34;&gt;流式转写：让语音内容马上进入工作流
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;GPT-Realtime-Whisper&lt;/code&gt; 是新的流式语音转文字模型。它的价值在于把语音在发生时就变成可处理文本，而不是等录音结束再统一转写。&lt;/p&gt;
&lt;p&gt;常见应用包括：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;会议实时字幕。&lt;/li&gt;
&lt;li&gt;课堂和直播字幕。&lt;/li&gt;
&lt;li&gt;实时会议纪要。&lt;/li&gt;
&lt;li&gt;语音 Agent 的连续听写输入。&lt;/li&gt;
&lt;li&gt;客服、医疗、招聘、销售等高频语音场景的后续流程。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;对产品来说，流式转写可以明显缩短“说话到可操作文本”的时间。字幕更快出现，会议记录可以边说边生成，后续摘要、任务提取、CRM 写入等流程也能更早启动。&lt;/p&gt;
&lt;h2 id=&#34;价格与可用性&#34;&gt;价格与可用性
&lt;/h2&gt;&lt;p&gt;这三个模型都已经在 Realtime API 中可用。官方给出的价格是：&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;模型&lt;/th&gt;
          &lt;th&gt;价格&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;GPT-Realtime-2&lt;/code&gt;&lt;/td&gt;
          &lt;td&gt;音频输入 $32 / 1M tokens，缓存输入 $0.40 / 1M tokens，音频输出 $64 / 1M tokens&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;GPT-Realtime-Translate&lt;/code&gt;&lt;/td&gt;
          &lt;td&gt;$0.034 / 分钟&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;GPT-Realtime-Whisper&lt;/code&gt;&lt;/td&gt;
          &lt;td&gt;$0.017 / 分钟&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;OpenAI 还提到，Realtime API 支持 EU Data Residency，并受到企业隐私承诺覆盖。对于欧洲企业或有数据驻留要求的语音产品，这是一个需要单独评估的点。&lt;/p&gt;
&lt;h2 id=&#34;对开发者意味着什么&#34;&gt;对开发者意味着什么
&lt;/h2&gt;&lt;p&gt;这次发布的重点，是语音能力开始从“输入输出层”变成“产品交互层”。&lt;/p&gt;
&lt;p&gt;过去很多语音功能只是把语音转成文字，再把文字回复转成语音。真正难的是中间那层：理解用户意图、处理打断、补全上下文、调用工具、告诉用户系统正在做什么、在失败时自然恢复。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;GPT-Realtime-2&lt;/code&gt; 试图把这部分能力直接放进实时语音模型里。对开发者来说，最值得关注的不是单次回答质量，而是它能否支撑持续会话和多步骤任务。&lt;/p&gt;
&lt;p&gt;比较适合优先尝试的产品包括：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;客服语音 Agent。&lt;/li&gt;
&lt;li&gt;车载和移动端语音助手。&lt;/li&gt;
&lt;li&gt;旅游、订票、房产、金融等需要边问边查的服务。&lt;/li&gt;
&lt;li&gt;多语言会议和跨境沟通工具。&lt;/li&gt;
&lt;li&gt;实时字幕、会议纪要和通话质检系统。&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;也要注意安全和告知&#34;&gt;也要注意安全和告知
&lt;/h2&gt;&lt;p&gt;OpenAI 在发布页中强调，Realtime API 会包含多层安全措施，例如对会话进行主动分类，必要时中止违反政策的内容。开发者也可以通过 Agents SDK 增加自己的安全护栏。&lt;/p&gt;
&lt;p&gt;还有一个容易被忽略的要求：当终端用户正在与 AI 交互时，开发者需要清楚告知，除非场景本身已经足够明显。&lt;/p&gt;
&lt;p&gt;这对客服、销售、教育、医疗等场景都很重要。语音越自然，越需要在产品设计上明确边界：用户知道自己在和 AI 沟通，也知道哪些操作会被记录、转写或触发工具调用。&lt;/p&gt;
&lt;h2 id=&#34;总结&#34;&gt;总结
&lt;/h2&gt;&lt;p&gt;OpenAI 这次 Realtime API 更新，把实时语音从“能听能说”推进到“能边听边处理任务”。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;GPT-Realtime-2&lt;/code&gt; 负责更复杂的语音 Agent，&lt;code&gt;GPT-Realtime-Translate&lt;/code&gt; 负责跨语言实时交流，&lt;code&gt;GPT-Realtime-Whisper&lt;/code&gt; 负责低延迟转写。三者合在一起，覆盖了语音产品里最常见的三个基础能力：对话、翻译和转写。&lt;/p&gt;
&lt;p&gt;如果你正在做客服、车载、会议、教育、跨境沟通或移动端语音助手，这次更新值得重点测试。真正需要验证的，不只是模型听起来是否自然，而是它在长对话、打断、工具调用、失败恢复和成本控制上的表现。&lt;/p&gt;
&lt;p&gt;参考链接：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;OpenAI：Advancing voice intelligence with new models in the API&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        
    </channel>
</rss>
