<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>語音模型 on KnightLi的博客</title>
        <link>https://www.knightli.com/zh-tw/tags/%E8%AA%9E%E9%9F%B3%E6%A8%A1%E5%9E%8B/</link>
        <description>Recent content in 語音模型 on KnightLi的博客</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>zh-tw</language>
        <lastBuildDate>Sat, 09 May 2026 10:58:47 +0800</lastBuildDate><atom:link href="https://www.knightli.com/zh-tw/tags/%E8%AA%9E%E9%9F%B3%E6%A8%A1%E5%9E%8B/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>OpenAI 新一代 Realtime 語音模型：GPT-Realtime-2、即時翻譯與串流轉寫</title>
        <link>https://www.knightli.com/zh-tw/2026/05/09/openai-realtime-voice-models-gpt-realtime-2-translate-whisper/</link>
        <pubDate>Sat, 09 May 2026 10:58:47 +0800</pubDate>
        
        <guid>https://www.knightli.com/zh-tw/2026/05/09/openai-realtime-voice-models-gpt-realtime-2-translate-whisper/</guid>
        <description>&lt;p&gt;OpenAI 在 2026 年 5 月 7 日發布了新一代 Realtime API 語音模型，重點不只是「說得更像人」，而是讓語音代理可以在即時對話中理解、推理、呼叫工具、翻譯和轉寫。&lt;/p&gt;
&lt;p&gt;這次更新包括三個模型：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;GPT-Realtime-2&lt;/code&gt;：面向即時語音 Agent 的主模型，支援更強推理、工具呼叫和長上下文。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;GPT-Realtime-Translate&lt;/code&gt;：即時語音翻譯模型，支援 70 多種輸入語言到 13 種輸出語言。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;GPT-Realtime-Whisper&lt;/code&gt;：低延遲串流語音轉文字模型，用於字幕、會議記錄和即時工作流。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;如果說早期語音助手更像「問一句、答一句」，這次更新的方向更接近「邊聽邊做事」的語音介面。&lt;/p&gt;
&lt;h2 id=&#34;gpt-realtime-2語音-agent-的主力模型&#34;&gt;GPT-Realtime-2：語音 Agent 的主力模型
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;GPT-Realtime-2&lt;/code&gt; 面向即時語音互動場景。它不只是回答問題，還要在使用者說話、改口、插話、補充限制時保持上下文，並在必要時呼叫工具完成任務。&lt;/p&gt;
&lt;p&gt;官方重點提到的能力包括：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;可以在回答前輸出簡短提示，例如「我查一下」，讓使用者知道系統正在處理。&lt;/li&gt;
&lt;li&gt;支援並行工具呼叫，適合日程、搜尋、訂單、客服系統等多工具場景。&lt;/li&gt;
&lt;li&gt;失敗恢復更自然，避免語音會話突然中斷或沉默。&lt;/li&gt;
&lt;li&gt;上下文窗口從 32K 提升到 128K，適合更長的對話和複雜任務流。&lt;/li&gt;
&lt;li&gt;對專業術語、專有名詞、醫療詞彙等場景有更好的保持能力。&lt;/li&gt;
&lt;li&gt;語氣和表達方式更可控，可以根據場景調整為冷靜、同理、確認或更有活力的語氣。&lt;/li&gt;
&lt;li&gt;reasoning effort 可調，支援 &lt;code&gt;minimal&lt;/code&gt;、&lt;code&gt;low&lt;/code&gt;、&lt;code&gt;medium&lt;/code&gt;、&lt;code&gt;high&lt;/code&gt;、&lt;code&gt;xhigh&lt;/code&gt;，預設是 &lt;code&gt;low&lt;/code&gt;。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;這意味著開發者可以把語音 Agent 用在更複雜的業務裡，而不是只做簡單問答。例如客服可以邊聽使用者描述邊查訂單；旅行應用可以根據航班變化主動給出下一步建議；房產應用可以根據使用者口頭條件篩選房源並安排看房。&lt;/p&gt;
&lt;h2 id=&#34;即時翻譯面向跨語言語音產品&#34;&gt;即時翻譯：面向跨語言語音產品
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;GPT-Realtime-Translate&lt;/code&gt; 的定位是即時語音翻譯。使用者可以用自己的語言說話，對方聽到翻譯後的語音，同時還能看到即時轉寫。&lt;/p&gt;
&lt;p&gt;它適合的場景比較明確：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;多語言客服。&lt;/li&gt;
&lt;li&gt;跨境銷售和售前溝通。&lt;/li&gt;
&lt;li&gt;線上教育和直播活動。&lt;/li&gt;
&lt;li&gt;國際會議與活動主持。&lt;/li&gt;
&lt;li&gt;影片平台和創作者內容在地化。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;即時翻譯的難點不只是「翻譯準」，還包括低延遲、自然停頓、語氣保留、口音適應和專業詞彙處理。OpenAI 這次強調的是讓跨語言對話更接近自然交流，而不是等一整段說完後再翻譯。&lt;/p&gt;
&lt;h2 id=&#34;串流轉寫讓語音內容馬上進入工作流&#34;&gt;串流轉寫：讓語音內容馬上進入工作流
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;GPT-Realtime-Whisper&lt;/code&gt; 是新的串流語音轉文字模型。它的價值在於把語音在發生時就變成可處理文字，而不是等錄音結束再統一轉寫。&lt;/p&gt;
&lt;p&gt;常見應用包括：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;會議即時字幕。&lt;/li&gt;
&lt;li&gt;課堂和直播字幕。&lt;/li&gt;
&lt;li&gt;即時會議紀要。&lt;/li&gt;
&lt;li&gt;語音 Agent 的連續聽寫輸入。&lt;/li&gt;
&lt;li&gt;客服、醫療、招聘、銷售等高頻語音場景的後續流程。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;對產品來說，串流轉寫可以明顯縮短「說話到可操作文字」的時間。字幕更快出現，會議記錄可以邊說邊生成，後續摘要、任務提取、CRM 寫入等流程也能更早啟動。&lt;/p&gt;
&lt;h2 id=&#34;價格與可用性&#34;&gt;價格與可用性
&lt;/h2&gt;&lt;p&gt;這三個模型都已經在 Realtime API 中可用。官方給出的價格是：&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;模型&lt;/th&gt;
          &lt;th&gt;價格&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;GPT-Realtime-2&lt;/code&gt;&lt;/td&gt;
          &lt;td&gt;音訊輸入 $32 / 1M tokens，快取輸入 $0.40 / 1M tokens，音訊輸出 $64 / 1M tokens&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;GPT-Realtime-Translate&lt;/code&gt;&lt;/td&gt;
          &lt;td&gt;$0.034 / 分鐘&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;GPT-Realtime-Whisper&lt;/code&gt;&lt;/td&gt;
          &lt;td&gt;$0.017 / 分鐘&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;OpenAI 還提到，Realtime API 支援 EU Data Residency，並受到企業隱私承諾覆蓋。對於歐洲企業或有資料駐留要求的語音產品，這是需要單獨評估的一點。&lt;/p&gt;
&lt;h2 id=&#34;對開發者意味著什麼&#34;&gt;對開發者意味著什麼
&lt;/h2&gt;&lt;p&gt;這次發布的重點，是語音能力開始從「輸入輸出層」變成「產品互動層」。&lt;/p&gt;
&lt;p&gt;過去很多語音功能只是把語音轉成文字，再把文字回覆轉成語音。真正難的是中間那層：理解使用者意圖、處理打斷、補全上下文、呼叫工具、告訴使用者系統正在做什麼、在失敗時自然恢復。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;GPT-Realtime-2&lt;/code&gt; 試圖把這部分能力直接放進即時語音模型裡。對開發者來說，最值得關注的不是單次回答品質，而是它能否支撐持續會話和多步驟任務。&lt;/p&gt;
&lt;p&gt;比較適合優先嘗試的產品包括：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;客服語音 Agent。&lt;/li&gt;
&lt;li&gt;車載和行動端語音助手。&lt;/li&gt;
&lt;li&gt;旅遊、訂票、房產、金融等需要邊問邊查的服務。&lt;/li&gt;
&lt;li&gt;多語言會議和跨境溝通工具。&lt;/li&gt;
&lt;li&gt;即時字幕、會議紀要和通話質檢系統。&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;也要注意安全和告知&#34;&gt;也要注意安全和告知
&lt;/h2&gt;&lt;p&gt;OpenAI 在發布頁中強調，Realtime API 會包含多層安全措施，例如對會話進行主動分類，必要時中止違反政策的內容。開發者也可以透過 Agents SDK 增加自己的安全護欄。&lt;/p&gt;
&lt;p&gt;還有一個容易被忽略的要求：當終端使用者正在與 AI 互動時，開發者需要清楚告知，除非場景本身已經足夠明顯。&lt;/p&gt;
&lt;p&gt;這對客服、銷售、教育、醫療等場景都很重要。語音越自然，越需要在產品設計上明確邊界：使用者知道自己在和 AI 溝通，也知道哪些操作會被記錄、轉寫或觸發工具呼叫。&lt;/p&gt;
&lt;h2 id=&#34;總結&#34;&gt;總結
&lt;/h2&gt;&lt;p&gt;OpenAI 這次 Realtime API 更新，把即時語音從「能聽能說」推進到「能邊聽邊處理任務」。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;GPT-Realtime-2&lt;/code&gt; 負責更複雜的語音 Agent，&lt;code&gt;GPT-Realtime-Translate&lt;/code&gt; 負責跨語言即時交流，&lt;code&gt;GPT-Realtime-Whisper&lt;/code&gt; 負責低延遲轉寫。三者合在一起，覆蓋了語音產品裡最常見的三個基礎能力：對話、翻譯和轉寫。&lt;/p&gt;
&lt;p&gt;如果你正在做客服、車載、會議、教育、跨境溝通或行動端語音助手，這次更新值得重點測試。真正需要驗證的，不只是模型聽起來是否自然，而是它在長對話、打斷、工具呼叫、失敗恢復和成本控制上的表現。&lt;/p&gt;
&lt;p&gt;參考連結：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;OpenAI：Advancing voice intelligence with new models in the API&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        
    </channel>
</rss>
