OpenAI 發布 GPT-5.5:更強的智慧體編碼、知識工作與科研能力

基於 OpenAI 2026 年 4 月 23 日發布的 GPT-5.5 頁面,整理這次更新在智慧體編碼、知識工作、科研、安全、API 可用性與價格上的關鍵資訊。

OpenAI 在 2026 年 4 月 23 日發布了 Introducing GPT-5.5。從官方頁面來看,這次更新的重點不是單純「模型更聰明」,而是更強調模型能不能把複雜任務持續推進下去。

官方給 GPT-5.5 的定位,是一個更適合真實工作的模型。它不只要回答問題,還要能寫程式、除錯、查資料、分析資料、產生文件和試算表、操作軟體,並在多個工具之間來回切換,直到任務完成。

1. GPT-5.5 主要強在哪裡

這次發布頁裡反覆出現的幾個方向,可以概括為四類:

  • 智慧體編碼
  • 電腦操作與工具使用
  • 知識工作
  • 早期科研輔助

也就是說,GPT-5.5 的重點不是短問短答,而是更長鏈路的任務。例如一個工程問題不只是「這段程式碼怎麼改」,而是要理解專案結構、定位失敗原因、修改相關檔案、補測試、驗證結果,並盡量減少使用者反覆提示。

OpenAI 也特別強調,GPT-5.5 在 Codex 任務中更省 token。這點很實際,因為編碼智慧體一旦開始讀檔案、跑命令、修 bug,token 消耗會非常快。如果模型能用更少步驟完成同樣任務,實際成本和等待時間都會下降。

2. 編碼能力是這次最重要的展示方向

官方稱 GPT-5.5 是目前最強的 agentic coding 模型。

幾個公開指標裡,比較值得注意的是:

  • Terminal-Bench 2.0:GPT-5.5 達到 82.7%
  • SWE-Bench Pro:GPT-5.5 達到 58.6%
  • OpenAI 內部的 Expert-SWE:GPT-5.5 也高於 GPT-5.4

這些測試的共同點是,它們更接近真實工程流程,而不是只考單個演算法題。特別是 Terminal-Bench 這類任務,會涉及命令列操作、規劃、試錯、工具協調和多步驟驗證。

對日常開發者來說,這裡的意義很直接:模型是否能接住更大的任務,取決於它能不能長時間保持上下文、自己檢查假設、知道什麼時候該跑測試、知道改動會影響哪裡。

GPT-5.5 在 Codex 裡的價值,也主要體現在這些地方。它更像是可以接手一段工程任務的協作者,而不是只會補全程式碼片段的工具。

3. 知識工作開始變成重點場景

除了寫程式,OpenAI 這次也把 GPT-5.5 放到了更廣的辦公場景裡。

官方提到,GPT-5.5 在 Codex 中可以更好地產生文件、試算表和簡報,也更適合處理營運研究、試算表建模、業務材料整理這類任務。結合電腦操作能力之後,它的目標不是只給建議,而是能直接參與「找資料、理解內容、呼叫工具、檢查輸出、整理成結果」這整條流程。

發布頁裡還提到 OpenAI 內部已經在多部門使用 Codex,包括軟體工程、財務、傳播、市場、資料科學和產品管理等。這裡真正值得關注的不是某個單點案例,而是 OpenAI 正在把 Codex 從開發工具擴展為通用工作工具。

在 ChatGPT 裡,GPT-5.5 Thinking 面向 Plus、Pro、Business 和 Enterprise 使用者;GPT-5.5 Pro 則面向更難問題和更高準確率需求,提供給 Pro、Business 和 Enterprise 使用者。

4. 科研能力不只是「答題更強」

GPT-5.5 的科研展示也很重。

官方提到它在遺傳學、定量生物學、生物資訊學、數學證明等方向都有改進。這裡的重點不是模型能不能背出一個知識點,而是能不能處理更接近真實研究的問題:讀資料、發現異常、提出分析方式、解釋結果,並根據中間結果繼續推進。

發布頁裡提到的 GeneBenchBixBench,都更偏多階段科學分析任務。OpenAI 還提到,一個內部版本的 GPT-5.5 借助自訂工具鏈,幫助發現了關於 Ramsey numbers 的新證明,並用 Lean 做了驗證。

這類案例還不能簡單理解為「AI 已經能獨立做科研」,但它說明模型正在從問答工具往研究協作者靠近。尤其是在程式碼、資料、論文、實驗想法混在一起的場景裡,GPT-5.5 的長鏈路推理和工具使用能力會更重要。

5. 推理效率:更強但沒有明顯變慢

一個容易被忽略的點是,OpenAI 說 GPT-5.5 在真實服務中的 per-token latency 與 GPT-5.4 相當。

通常更大的模型、更強的模型會帶來更高延遲。OpenAI 這次強調,它們透過推理系統最佳化,讓 GPT-5.5 在智慧提升的同時保持速度。發布頁裡還提到,Codex 分析生產流量模式並編寫負載分配相關啟發式演算法,使 token 產生速度提升超過 20%

這個細節很有意思:模型不只被基礎設施服務,也反過來幫助改進服務它的基礎設施。

6. 安全策略會更嚴格,尤其是網路安全方向

GPT-5.5 的網路安全能力更強,所以 OpenAI 同時加強了安全限制。

官方說明中提到,GPT-5.5 在網路安全能力上比 GPT-5.4 有提升,因此會部署更嚴格的分類器,尤其針對高風險活動、敏感網路安全請求和重複濫用行為。

這意味著一部分使用者在使用網路安全相關能力時,可能會遇到更多拒答或限制。OpenAI 也提供了 Trusted Access for Cyber,用於讓經過驗證的防禦性使用者獲得更少不必要阻礙。

對普通開發者來說,可以簡單理解為:合法的安全加固、漏洞修復、程式碼審計會繼續被支援,但高風險攻擊鏈路會被更嚴格地控制。

7. 可用性與 API 價格

根據 OpenAI 發布頁,GPT-5.5 的可用性如下:

  • ChatGPT:GPT-5.5 Thinking 面向 Plus、Pro、Business、Enterprise 使用者
  • ChatGPT:GPT-5.5 Pro 面向 Pro、Business、Enterprise 使用者
  • Codex:GPT-5.5 面向 Plus、Pro、Business、Enterprise、Edu、Go 方案
  • Codex:上下文視窗為 400K
  • Codex Fast mode:產生速度約 1.5x,成本為 2.5x

API 方面,OpenAI 表示 gpt-5.5gpt-5.5-pro 會很快開放。

官方給出的 API 價格是:

  • gpt-5.5:輸入 5 美元 / 1M tokens,輸出 30 美元 / 1M tokens
  • gpt-5.5-pro:輸入 30 美元 / 1M tokens,輸出 180 美元 / 1M tokens
  • gpt-5.5 API 上下文視窗為 1M
  • Batch 和 Flex 為標準 API 價格的一半
  • Priority processing 為標準價格的 2.5x

這個價格明顯高於很多日常模型,所以它更適合高價值任務:複雜工程改造、長文件分析、自動化辦公、科研輔助、重要業務流程,而不是普通閒聊。

8. 怎麼看這次發布

如果只看一句話,GPT-5.5 的重點是:OpenAI 正在把模型從「回答問題」繼續推向「完成工作」。

它最值得關注的地方,不只是 benchmark 分數提升,而是幾種能力開始匯合:

  • 更強的長任務保持能力
  • 更穩定的工具使用
  • 更好的工程上下文理解
  • 更適合文件、試算表、研究和業務流程
  • 更長上下文和更高 token 效率
  • 更嚴格的高風險能力控制

對開發者來說,最值得試的是 Codex 裡的複雜工程任務。對企業使用者來說,更值得關注的是它能不能把一部分跨工具、跨文件、跨流程的工作變成可交付結果。

GPT-5.5 不是一次只面向聊天體驗的小更新,而更像是 OpenAI 在繼續推進「AI 作為工作執行層」的方向。

相關連結

记录并分享
使用 Hugo 建立
主題 StackJimmy 設計