OpenAI 发布 GPT-5.5:更强的智能体编码、知识工作与科研能力

基于 OpenAI 2026 年 4 月 23 日发布的 GPT-5.5 页面,整理这次更新在智能体编码、知识工作、科研、安全、API 可用性与价格上的关键信息。

OpenAI 在 2026 年 4 月 23 日发布了 Introducing GPT-5.5。从官方页面看,这次更新的重点不是单纯“模型更聪明”,而是更强调模型能不能把复杂任务持续推进下去。

官方给 GPT-5.5 的定位,是一个更适合真实工作的模型。它不仅要回答问题,还要能写代码、调试、查资料、分析数据、生成文档和表格、操作软件,并在多个工具之间来回切换,直到任务完成。

1. GPT-5.5 主要强在哪里

这次发布页里反复出现的几个方向,可以概括为四类:

  • 智能体编码
  • 电脑操作与工具使用
  • 知识工作
  • 早期科研辅助

也就是说,GPT-5.5 的重点不是短问短答,而是更长链路的任务。比如一个工程问题不只是“这段代码怎么改”,而是要理解项目结构、定位失败原因、修改相关文件、补测试、验证结果,并尽量减少用户反复提示。

OpenAI 也特别强调,GPT-5.5 在 Codex 任务中更省 token。这个点很实际,因为编码智能体一旦开始读文件、跑命令、修 bug,token 消耗会非常快。如果模型能用更少的步骤完成同样任务,实际成本和等待时间都会下降。

2. 编码能力是这次最重要的展示方向

官方称 GPT-5.5 是目前最强的 agentic coding 模型。

几个公开指标里,比较值得注意的是:

  • Terminal-Bench 2.0:GPT-5.5 达到 82.7%
  • SWE-Bench Pro:GPT-5.5 达到 58.6%
  • OpenAI 内部的 Expert-SWE:GPT-5.5 也高于 GPT-5.4

这些测试的共同点是,它们更接近真实工程流程,而不是只考单个算法题。特别是 Terminal-Bench 这类任务,会涉及命令行操作、规划、试错、工具协调和多步骤验证。

对日常开发者来说,这里的意义很直接:模型是否能接住更大的任务,取决于它能不能长时间保持上下文、自己检查假设、知道什么时候该跑测试、知道改动会影响哪里。

GPT-5.5 在 Codex 里的价值,也主要体现在这些地方。它更像是可以接手一段工程任务的协作者,而不是只会补全代码片段的工具。

3. 知识工作开始变成重点场景

除了写代码,OpenAI 这次还把 GPT-5.5 放到了更广的办公场景里。

官方提到,GPT-5.5 在 Codex 中可以更好地生成文档、电子表格和演示文稿,也更适合处理运营研究、表格建模、业务材料整理这类任务。结合电脑操作能力之后,它的目标不是只给建议,而是能直接参与“找资料、理解内容、调用工具、检查输出、整理成结果”这一整条流程。

发布页里还提到 OpenAI 内部已经在多部门使用 Codex,包括软件工程、财务、传播、市场、数据科学和产品管理等。这里真正值得关注的不是某个单点案例,而是 OpenAI 正在把 Codex 从开发工具扩展为通用工作工具。

在 ChatGPT 里,GPT-5.5 Thinking 面向 Plus、Pro、Business 和 Enterprise 用户;GPT-5.5 Pro 则面向更难问题和更高准确率需求,提供给 Pro、Business 和 Enterprise 用户。

4. 科研能力不只是“答题更强”

GPT-5.5 的科研展示也很重。

官方提到它在遗传学、定量生物学、生物信息学、数学证明等方向都有改进。这里的重点不是模型能不能背出一个知识点,而是能不能处理更接近真实研究的问题:读数据、发现异常、提出分析方式、解释结果,并根据中间结果继续推进。

发布页里提到的 GeneBenchBixBench,都更偏多阶段科学分析任务。OpenAI 还提到,一个内部版本的 GPT-5.5 借助自定义工具链,帮助发现了关于 Ramsey numbers 的新证明,并用 Lean 做了验证。

这类案例还不能简单理解为“AI 已经能独立做科研”,但它说明模型正在从问答工具往研究协作者靠近。尤其是在代码、数据、论文、实验想法混在一起的场景里,GPT-5.5 的长链路推理和工具使用能力会更重要。

5. 推理效率:更强但没有明显变慢

一个容易被忽略的点是,OpenAI 说 GPT-5.5 在真实服务中的 per-token latency 与 GPT-5.4 相当。

通常更大的模型、更强的模型会带来更高延迟。OpenAI 这次强调,它们通过推理系统优化,让 GPT-5.5 在智能提升的同时保持速度。发布页里还提到,Codex 分析生产流量模式并编写负载分配相关启发式算法,使 token 生成速度提升超过 20%

这个细节很有意思:模型不仅被基础设施服务,也反过来帮助改进服务它的基础设施。

6. 安全策略会更严格,尤其是网络安全方向

GPT-5.5 的网络安全能力更强,所以 OpenAI 同时加强了安全限制。

官方说明中提到,GPT-5.5 在网络安全能力上比 GPT-5.4 有提升,因此会部署更严格的分类器,尤其针对高风险活动、敏感网络安全请求和重复滥用行为。

这意味着一部分用户在使用网络安全相关能力时,可能会遇到更多拒答或限制。OpenAI 也提供了 Trusted Access for Cyber,用于让经过验证的防御性用户获得更少不必要阻碍。

对普通开发者来说,可以简单理解为:合法的安全加固、漏洞修复、代码审计会继续被支持,但高风险攻击链路会被更严格地控制。

7. 可用性与 API 价格

根据 OpenAI 发布页,GPT-5.5 的可用性如下:

  • ChatGPT:GPT-5.5 Thinking 面向 Plus、Pro、Business、Enterprise 用户
  • ChatGPT:GPT-5.5 Pro 面向 Pro、Business、Enterprise 用户
  • Codex:GPT-5.5 面向 Plus、Pro、Business、Enterprise、Edu、Go 计划
  • Codex:上下文窗口为 400K
  • Codex Fast mode:生成速度约 1.5x,成本为 2.5x

API 方面,OpenAI 表示 gpt-5.5gpt-5.5-pro 会很快开放。

官方给出的 API 价格是:

  • gpt-5.5:输入 5 美元 / 1M tokens,输出 30 美元 / 1M tokens
  • gpt-5.5-pro:输入 30 美元 / 1M tokens,输出 180 美元 / 1M tokens
  • gpt-5.5 API 上下文窗口为 1M
  • Batch 和 Flex 为标准 API 价格的一半
  • Priority processing 为标准价格的 2.5x

这个价格明显高于很多日常模型,所以它更适合高价值任务:复杂工程改造、长文档分析、自动化办公、科研辅助、重要业务流程,而不是普通闲聊。

8. 怎么看这次发布

如果只看一句话,GPT-5.5 的重点是:OpenAI 正在把模型从“回答问题”继续推向“完成工作”。

它最值得关注的地方,不只是 benchmark 分数提升,而是几种能力开始汇合:

  • 更强的长任务保持能力
  • 更稳定的工具使用
  • 更好的工程上下文理解
  • 更适合文档、表格、研究和业务流程
  • 更长上下文和更高 token 效率
  • 更严格的高风险能力控制

对开发者来说,最值得试的是 Codex 里的复杂工程任务。对企业用户来说,更值得关注的是它能不能把一部分跨工具、跨文档、跨流程的工作变成可交付结果。

GPT-5.5 不是一次只面向聊天体验的小更新,而更像是 OpenAI 在继续推进“AI 作为工作执行层”的方向。

相关链接

记录并分享
使用 Hugo 构建
主题 StackJimmy 设计