OpenAI 发布 GPT-5.5：更强的智能体编码、知识工作与科研能力

Fri, 24 Apr 2026 08:39:56 +0800

OpenAI 在 2026 年 4 月 23 日发布了 Introducing GPT-5.5。从官方页面看，这次更新的重点不是单纯“模型更聪明”，而是更强调模型能不能把复杂任务持续推进下去。

官方给 GPT-5.5 的定位，是一个更适合真实工作的模型。它不仅要回答问题，还要能写代码、调试、查资料、分析数据、生成文档和表格、操作软件，并在多个工具之间来回切换，直到任务完成。

1. GPT-5.5 主要强在哪里

这次发布页里反复出现的几个方向，可以概括为四类：

智能体编码
电脑操作与工具使用
知识工作
早期科研辅助

也就是说，GPT-5.5 的重点不是短问短答，而是更长链路的任务。比如一个工程问题不只是“这段代码怎么改”，而是要理解项目结构、定位失败原因、修改相关文件、补测试、验证结果，并尽量减少用户反复提示。

OpenAI 也特别强调，GPT-5.5 在 Codex 任务中更省 token。这个点很实际，因为编码智能体一旦开始读文件、跑命令、修 bug，token 消耗会非常快。如果模型能用更少的步骤完成同样任务，实际成本和等待时间都会下降。

2. 编码能力是这次最重要的展示方向

官方称 GPT-5.5 是目前最强的 agentic coding 模型。

几个公开指标里，比较值得注意的是：

Terminal-Bench 2.0：GPT-5.5 达到 82.7%
SWE-Bench Pro：GPT-5.5 达到 58.6%
OpenAI 内部的 Expert-SWE：GPT-5.5 也高于 GPT-5.4

这些测试的共同点是，它们更接近真实工程流程，而不是只考单个算法题。特别是 Terminal-Bench 这类任务，会涉及命令行操作、规划、试错、工具协调和多步骤验证。

对日常开发者来说，这里的意义很直接：模型是否能接住更大的任务，取决于它能不能长时间保持上下文、自己检查假设、知道什么时候该跑测试、知道改动会影响哪里。

GPT-5.5 在 Codex 里的价值，也主要体现在这些地方。它更像是可以接手一段工程任务的协作者，而不是只会补全代码片段的工具。

3. 知识工作开始变成重点场景

除了写代码，OpenAI 这次还把 GPT-5.5 放到了更广的办公场景里。

官方提到，GPT-5.5 在 Codex 中可以更好地生成文档、电子表格和演示文稿，也更适合处理运营研究、表格建模、业务材料整理这类任务。结合电脑操作能力之后，它的目标不是只给建议，而是能直接参与“找资料、理解内容、调用工具、检查输出、整理成结果”这一整条流程。

发布页里还提到 OpenAI 内部已经在多部门使用 Codex，包括软件工程、财务、传播、市场、数据科学和产品管理等。这里真正值得关注的不是某个单点案例，而是 OpenAI 正在把 Codex 从开发工具扩展为通用工作工具。

在 ChatGPT 里，GPT-5.5 Thinking 面向 Plus、Pro、Business 和 Enterprise 用户；GPT-5.5 Pro 则面向更难问题和更高准确率需求，提供给 Pro、Business 和 Enterprise 用户。

4. 科研能力不只是“答题更强”

GPT-5.5 的科研展示也很重。

官方提到它在遗传学、定量生物学、生物信息学、数学证明等方向都有改进。这里的重点不是模型能不能背出一个知识点，而是能不能处理更接近真实研究的问题：读数据、发现异常、提出分析方式、解释结果，并根据中间结果继续推进。

发布页里提到的 GeneBench 和 BixBench，都更偏多阶段科学分析任务。OpenAI 还提到，一个内部版本的 GPT-5.5 借助自定义工具链，帮助发现了关于 Ramsey numbers 的新证明，并用 Lean 做了验证。

这类案例还不能简单理解为“AI 已经能独立做科研”，但它说明模型正在从问答工具往研究协作者靠近。尤其是在代码、数据、论文、实验想法混在一起的场景里，GPT-5.5 的长链路推理和工具使用能力会更重要。

5. 推理效率：更强但没有明显变慢

一个容易被忽略的点是，OpenAI 说 GPT-5.5 在真实服务中的 per-token latency 与 GPT-5.4 相当。

通常更大的模型、更强的模型会带来更高延迟。OpenAI 这次强调，它们通过推理系统优化，让 GPT-5.5 在智能提升的同时保持速度。发布页里还提到，Codex 分析生产流量模式并编写负载分配相关启发式算法，使 token 生成速度提升超过 20%。

这个细节很有意思：模型不仅被基础设施服务，也反过来帮助改进服务它的基础设施。

6. 安全策略会更严格，尤其是网络安全方向

GPT-5.5 的网络安全能力更强，所以 OpenAI 同时加强了安全限制。

官方说明中提到，GPT-5.5 在网络安全能力上比 GPT-5.4 有提升，因此会部署更严格的分类器，尤其针对高风险活动、敏感网络安全请求和重复滥用行为。

这意味着一部分用户在使用网络安全相关能力时，可能会遇到更多拒答或限制。OpenAI 也提供了 Trusted Access for Cyber，用于让经过验证的防御性用户获得更少不必要阻碍。

对普通开发者来说，可以简单理解为：合法的安全加固、漏洞修复、代码审计会继续被支持，但高风险攻击链路会被更严格地控制。

7. 可用性与 API 价格

根据 OpenAI 发布页，GPT-5.5 的可用性如下：

ChatGPT：GPT-5.5 Thinking 面向 Plus、Pro、Business、Enterprise 用户
ChatGPT：GPT-5.5 Pro 面向 Pro、Business、Enterprise 用户
Codex：GPT-5.5 面向 Plus、Pro、Business、Enterprise、Edu、Go 计划
Codex：上下文窗口为 400K
Codex Fast mode：生成速度约 1.5x，成本为 2.5x

API 方面，OpenAI 表示 gpt-5.5 和 gpt-5.5-pro 会很快开放。

官方给出的 API 价格是：

gpt-5.5：输入 5 美元 / 1M tokens，输出 30 美元 / 1M tokens
gpt-5.5-pro：输入 30 美元 / 1M tokens，输出 180 美元 / 1M tokens
gpt-5.5 API 上下文窗口为 1M
Batch 和 Flex 为标准 API 价格的一半
Priority processing 为标准价格的 2.5x

这个价格明显高于很多日常模型，所以它更适合高价值任务：复杂工程改造、长文档分析、自动化办公、科研辅助、重要业务流程，而不是普通闲聊。

8. 怎么看这次发布

如果只看一句话，GPT-5.5 的重点是：OpenAI 正在把模型从“回答问题”继续推向“完成工作”。

它最值得关注的地方，不只是 benchmark 分数提升，而是几种能力开始汇合：

更强的长任务保持能力
更稳定的工具使用
更好的工程上下文理解
更适合文档、表格、研究和业务流程
更长上下文和更高 token 效率
更严格的高风险能力控制

对开发者来说，最值得试的是 Codex 里的复杂工程任务。对企业用户来说，更值得关注的是它能不能把一部分跨工具、跨文档、跨流程的工作变成可交付结果。

GPT-5.5 不是一次只面向聊天体验的小更新，而更像是 OpenAI 在继续推进“AI 作为工作执行层”的方向。

GPT-5.5 on KnightLi的博客