Gemini 3.5 Pro 提前曝光：谷歌想用 Spark Agent 抢回 AI 编程入口

Fri, 15 May 2026 23:45:34 +0800

Gemini 3.5 Pro 还没正式发布，相关爆料已经开始升温。

这轮信息里有几个关键词：Gemini 3.5 Pro、代号 Cappuccino、Gemini Spark、AI 编程、MCP 工具接入。它们指向同一个方向：谷歌不只是想更新一个聊天模型，而是想把模型、工具、Agent 和 Google 生态入口重新绑在一起。

不过，在正式发布前，这些信息都应该按“爆料”看待。真正值得关注的不是某一张截图或某一个跑分，而是谷歌接下来可能要补的几块短板。

Gemini 3.5 Pro 为什么值得关注

从曝光信息看，Gemini 3.5 Pro 可能是一次跳级命名。

此前外界还在讨论 Gemini 3.2，随后又出现 Gemini 3.5 Pro 的说法。如果命名属实，说明谷歌想在新一轮发布里讲一个更大的版本故事，而不是只做常规小更新。

目前流出的重点主要集中在三方面：

编程和推理能力继续提升；
SVG、交互式页面、动画和 3D 生成能力增强；
新的 Agent 产品 Gemini Spark 可能进入前台。

这些方向并不意外。Gemini 系列一直强调多模态，谷歌也有足够强的分发渠道。真正的问题是，它能不能在开发者工具和 Agent 工作流上赶上 OpenAI、Anthropic 的节奏。

编程能力是谷歌最需要补的课

大模型竞争进入 2026 年后，编程已经不只是“模型能力测试项”，而是最直接的产品入口。

原因很简单：AI 编程工具有高频使用场景，也能产生大量可反馈的数据。开发者每天让模型读代码、改代码、跑测试、修 bug，这些交互天然会推动下一代模型和工具链继续进化。

过去一年，Claude Code 在开发者群体里声量很高，OpenAI 也持续强化 Codex 与 ChatGPT 的协同。相比之下，谷歌虽然有 Antigravity 等产品，但外部存在感并不算强。

这也是 Gemini 3.5 Pro 被重点观察的原因。如果它只是聊天更强、回答更快，意义有限；如果它能真正改善代码理解、跨文件修改、工具调用和长任务执行，才可能改变开发者工作流。

Gemini Spark 可能是更大的变量

比模型本身更激进的，是传闻中的 Gemini Spark。

按照曝光描述，Spark 的定位不是普通聊天助手，而是全天候运行的 AI Agent。它可能接入邮件、日程、网页、任务、账号状态和个人上下文，帮助用户处理多步骤工作流。

这类产品的想象空间很大。比如：

自动整理收件箱；
帮用户跟进任务；
在网页上执行操作；
处理跨应用流程；
根据个人偏好安排日常事务。

但风险也同样明显。一个全天候 Agent 如果能访问登录状态、浏览器数据、文件、位置和第三方服务，就必须回答几个问题：什么时候需要用户确认？哪些操作必须禁止自动执行？数据会不会被共享给第三方？远程浏览器和凭证如何隔离？

所以 Spark 真正的看点，不只是“能不能帮你干活”，而是谷歌能否把权限、审计、确认机制和用户控制做得足够清楚。

MCP 工具接入说明什么

爆料里还提到，新的 Gemini 选择器可能出现 MCP 相关模型或测试入口。

如果这部分最终落地，说明谷歌也在把模型从“问答系统”推向“工具操作系统”。模型不再只是生成文本，而是要能调用外部工具、访问业务系统、读写文件、执行命令，并在多个步骤之间保持任务状态。

这和 OpenAI、Anthropic 的方向是一致的。谁能让模型更稳定地调用工具，谁就更容易把 AI 嵌进真实工作流。

不过，MCP 接入本身不是终点。真正难的是稳定性：

模型能否正确选择工具；
参数是否可靠；
失败后能不能恢复；
权限边界是否明确；
用户能不能追踪每一步操作。

如果这些问题没解决，工具越多，出错面也越大。

多模态仍然是谷歌的优势牌

谷歌最有机会打出差异化的地方，仍然是多模态。

从曝光的 SVG、交互式页面、动画和视觉生成案例看，Gemini 可能继续强化“从提示词生成可交互内容”的能力。相比单纯写一段代码，这更接近产品原型生成：用户描述一个想法，模型直接给出可操作、可调节、可预览的界面。

这条路线很适合谷歌。它既能承接 Gemini 的多模态能力，也能和 Android、Chrome、Workspace、搜索、广告、云服务等入口结合。

如果谷歌想避免只在“谁的代码模型更强”上硬拼，它很可能会把重点放到更完整的多模态 Agent 系统上。

三家公司的打法正在分化

现在的大模型竞争已经不是单一模型排行榜竞争。

OpenAI 的优势在产品迭代和分发节奏，Codex、ChatGPT、企业工具和 API 之间的联动越来越紧。

Anthropic 的优势在开发者心智和代码模型质量，Claude Code 已经成了很多人默认的 AI 编程入口。

谷歌的优势则是生态入口。Gmail、Docs、Chrome、Android、搜索、YouTube、地图和云服务构成了一个巨大的个人与企业数据网络。只要 Agent 能安全接入这些入口，谷歌就有机会从“模型追赶者”变成“工作流入口控制者”。

这也是 Gemini Spark 值得关注的原因。它不一定需要在所有基准测试上第一，但只要能进入日常工作流，就可能形成自己的护城河。

普通用户该怎么看

对普通用户来说，短期不必被每一次爆料牵着走。

更实用的观察点有三个：

Gemini 3.5 Pro 的编程能力是否真的改善，尤其是复杂仓库、长上下文和工具调用。
Gemini Spark 是否默认安全，敏感操作前是否有明确确认和可追踪记录。
谷歌是否给出清晰价格、额度和企业权限管理，而不是只展示演示效果。

如果只是生成几张漂亮截图，价值有限。能不能稳定接入真实工作流，才是这一轮 AI Agent 产品的分水岭。

对开发者意味着什么

开发者最应该关注的不是“哪个模型赢了”，而是自己的工作流是否可迁移。

现在 Claude Code、Codex、Gemini、Antigravity、Cursor、Windsurf 等工具都在抢入口。如果把所有流程都绑死在某一个平台上，未来成本、额度、模型策略或权限规则一变，迁移会很痛。

更稳妥的做法是：

重要项目保留标准 Git 工作流；
自动修改后必须看 diff；
关键任务用测试和 CI 兜底；
不把生产凭证交给不透明 Agent；
能用开放协议接工具时，优先选择可替换方案。

模型会继续变强，但工程纪律不会过时。

小结

Gemini 3.5 Pro 的爆料说明，谷歌正在加速补齐 AI 编程和 Agent 入口。模型能力提升是一部分，Gemini Spark 这类全天候 Agent 可能才是更大的战略动作。

但越是能帮用户“自动干活”的系统，越需要严格的权限边界和可验证流程。对谷歌来说，真正的挑战不只是追上 GPT-5.5 或 Claude，而是把强模型、安全机制和生态入口组合成一个可信的日常工作流。

如果这一步做成，Gemini 不一定要在每个榜单上第一，也可能重新拿回一部分 AI 入口主动权。

Google AI on KnightLi的博客