<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>Google AI on KnightLi的博客</title>
        <link>https://www.knightli.com/tags/google-ai/</link>
        <description>Recent content in Google AI on KnightLi的博客</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>zh-cn</language>
        <lastBuildDate>Fri, 15 May 2026 23:45:34 +0800</lastBuildDate><atom:link href="https://www.knightli.com/tags/google-ai/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>Gemini 3.5 Pro 提前曝光：谷歌想用 Spark Agent 抢回 AI 编程入口</title>
        <link>https://www.knightli.com/2026/05/15/gemini-35-pro-spark-agent-ai-coding-race/</link>
        <pubDate>Fri, 15 May 2026 23:45:34 +0800</pubDate>
        
        <guid>https://www.knightli.com/2026/05/15/gemini-35-pro-spark-agent-ai-coding-race/</guid>
        <description>&lt;p&gt;Gemini 3.5 Pro 还没正式发布，相关爆料已经开始升温。&lt;/p&gt;
&lt;p&gt;这轮信息里有几个关键词：Gemini 3.5 Pro、代号 Cappuccino、Gemini Spark、AI 编程、MCP 工具接入。它们指向同一个方向：谷歌不只是想更新一个聊天模型，而是想把模型、工具、Agent 和 Google 生态入口重新绑在一起。&lt;/p&gt;
&lt;p&gt;不过，在正式发布前，这些信息都应该按“爆料”看待。真正值得关注的不是某一张截图或某一个跑分，而是谷歌接下来可能要补的几块短板。&lt;/p&gt;
&lt;h2 id=&#34;gemini-35-pro-为什么值得关注&#34;&gt;Gemini 3.5 Pro 为什么值得关注
&lt;/h2&gt;&lt;p&gt;从曝光信息看，Gemini 3.5 Pro 可能是一次跳级命名。&lt;/p&gt;
&lt;p&gt;此前外界还在讨论 Gemini 3.2，随后又出现 Gemini 3.5 Pro 的说法。如果命名属实，说明谷歌想在新一轮发布里讲一个更大的版本故事，而不是只做常规小更新。&lt;/p&gt;
&lt;p&gt;目前流出的重点主要集中在三方面：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;编程和推理能力继续提升；&lt;/li&gt;
&lt;li&gt;SVG、交互式页面、动画和 3D 生成能力增强；&lt;/li&gt;
&lt;li&gt;新的 Agent 产品 Gemini Spark 可能进入前台。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这些方向并不意外。Gemini 系列一直强调多模态，谷歌也有足够强的分发渠道。真正的问题是，它能不能在开发者工具和 Agent 工作流上赶上 OpenAI、Anthropic 的节奏。&lt;/p&gt;
&lt;h2 id=&#34;编程能力是谷歌最需要补的课&#34;&gt;编程能力是谷歌最需要补的课
&lt;/h2&gt;&lt;p&gt;大模型竞争进入 2026 年后，编程已经不只是“模型能力测试项”，而是最直接的产品入口。&lt;/p&gt;
&lt;p&gt;原因很简单：AI 编程工具有高频使用场景，也能产生大量可反馈的数据。开发者每天让模型读代码、改代码、跑测试、修 bug，这些交互天然会推动下一代模型和工具链继续进化。&lt;/p&gt;
&lt;p&gt;过去一年，Claude Code 在开发者群体里声量很高，OpenAI 也持续强化 Codex 与 ChatGPT 的协同。相比之下，谷歌虽然有 Antigravity 等产品，但外部存在感并不算强。&lt;/p&gt;
&lt;p&gt;这也是 Gemini 3.5 Pro 被重点观察的原因。如果它只是聊天更强、回答更快，意义有限；如果它能真正改善代码理解、跨文件修改、工具调用和长任务执行，才可能改变开发者工作流。&lt;/p&gt;
&lt;h2 id=&#34;gemini-spark-可能是更大的变量&#34;&gt;Gemini Spark 可能是更大的变量
&lt;/h2&gt;&lt;p&gt;比模型本身更激进的，是传闻中的 Gemini Spark。&lt;/p&gt;
&lt;p&gt;按照曝光描述，Spark 的定位不是普通聊天助手，而是全天候运行的 AI Agent。它可能接入邮件、日程、网页、任务、账号状态和个人上下文，帮助用户处理多步骤工作流。&lt;/p&gt;
&lt;p&gt;这类产品的想象空间很大。比如：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;自动整理收件箱；&lt;/li&gt;
&lt;li&gt;帮用户跟进任务；&lt;/li&gt;
&lt;li&gt;在网页上执行操作；&lt;/li&gt;
&lt;li&gt;处理跨应用流程；&lt;/li&gt;
&lt;li&gt;根据个人偏好安排日常事务。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;但风险也同样明显。一个全天候 Agent 如果能访问登录状态、浏览器数据、文件、位置和第三方服务，就必须回答几个问题：什么时候需要用户确认？哪些操作必须禁止自动执行？数据会不会被共享给第三方？远程浏览器和凭证如何隔离？&lt;/p&gt;
&lt;p&gt;所以 Spark 真正的看点，不只是“能不能帮你干活”，而是谷歌能否把权限、审计、确认机制和用户控制做得足够清楚。&lt;/p&gt;
&lt;h2 id=&#34;mcp-工具接入说明什么&#34;&gt;MCP 工具接入说明什么
&lt;/h2&gt;&lt;p&gt;爆料里还提到，新的 Gemini 选择器可能出现 MCP 相关模型或测试入口。&lt;/p&gt;
&lt;p&gt;如果这部分最终落地，说明谷歌也在把模型从“问答系统”推向“工具操作系统”。模型不再只是生成文本，而是要能调用外部工具、访问业务系统、读写文件、执行命令，并在多个步骤之间保持任务状态。&lt;/p&gt;
&lt;p&gt;这和 OpenAI、Anthropic 的方向是一致的。谁能让模型更稳定地调用工具，谁就更容易把 AI 嵌进真实工作流。&lt;/p&gt;
&lt;p&gt;不过，MCP 接入本身不是终点。真正难的是稳定性：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;模型能否正确选择工具；&lt;/li&gt;
&lt;li&gt;参数是否可靠；&lt;/li&gt;
&lt;li&gt;失败后能不能恢复；&lt;/li&gt;
&lt;li&gt;权限边界是否明确；&lt;/li&gt;
&lt;li&gt;用户能不能追踪每一步操作。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;如果这些问题没解决，工具越多，出错面也越大。&lt;/p&gt;
&lt;h2 id=&#34;多模态仍然是谷歌的优势牌&#34;&gt;多模态仍然是谷歌的优势牌
&lt;/h2&gt;&lt;p&gt;谷歌最有机会打出差异化的地方，仍然是多模态。&lt;/p&gt;
&lt;p&gt;从曝光的 SVG、交互式页面、动画和视觉生成案例看，Gemini 可能继续强化“从提示词生成可交互内容”的能力。相比单纯写一段代码，这更接近产品原型生成：用户描述一个想法，模型直接给出可操作、可调节、可预览的界面。&lt;/p&gt;
&lt;p&gt;这条路线很适合谷歌。它既能承接 Gemini 的多模态能力，也能和 Android、Chrome、Workspace、搜索、广告、云服务等入口结合。&lt;/p&gt;
&lt;p&gt;如果谷歌想避免只在“谁的代码模型更强”上硬拼，它很可能会把重点放到更完整的多模态 Agent 系统上。&lt;/p&gt;
&lt;h2 id=&#34;三家公司的打法正在分化&#34;&gt;三家公司的打法正在分化
&lt;/h2&gt;&lt;p&gt;现在的大模型竞争已经不是单一模型排行榜竞争。&lt;/p&gt;
&lt;p&gt;OpenAI 的优势在产品迭代和分发节奏，Codex、ChatGPT、企业工具和 API 之间的联动越来越紧。&lt;/p&gt;
&lt;p&gt;Anthropic 的优势在开发者心智和代码模型质量，Claude Code 已经成了很多人默认的 AI 编程入口。&lt;/p&gt;
&lt;p&gt;谷歌的优势则是生态入口。Gmail、Docs、Chrome、Android、搜索、YouTube、地图和云服务构成了一个巨大的个人与企业数据网络。只要 Agent 能安全接入这些入口，谷歌就有机会从“模型追赶者”变成“工作流入口控制者”。&lt;/p&gt;
&lt;p&gt;这也是 Gemini Spark 值得关注的原因。它不一定需要在所有基准测试上第一，但只要能进入日常工作流，就可能形成自己的护城河。&lt;/p&gt;
&lt;h2 id=&#34;普通用户该怎么看&#34;&gt;普通用户该怎么看
&lt;/h2&gt;&lt;p&gt;对普通用户来说，短期不必被每一次爆料牵着走。&lt;/p&gt;
&lt;p&gt;更实用的观察点有三个：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;Gemini 3.5 Pro 的编程能力是否真的改善，尤其是复杂仓库、长上下文和工具调用。&lt;/li&gt;
&lt;li&gt;Gemini Spark 是否默认安全，敏感操作前是否有明确确认和可追踪记录。&lt;/li&gt;
&lt;li&gt;谷歌是否给出清晰价格、额度和企业权限管理，而不是只展示演示效果。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;如果只是生成几张漂亮截图，价值有限。能不能稳定接入真实工作流，才是这一轮 AI Agent 产品的分水岭。&lt;/p&gt;
&lt;h2 id=&#34;对开发者意味着什么&#34;&gt;对开发者意味着什么
&lt;/h2&gt;&lt;p&gt;开发者最应该关注的不是“哪个模型赢了”，而是自己的工作流是否可迁移。&lt;/p&gt;
&lt;p&gt;现在 Claude Code、Codex、Gemini、Antigravity、Cursor、Windsurf 等工具都在抢入口。如果把所有流程都绑死在某一个平台上，未来成本、额度、模型策略或权限规则一变，迁移会很痛。&lt;/p&gt;
&lt;p&gt;更稳妥的做法是：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;重要项目保留标准 Git 工作流；&lt;/li&gt;
&lt;li&gt;自动修改后必须看 diff；&lt;/li&gt;
&lt;li&gt;关键任务用测试和 CI 兜底；&lt;/li&gt;
&lt;li&gt;不把生产凭证交给不透明 Agent；&lt;/li&gt;
&lt;li&gt;能用开放协议接工具时，优先选择可替换方案。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;模型会继续变强，但工程纪律不会过时。&lt;/p&gt;
&lt;h2 id=&#34;小结&#34;&gt;小结
&lt;/h2&gt;&lt;p&gt;Gemini 3.5 Pro 的爆料说明，谷歌正在加速补齐 AI 编程和 Agent 入口。模型能力提升是一部分，Gemini Spark 这类全天候 Agent 可能才是更大的战略动作。&lt;/p&gt;
&lt;p&gt;但越是能帮用户“自动干活”的系统，越需要严格的权限边界和可验证流程。对谷歌来说，真正的挑战不只是追上 GPT-5.5 或 Claude，而是把强模型、安全机制和生态入口组合成一个可信的日常工作流。&lt;/p&gt;
&lt;p&gt;如果这一步做成，Gemini 不一定要在每个榜单上第一，也可能重新拿回一部分 AI 入口主动权。&lt;/p&gt;
</description>
        </item>
        
    </channel>
</rss>
