<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>Function Calling on KnightLi的博客</title>
        <link>https://www.knightli.com/tags/function-calling/</link>
        <description>Recent content in Function Calling on KnightLi的博客</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>zh-cn</language>
        <lastBuildDate>Sat, 16 May 2026 19:19:52 +0800</lastBuildDate><atom:link href="https://www.knightli.com/tags/function-calling/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>AI Agent 到底怎么进化的？2022-2026 五代演进完整梳理</title>
        <link>https://www.knightli.com/2026/05/16/ai-agent-evolution-2022-2026/</link>
        <pubDate>Sat, 16 May 2026 19:19:52 +0800</pubDate>
        
        <guid>https://www.knightli.com/2026/05/16/ai-agent-evolution-2022-2026/</guid>
        <description>&lt;p&gt;AI Agent 的发展不是一夜之间发生的。&lt;/p&gt;
&lt;p&gt;2022 年底，ChatGPT 还只是一个会聊天的窗口。到 2026 年，Agent 已经开始具备工具调用、文件操作、电脑控制、长期记忆、远程协作和常驻执行能力。四年时间里，它从“回答问题的模型”逐步变成“能推进任务的数字工作者”。&lt;/p&gt;
&lt;p&gt;如果按时间线看，AI Agent 大致经历了五代演进。每一代都解决了上一代的核心缺陷，也制造了新的泡沫和新的安全问题。&lt;/p&gt;
&lt;h2 id=&#34;总览五代-agent-时间线&#34;&gt;总览：五代 Agent 时间线
&lt;/h2&gt;&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;阶段&lt;/th&gt;
          &lt;th&gt;时间&lt;/th&gt;
          &lt;th&gt;关键词&lt;/th&gt;
          &lt;th&gt;能力变化&lt;/th&gt;
          &lt;th&gt;核心问题&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;第零代&lt;/td&gt;
          &lt;td&gt;2022 年末 - 2023 年初&lt;/td&gt;
          &lt;td&gt;对话框&lt;/td&gt;
          &lt;td&gt;会生成文本，但不能行动&lt;/td&gt;
          &lt;td&gt;模型和现实世界断裂&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;第一代&lt;/td&gt;
          &lt;td&gt;2023 年中 - 2023 年末&lt;/td&gt;
          &lt;td&gt;工具调用&lt;/td&gt;
          &lt;td&gt;能输出结构化调用，接入 API 和 RAG&lt;/td&gt;
          &lt;td&gt;开环循环、任务迷路&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;第二代&lt;/td&gt;
          &lt;td&gt;2023 年末 - 2024 年&lt;/td&gt;
          &lt;td&gt;工程化工作流&lt;/td&gt;
          &lt;td&gt;有规划、状态、反思和多 Agent 协作&lt;/td&gt;
          &lt;td&gt;工作流易复制，低代码泡沫&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;第三代&lt;/td&gt;
          &lt;td&gt;2024 年 - 2025 年&lt;/td&gt;
          &lt;td&gt;Computer Use&lt;/td&gt;
          &lt;td&gt;能看屏幕、点鼠标、操作 GUI&lt;/td&gt;
          &lt;td&gt;权限、安全和误操作风险&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;第四代&lt;/td&gt;
          &lt;td&gt;2025 年 - 2026 年&lt;/td&gt;
          &lt;td&gt;MCP / Skills / 常驻&lt;/td&gt;
          &lt;td&gt;有工具网络、长期上下文和专业技能&lt;/td&gt;
          &lt;td&gt;常驻执行扩大风险半径&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;第五代前瞻&lt;/td&gt;
          &lt;td&gt;2026 年之后&lt;/td&gt;
          &lt;td&gt;闭环与世界模型&lt;/td&gt;
          &lt;td&gt;可能拥有更强记忆、验证和物理行动能力&lt;/td&gt;
          &lt;td&gt;治理难度继续上升&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;下面按时间线展开。&lt;/p&gt;
&lt;h2 id=&#34;2022-年末第零代chatgpt-对话框时代&#34;&gt;2022 年末：第零代，ChatGPT 对话框时代
&lt;/h2&gt;&lt;p&gt;第零代的起点，是 2022 年 11 月 30 日 ChatGPT 发布。&lt;/p&gt;
&lt;p&gt;这一代 AI 还不能算真正的 Agent。它有很强的语言生成能力，但主要被困在对话框里。它可以写一段 Python 代码，却不能在你的电脑上运行；可以规划旅行，却不能打开网站订票；可以告诉你文件应该怎么改，却不能进入文件系统执行修改。&lt;/p&gt;
&lt;p&gt;这一代的能力边界很清楚：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;能理解自然语言；&lt;/li&gt;
&lt;li&gt;能生成文章、问答、代码和方案；&lt;/li&gt;
&lt;li&gt;不能主动访问最新数据；&lt;/li&gt;
&lt;li&gt;不能稳定读取企业内部资料；&lt;/li&gt;
&lt;li&gt;不能执行外部动作；&lt;/li&gt;
&lt;li&gt;不能管理长期任务状态。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;所以第零代最核心的问题是：模型能力和现实世界之间断裂。它能想、能说，但不能行动。&lt;/p&gt;
&lt;p&gt;这一阶段也出现了第一波泡沫：提示词工程师、提示词模板市场、提示词课程和提示词认证。早期模型确实对 prompt 很敏感，但市场把一个临时补丁误解成了长期护城河。&lt;/p&gt;
&lt;p&gt;后来 GPT-4 级别模型、系统提示、函数调用和产品默认引导逐渐成熟，大量提示词模板失去稀缺性。这个现象后来反复出现：新能力出现时，中间层爆发；下一代系统把能力内化后，中间层蒸发。&lt;/p&gt;
&lt;h2 id=&#34;2023-年中第一代工具调用觉醒&#34;&gt;2023 年中：第一代，工具调用觉醒
&lt;/h2&gt;&lt;p&gt;第一代 Agent 的关键词是工具调用。&lt;/p&gt;
&lt;p&gt;2023 年 6 月，OpenAI 发布 &lt;code&gt;function calling&lt;/code&gt;。它允许开发者向模型描述函数名、用途、参数类型和 &lt;code&gt;JSON Schema&lt;/code&gt;。模型理解用户请求后，可以不再输出普通自然语言，而是输出一个结构化 JSON 调用，再由外部系统执行。&lt;/p&gt;
&lt;p&gt;这一步的架构意义很大：模型开始从“只会说话的大脑”，变成可以驱动外部工具的大脑。&lt;/p&gt;
&lt;p&gt;第一代的关键能力包括：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;根据用户意图选择工具；&lt;/li&gt;
&lt;li&gt;输出结构化参数；&lt;/li&gt;
&lt;li&gt;调用外部 API；&lt;/li&gt;
&lt;li&gt;把 API 结果带回模型继续推理；&lt;/li&gt;
&lt;li&gt;通过 RAG 接入外部知识；&lt;/li&gt;
&lt;li&gt;通过插件和知识库形成早期 persona。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;同一时期，&lt;code&gt;RAG&lt;/code&gt; 和向量数据库流行起来。它们解决的是模型不知道最新信息、企业私有资料和内部知识的问题。系统先检索相关文档片段，再把材料放进上下文，让模型基于这些材料回答。&lt;/p&gt;
&lt;p&gt;于是第一代 Agent 的基本结构出现了：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;你是谁：系统提示和 persona；&lt;/li&gt;
&lt;li&gt;你知道什么：知识库、RAG、私有文档；&lt;/li&gt;
&lt;li&gt;你能做什么：函数调用、插件、外部 API。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这一代最典型的泡沫是 AutoGPT。它展示了一个很诱人的想法：用户只给一个宏大目标，AI 自己拆解任务、搜索、写文件、评估、循环，直到它认为完成。&lt;/p&gt;
&lt;p&gt;但 AutoGPT 很快暴露问题。它缺少状态约束、终止条件和可靠反馈，经常陷入错误方向，反复调用错误参数，或者烧掉大量 API 请求。第一代的教训很直接：工具加死循环，不等于生产级 Agent。&lt;/p&gt;
&lt;h2 id=&#34;2023-年末到-2024-年第二代工程化工作流&#34;&gt;2023 年末到 2024 年：第二代，工程化工作流
&lt;/h2&gt;&lt;p&gt;AutoGPT 的失败让行业意识到，不能只靠模型自由发挥。复杂任务需要结构化流程。&lt;/p&gt;
&lt;p&gt;第二代 Agent 的关键词是工程化工作流。Agent 不再只是一次模型调用，而是一个有状态、有控制流、有评估机制的软件系统。&lt;/p&gt;
&lt;p&gt;这一代的关键能力包括：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;任务规划：把大目标拆成步骤；&lt;/li&gt;
&lt;li&gt;状态管理：记录任务进行到哪里；&lt;/li&gt;
&lt;li&gt;反思修正：生成后自评，再修改；&lt;/li&gt;
&lt;li&gt;工具编排：在不同工具之间切换；&lt;/li&gt;
&lt;li&gt;人机协作：在关键节点让人确认；&lt;/li&gt;
&lt;li&gt;多 Agent 协作：让不同角色分工。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;典型范式是 &lt;code&gt;ReAct&lt;/code&gt;，也就是 &lt;code&gt;Reasoning + Acting&lt;/code&gt;。模型先推理，再调用工具，再根据观察结果进入下一轮推理。这样 Agent 不再盲目行动，而是每一步都有可审计的逻辑和反馈。&lt;/p&gt;
&lt;p&gt;这一阶段也形成了 &lt;code&gt;agentic workflow&lt;/code&gt; 的几种常见模式：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;反思：先生成，再评审，再修改；&lt;/li&gt;
&lt;li&gt;工具调用：按任务选择搜索、数据库、代码执行、企业 API；&lt;/li&gt;
&lt;li&gt;规划：拆解目标，跟踪状态；&lt;/li&gt;
&lt;li&gt;多 Agent 协作：产品、开发、测试、评审分工。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;第二代的价值，是把模型能力放进可控流程里。一个设计好的 workflow，有时能让较小模型完成比单次大模型调用更稳定的结果。&lt;/p&gt;
&lt;p&gt;但这一代也带来低代码 Agent 平台泡沫。很多平台用拖拽方式组合 prompt、RAG、插件和流程，确实降低了搭建门槛。但如果一个流程可以被低成本复制，平台本身就很难形成护城河。&lt;/p&gt;
&lt;p&gt;低代码工具能吃到早期红利，但红利不等于壁垒。&lt;/p&gt;
&lt;h2 id=&#34;2024-到-2025-年第三代computer-use-进入真实界面&#34;&gt;2024 到 2025 年：第三代，Computer Use 进入真实界面
&lt;/h2&gt;&lt;p&gt;第三代 Agent 的关键词是 &lt;code&gt;Computer Use&lt;/code&gt;。&lt;/p&gt;
&lt;p&gt;此前的工具调用主要依赖 API，能做什么取决于开发者提前接好什么接口。但现实世界里，大量软件没有理想 API，或者 API 不开放、不完整、不统一。&lt;/p&gt;
&lt;p&gt;Computer Use 类能力让模型开始看屏幕、点鼠标、操作 GUI。它把通用电脑界面本身变成工具。&lt;/p&gt;
&lt;p&gt;第三代的关键能力包括：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;识别屏幕内容；&lt;/li&gt;
&lt;li&gt;点击按钮、输入文本、切换窗口；&lt;/li&gt;
&lt;li&gt;操作网页和桌面软件；&lt;/li&gt;
&lt;li&gt;读仓库、改文件、跑测试；&lt;/li&gt;
&lt;li&gt;查看终端输出和错误信息；&lt;/li&gt;
&lt;li&gt;更接近真实工程助手。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这一步把 Agent 从“调用已接好的工具”，推进到“像人一样操作软件界面”。它也让 coding agent 更接近真实工作流：读项目、改代码、运行测试、根据报错继续修。&lt;/p&gt;
&lt;p&gt;但信任边界也扩大了。AI 操作电脑，意味着它可能误点、误删、误提交，也可能被网页、文档或界面文字诱导。提示注入不再只是聊天问题，而可能变成文件操作、权限和系统安全问题。&lt;/p&gt;
&lt;p&gt;Vibe coding 的争议也集中在这一阶段。让 AI 快速生成项目很爽，但如果缺少测试、评估、权限控制和部署边界，就容易从快速原型变成快速事故。&lt;/p&gt;
&lt;p&gt;第三代的核心教训是：越接近真实操作，越需要沙箱、审批、回滚和最小权限。&lt;/p&gt;
&lt;h2 id=&#34;2025-到-2026-年第四代mcpskills-和常驻数字员工&#34;&gt;2025 到 2026 年：第四代，MCP、Skills 和常驻数字员工
&lt;/h2&gt;&lt;p&gt;第四代 Agent 的关键词是常驻、连接、记忆和专业化。&lt;/p&gt;
&lt;p&gt;这一代的重点不只是单次任务更强，而是 Agent 开始拥有长期上下文、工具网络、专业技能和时间感。它不再只是一次聊天里的助手，而更像一个能持续工作的数字员工。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;MCP&lt;/code&gt; 解决的是工具连接问题。它让 Agent 用标准方式连接文件系统、数据库、浏览器、设计工具、项目管理工具和企业系统。协议一旦稳定，很多只做“工具连接中间层”的项目就会被压缩。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;Skills&lt;/code&gt; 解决的是专业方法问题。工具告诉 Agent 能做什么，技能告诉 Agent 应该怎么做。一个好的 skill 不只是 prompt，而是把领域流程、约束、检查方式、常见坑和工具调用顺序封装起来。&lt;/p&gt;
&lt;p&gt;第四代的关键能力包括：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;长期记忆：保存用户偏好、项目规则和历史任务；&lt;/li&gt;
&lt;li&gt;项目上下文：让 Agent 理解代码库、文档和工作规范；&lt;/li&gt;
&lt;li&gt;工具网络：通过 MCP、API、浏览器和文件系统连接外部世界；&lt;/li&gt;
&lt;li&gt;专业技能：用 Skills 封装任务方法；&lt;/li&gt;
&lt;li&gt;常驻执行：可以等待、唤醒、提醒和继续跟进；&lt;/li&gt;
&lt;li&gt;远程协作：用户可以从不同设备回来审批和调整。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这一代 Agent 开始有“员工感”：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;有身份和职责边界；&lt;/li&gt;
&lt;li&gt;有长期上下文；&lt;/li&gt;
&lt;li&gt;有专业工作方法；&lt;/li&gt;
&lt;li&gt;有时间感；&lt;/li&gt;
&lt;li&gt;有工具权限；&lt;/li&gt;
&lt;li&gt;能在无人盯着时继续推进任务。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;但能力越像员工，风险半径也越像员工。长期运行、读取本地数据、持有密钥、调用工具、处理任务，都让安全问题从边缘变成中心。&lt;/p&gt;
&lt;p&gt;尤其要注意一点：文本也是攻击面。如果 Agent 会读取并遵循 Markdown、说明文档、技能包、网页内容，那么恶意文本就可能改变它的行为。提示注入不再只是聊天问题，而是供应链问题、权限问题和执行安全问题。&lt;/p&gt;
&lt;p&gt;第四代的核心教训是：常驻 Agent 不只需要能力，还需要治理。&lt;/p&gt;
&lt;h2 id=&#34;2026-之后第五代前瞻闭环内在记忆和世界模型&#34;&gt;2026 之后：第五代前瞻，闭环、内在记忆和世界模型
&lt;/h2&gt;&lt;p&gt;第五代还不是确定历史，更像是沿着前面四年的演进逻辑继续外推。&lt;/p&gt;
&lt;p&gt;第一个方向是更完整的闭环。&lt;/p&gt;
&lt;p&gt;成熟 Agent 至少需要三层闭环：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;执行闭环：每一步操作后验证结果，不符合预期就回滚、修正、重试；&lt;/li&gt;
&lt;li&gt;时间闭环：跨多个唤醒周期追踪长期目标，而不是做完一次动作就结束；&lt;/li&gt;
&lt;li&gt;认知闭环：知道哪些信息确定，哪些只是猜测，哪些已经过期。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;第二个方向是内在记忆。&lt;/p&gt;
&lt;p&gt;过去的记忆大多在模型外部：RAG、向量库、会话记录、本地文件、&lt;code&gt;memory.md&lt;/code&gt;。如果未来模型架构本身支持跨会话持久状态，Agent 的记忆系统会被重构。&lt;/p&gt;
&lt;p&gt;第三个方向是世界模型。&lt;/p&gt;
&lt;p&gt;今天很多 Agent 仍是反应式的：观察、响应、再观察。真正高风险任务需要模型能预演行动后果。比如改数据库脚本前，要先想到数据丢失、回滚失败、兼容性问题，而不是先造成事故再学习。&lt;/p&gt;
&lt;p&gt;第四个方向是具身化。&lt;/p&gt;
&lt;p&gt;前几代主要发生在数字空间：API、屏幕、文件、浏览器、企业工具。下一步可能是把 Agent 的行动能力延伸到物理世界，例如机器人、设备控制、工业系统和标准化物理接口。&lt;/p&gt;
&lt;p&gt;第五代真正要解决的问题，是如何让 Agent 不只会执行任务，还能理解行动后果、管理长期状态，并在更大风险半径内保持可靠。&lt;/p&gt;
&lt;h2 id=&#34;这条时间线背后的六条规律&#34;&gt;这条时间线背后的六条规律
&lt;/h2&gt;&lt;p&gt;第一，基座模型能力仍然是天花板。Agent 不是大模型之外的魔法，而是大模型能力通过工程系统释放出来的方式。&lt;/p&gt;
&lt;p&gt;第二，工程化架构会放大模型能力。规划、验证、反思、修正、评估和权限控制，比单次生成更接近可交付结果。&lt;/p&gt;
&lt;p&gt;第三，开放协议会重塑价值分配。MCP、Skills、项目上下文规范一旦稳定，竞争焦点会从“谁先接了工具”转向“谁沉淀了真实领域能力”。&lt;/p&gt;
&lt;p&gt;第四，Agent 演化的隐含主线是人机信任边界扩展。从信任文本，到信任 API 调用，到信任复杂工作流，到信任电脑操作，再到信任常驻执行，每一代都把风险半径往外推。&lt;/p&gt;
&lt;p&gt;第五，每一代事故都会变成下一代铁律。AutoGPT 的无限循环推动结构化编排，vibe coding 的失控推动评估驱动开发，误删生产环境推动最小权限和沙箱，技能投毒推动供应链安全。&lt;/p&gt;
&lt;p&gt;第六，Agent 生态会反复经历爆发和灭绝。能力升级会创造临时中间层，模型或平台内化后又会消灭这些中间层。把时间窗口误判成护城河，是 AI 创业里很危险的错觉。&lt;/p&gt;
&lt;h2 id=&#34;真正的护城河&#34;&gt;真正的护城河
&lt;/h2&gt;&lt;p&gt;AI Agent 领域真正的护城河，不是抢先包装某个新能力。&lt;/p&gt;
&lt;p&gt;更可靠的护城河大概有三类。&lt;/p&gt;
&lt;p&gt;第一，垂直领域深度。你是否真的理解一个行业的流程、风险、异常和责任边界。通用模型可以学概念，但不一定能替代长期打磨出来的领域执行经验。&lt;/p&gt;
&lt;p&gt;第二，数据飞轮。你是否能从真实使用中积累高质量反馈，不断改进流程、评估、微调和产品判断。&lt;/p&gt;
&lt;p&gt;第三，用户信任。用户是否愿意把更高价值、更长期、更有风险的任务交给你，而不是只把你当成一次性工具。&lt;/p&gt;
&lt;p&gt;当某项能力被平台或基座模型吞噬之后，仍然能沉淀流程、反馈、责任边界和信任的产品，才更可能留下来。除此之外，很多项目只是阶段性泡沫。&lt;/p&gt;
&lt;h2 id=&#34;最后&#34;&gt;最后
&lt;/h2&gt;&lt;p&gt;从 2022 年到 2026 年，AI Agent 的演进不是“模型越来越会聊天”，而是“人类愿意交给 AI 的事情越来越多”。&lt;/p&gt;
&lt;p&gt;真正成熟的 Agent，不是最敢自动执行的系统，而是知道何时执行、何时验证、何时暂停、何时请人确认的系统。&lt;/p&gt;
&lt;p&gt;如果要判断一个 Agent 产品是否有长期价值，可以问一个问题：当这个能力被下一代模型或平台内置后，它还剩下什么？&lt;/p&gt;
&lt;p&gt;答案如果是领域流程、真实数据、可验证结果和用户信任，那才可能是长期价值。&lt;/p&gt;
</description>
        </item>
        
    </channel>
</rss>
