<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>Function Calling on KnightLi的博客</title>
        <link>https://www.knightli.com/zh-tw/tags/function-calling/</link>
        <description>Recent content in Function Calling on KnightLi的博客</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>zh-tw</language>
        <lastBuildDate>Sat, 16 May 2026 19:19:52 +0800</lastBuildDate><atom:link href="https://www.knightli.com/zh-tw/tags/function-calling/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>AI Agent 到底怎麼進化的？2022-2026 五代演進完整梳理</title>
        <link>https://www.knightli.com/zh-tw/2026/05/16/ai-agent-evolution-2022-2026/</link>
        <pubDate>Sat, 16 May 2026 19:19:52 +0800</pubDate>
        
        <guid>https://www.knightli.com/zh-tw/2026/05/16/ai-agent-evolution-2022-2026/</guid>
        <description>&lt;p&gt;AI Agent 的發展不是一夜之間發生的。&lt;/p&gt;
&lt;p&gt;2022 年底，ChatGPT 還只是會聊天的視窗。到 2026 年，Agent 已經開始具備工具調用、文件操作、電腦控制、長期記憶、遠端協作和常駐執行能力。四年時間裡，它從「回答問題的模型」逐步變成「能推進任務的數位工作者」。&lt;/p&gt;
&lt;p&gt;如果按時間線看，AI Agent 大致經歷了五代演進。每一代都解決了上一代的核心缺陷，也製造了新的泡沫和新的安全問題。&lt;/p&gt;
&lt;h2 id=&#34;總覽五代-agent-時間線&#34;&gt;總覽：五代 Agent 時間線
&lt;/h2&gt;&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;階段&lt;/th&gt;
          &lt;th&gt;時間&lt;/th&gt;
          &lt;th&gt;關鍵詞&lt;/th&gt;
          &lt;th&gt;能力變化&lt;/th&gt;
          &lt;th&gt;核心問題&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;第零代&lt;/td&gt;
          &lt;td&gt;2022 年末 - 2023 年初&lt;/td&gt;
          &lt;td&gt;對話框&lt;/td&gt;
          &lt;td&gt;會生成文本，但不能行動&lt;/td&gt;
          &lt;td&gt;模型和現實世界斷裂&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;第一代&lt;/td&gt;
          &lt;td&gt;2023 年中 - 2023 年末&lt;/td&gt;
          &lt;td&gt;工具調用&lt;/td&gt;
          &lt;td&gt;能輸出結構化調用，接入 API 和 RAG&lt;/td&gt;
          &lt;td&gt;開環執行、任務迷路&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;第二代&lt;/td&gt;
          &lt;td&gt;2023 年末 - 2024 年&lt;/td&gt;
          &lt;td&gt;工程化工作流&lt;/td&gt;
          &lt;td&gt;有規劃、狀態、反思和多 Agent 協作&lt;/td&gt;
          &lt;td&gt;工作流易複製，低代碼泡沫&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;第三代&lt;/td&gt;
          &lt;td&gt;2024 年 - 2025 年&lt;/td&gt;
          &lt;td&gt;Computer Use&lt;/td&gt;
          &lt;td&gt;能看螢幕、點滑鼠、操作 GUI&lt;/td&gt;
          &lt;td&gt;權限、安全和誤操作風險&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;第四代&lt;/td&gt;
          &lt;td&gt;2025 年 - 2026 年&lt;/td&gt;
          &lt;td&gt;MCP / Skills / 常駐&lt;/td&gt;
          &lt;td&gt;有工具網路、長期上下文和專業技能&lt;/td&gt;
          &lt;td&gt;常駐執行擴大風險半徑&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;第五代前瞻&lt;/td&gt;
          &lt;td&gt;2026 年之後&lt;/td&gt;
          &lt;td&gt;閉環與世界模型&lt;/td&gt;
          &lt;td&gt;可能擁有更強記憶、驗證和物理行動能力&lt;/td&gt;
          &lt;td&gt;治理難度繼續上升&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;h2 id=&#34;2022-年末第零代chatgpt-對話框時代&#34;&gt;2022 年末：第零代，ChatGPT 對話框時代
&lt;/h2&gt;&lt;p&gt;第零代的起點，是 2022 年 11 月 30 日 ChatGPT 發布。&lt;/p&gt;
&lt;p&gt;這一代 AI 還不能算真正的 Agent。它有很強的語言生成能力，但主要被困在對話框裡。它可以寫一段 Python 代碼，卻不能在你的電腦上執行；可以規劃旅行，卻不能打開網站訂票；可以告訴你文件應該怎麼改，卻不能進入文件系統執行修改。&lt;/p&gt;
&lt;p&gt;這一代的能力邊界很清楚：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;能理解自然語言；&lt;/li&gt;
&lt;li&gt;能生成文章、問答、代碼和方案；&lt;/li&gt;
&lt;li&gt;不能主動訪問最新資料；&lt;/li&gt;
&lt;li&gt;不能穩定讀取企業內部資料；&lt;/li&gt;
&lt;li&gt;不能執行外部動作；&lt;/li&gt;
&lt;li&gt;不能管理長期任務狀態。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;所以第零代最核心的問題是：模型能力和現實世界之間斷裂。它能想、能說，但不能行動。&lt;/p&gt;
&lt;p&gt;這一階段也出現了第一波泡沫：提示詞工程師、提示詞模板市場、提示詞課程和提示詞認證。早期模型確實對 prompt 很敏感，但市場把一個臨時補丁誤解成了長期護城河。&lt;/p&gt;
&lt;p&gt;後來 GPT-4 級別模型、系統提示、函數調用和產品預設引導逐漸成熟，大量提示詞模板失去稀缺性。這個現象後來反覆出現：新能力出現時，中間層爆發；下一代系統把能力內化後，中間層蒸發。&lt;/p&gt;
&lt;h2 id=&#34;2023-年中第一代工具調用覺醒&#34;&gt;2023 年中：第一代，工具調用覺醒
&lt;/h2&gt;&lt;p&gt;第一代 Agent 的關鍵詞是工具調用。&lt;/p&gt;
&lt;p&gt;2023 年 6 月，OpenAI 發布 &lt;code&gt;function calling&lt;/code&gt;。它允許開發者向模型描述函數名、用途、參數類型和 &lt;code&gt;JSON Schema&lt;/code&gt;。模型理解用戶請求後，可以不再輸出普通自然語言，而是輸出一個結構化 JSON 調用，再由外部系統執行。&lt;/p&gt;
&lt;p&gt;這一步的架構意義很大：模型開始從「只會說話的大腦」，變成可以驅動外部工具的大腦。&lt;/p&gt;
&lt;p&gt;第一代的關鍵能力包括：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;根據用戶意圖選擇工具；&lt;/li&gt;
&lt;li&gt;輸出結構化參數；&lt;/li&gt;
&lt;li&gt;調用外部 API；&lt;/li&gt;
&lt;li&gt;把 API 結果帶回模型繼續推理；&lt;/li&gt;
&lt;li&gt;通過 RAG 接入外部知識；&lt;/li&gt;
&lt;li&gt;通過插件和知識庫形成早期 persona。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;同一時期，&lt;code&gt;RAG&lt;/code&gt; 和向量資料庫流行起來。它們解決的是模型不知道最新資訊、企業私有資料和內部知識的問題。系統先檢索相關文檔片段，再把材料放進上下文，讓模型基於這些材料回答。&lt;/p&gt;
&lt;p&gt;於是第一代 Agent 的基本結構出現了：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;你是誰：系統提示和 persona；&lt;/li&gt;
&lt;li&gt;你知道什麼：知識庫、RAG、私有文檔；&lt;/li&gt;
&lt;li&gt;你能做什麼：函數調用、插件、外部 API。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;這一代最典型的泡沫是 AutoGPT。它展示了一個很誘人的想法：用戶只給一個宏大目標，AI 自己拆解任務、搜索、寫文件、評估、循環，直到它認為完成。&lt;/p&gt;
&lt;p&gt;但 AutoGPT 很快暴露問題。它缺少狀態約束、終止條件和可靠反饋，經常陷入錯誤方向，反覆調用錯誤參數，或者燒掉大量 API 請求。第一代的教訓很直接：工具加死循環，不等於生產級 Agent。&lt;/p&gt;
&lt;h2 id=&#34;2023-年末到-2024-年第二代工程化工作流&#34;&gt;2023 年末到 2024 年：第二代，工程化工作流
&lt;/h2&gt;&lt;p&gt;AutoGPT 的失敗讓行業意識到，不能只靠模型自由發揮。複雜任務需要結構化流程。&lt;/p&gt;
&lt;p&gt;第二代 Agent 的關鍵詞是工程化工作流。Agent 不再只是一次模型調用，而是一個有狀態、有控制流、有評估機制的軟體系統。&lt;/p&gt;
&lt;p&gt;這一代的關鍵能力包括：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;任務規劃：把大目標拆成步驟；&lt;/li&gt;
&lt;li&gt;狀態管理：記錄任務進行到哪裡；&lt;/li&gt;
&lt;li&gt;反思修正：生成後自評，再修改；&lt;/li&gt;
&lt;li&gt;工具編排：在不同工具之間切換；&lt;/li&gt;
&lt;li&gt;人機協作：在關鍵節點讓人確認；&lt;/li&gt;
&lt;li&gt;多 Agent 協作：讓不同角色分工。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;典型範式是 &lt;code&gt;ReAct&lt;/code&gt;，也就是 &lt;code&gt;Reasoning + Acting&lt;/code&gt;。模型先推理，再調用工具，再根據觀察結果進入下一輪推理。這樣 Agent 不再盲目行動，而是每一步都有可審計的邏輯和反饋。&lt;/p&gt;
&lt;p&gt;第二代的價值，是把模型能力放進可控流程裡。一個設計好的 workflow，有時能讓較小模型完成比單次大模型調用更穩定的結果。&lt;/p&gt;
&lt;p&gt;但這一代也帶來低代碼 Agent 平台泡沫。很多平台用拖拽方式組合 prompt、RAG、插件和流程，確實降低了搭建門檻。但如果一個流程可以被低成本複製，平台本身就很難形成護城河。&lt;/p&gt;
&lt;p&gt;低代碼工具能吃到早期紅利，但紅利不等於壁壘。&lt;/p&gt;
&lt;h2 id=&#34;2024-到-2025-年第三代computer-use-進入真實界面&#34;&gt;2024 到 2025 年：第三代，Computer Use 進入真實界面
&lt;/h2&gt;&lt;p&gt;第三代 Agent 的關鍵詞是 &lt;code&gt;Computer Use&lt;/code&gt;。&lt;/p&gt;
&lt;p&gt;此前的工具調用主要依賴 API，能做什麼取決於開發者提前接好什麼接口。但現實世界裡，大量軟體沒有理想 API，或者 API 不開放、不完整、不統一。&lt;/p&gt;
&lt;p&gt;Computer Use 類能力讓模型開始看螢幕、點滑鼠、操作 GUI。它把通用電腦界面本身變成工具。&lt;/p&gt;
&lt;p&gt;第三代的關鍵能力包括：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;識別螢幕內容；&lt;/li&gt;
&lt;li&gt;點擊按鈕、輸入文本、切換視窗；&lt;/li&gt;
&lt;li&gt;操作網頁和桌面軟體；&lt;/li&gt;
&lt;li&gt;讀倉庫、改文件、跑測試；&lt;/li&gt;
&lt;li&gt;查看終端輸出和錯誤資訊；&lt;/li&gt;
&lt;li&gt;更接近真實工程助手。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;這一步把 Agent 從「調用已接好的工具」，推進到「像人一樣操作軟體界面」。它也讓 coding agent 更接近真實工作流：讀專案、改代碼、運行測試、根據報錯繼續修。&lt;/p&gt;
&lt;p&gt;但信任邊界也擴大了。AI 操作電腦，意味著它可能誤點、誤刪、誤提交，也可能被網頁、文檔或界面文字誘導。提示注入不再只是聊天問題，而可能變成文件操作、權限和系統安全問題。&lt;/p&gt;
&lt;p&gt;第三代的核心教訓是：越接近真實操作，越需要沙箱、審批、回滾和最小權限。&lt;/p&gt;
&lt;h2 id=&#34;2025-到-2026-年第四代mcpskills-和常駐數位員工&#34;&gt;2025 到 2026 年：第四代，MCP、Skills 和常駐數位員工
&lt;/h2&gt;&lt;p&gt;第四代 Agent 的關鍵詞是常駐、連接、記憶和專業化。&lt;/p&gt;
&lt;p&gt;這一代的重點不只是單次任務更強，而是 Agent 開始擁有長期上下文、工具網路、專業技能和時間感。它不再只是一次聊天裡的助手，而更像一個能持續工作的數位員工。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;MCP&lt;/code&gt; 解決的是工具連接問題。它讓 Agent 用標準方式連接文件系統、資料庫、瀏覽器、設計工具、專案管理工具和企業系統。協議一旦穩定，很多只做「工具連接中間層」的專案就會被壓縮。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;Skills&lt;/code&gt; 解決的是專業方法問題。工具告訴 Agent 能做什麼，技能告訴 Agent 應該怎麼做。一個好的 skill 不只是 prompt，而是把領域流程、約束、檢查方式、常見坑和工具調用順序封裝起來。&lt;/p&gt;
&lt;p&gt;第四代的關鍵能力包括：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;長期記憶：保存用戶偏好、專案規則和歷史任務；&lt;/li&gt;
&lt;li&gt;專案上下文：讓 Agent 理解代碼庫、文檔和工作規範；&lt;/li&gt;
&lt;li&gt;工具網路：通過 MCP、API、瀏覽器和文件系統連接外部世界；&lt;/li&gt;
&lt;li&gt;專業技能：用 Skills 封裝任務方法；&lt;/li&gt;
&lt;li&gt;常駐執行：可以等待、喚醒、提醒和繼續跟進；&lt;/li&gt;
&lt;li&gt;遠端協作：用戶可以從不同設備回來審批和調整。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;這一代 Agent 開始有「員工感」：有身份和職責邊界，有長期上下文，有專業工作方法，有時間感，有工具權限，也能在無人盯著時繼續推進任務。&lt;/p&gt;
&lt;p&gt;但能力越像員工，風險半徑也越像員工。長期執行、讀取本地資料、持有密鑰、調用工具、處理任務，都讓安全問題從邊緣變成中心。&lt;/p&gt;
&lt;p&gt;尤其要注意一點：文本也是攻擊面。如果 Agent 會讀取並遵循 Markdown、說明文檔、技能包、網頁內容，那麼惡意文本就可能改變它的行為。提示注入不再只是聊天問題，而是供應鏈問題、權限問題和執行安全問題。&lt;/p&gt;
&lt;p&gt;第四代的核心教訓是：常駐 Agent 不只需要能力，還需要治理。&lt;/p&gt;
&lt;h2 id=&#34;2026-之後第五代前瞻閉環內在記憶和世界模型&#34;&gt;2026 之後：第五代前瞻，閉環、內在記憶和世界模型
&lt;/h2&gt;&lt;p&gt;第五代還不是確定歷史，更像是沿著前面四年的演進邏輯繼續外推。&lt;/p&gt;
&lt;p&gt;成熟 Agent 至少需要三層閉環：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;執行閉環：每一步操作後驗證結果，不符合預期就回滾、修正、重試；&lt;/li&gt;
&lt;li&gt;時間閉環：跨多個喚醒週期追蹤長期目標，而不是做完一次動作就結束；&lt;/li&gt;
&lt;li&gt;認知閉環：知道哪些資訊確定，哪些只是猜測，哪些已經過期。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;第二個方向是內在記憶。過去的記憶大多在模型外部：RAG、向量庫、會話記錄、本地文件、&lt;code&gt;memory.md&lt;/code&gt;。如果未來模型架構本身支援跨會話持久狀態，Agent 的記憶系統會被重構。&lt;/p&gt;
&lt;p&gt;第三個方向是世界模型。今天很多 Agent 仍是反應式的：觀察、響應、再觀察。真正高風險任務需要模型能預演行動後果。&lt;/p&gt;
&lt;p&gt;第四個方向是具身化。前幾代主要發生在數位空間：API、螢幕、文件、瀏覽器、企業工具。下一步可能是把 Agent 的行動能力延伸到物理世界。&lt;/p&gt;
&lt;p&gt;第五代真正要解決的問題，是如何讓 Agent 不只會執行任務，還能理解行動後果、管理長期狀態，並在更大風險半徑內保持可靠。&lt;/p&gt;
&lt;h2 id=&#34;這條時間線背後的六條規律&#34;&gt;這條時間線背後的六條規律
&lt;/h2&gt;&lt;p&gt;第一，基座模型能力仍然是天花板。Agent 不是大模型之外的魔法，而是大模型能力通過工程系統釋放出來的方式。&lt;/p&gt;
&lt;p&gt;第二，工程化架構會放大模型能力。規劃、驗證、反思、修正、評估和權限控制，比單次生成更接近可交付結果。&lt;/p&gt;
&lt;p&gt;第三，開放協議會重塑價值分配。MCP、Skills、專案上下文規範一旦穩定，競爭焦點會從「誰先接了工具」轉向「誰沉澱了真實領域能力」。&lt;/p&gt;
&lt;p&gt;第四，Agent 演化的隱含主線是人機信任邊界擴展。從信任文本，到信任 API 調用，到信任複雜工作流，到信任電腦操作，再到信任常駐執行，每一代都把風險半徑往外推。&lt;/p&gt;
&lt;p&gt;第五，每一代事故都會變成下一代鐵律。AutoGPT 的無限循環推動結構化編排，vibe coding 的失控推動評估驅動開發，誤刪生產環境推動最小權限和沙箱，技能投毒推動供應鏈安全。&lt;/p&gt;
&lt;p&gt;第六，Agent 生態會反覆經歷爆發和滅絕。能力升級會創造臨時中間層，模型或平台內化後又會消滅這些中間層。把時間窗口誤判成護城河，是 AI 創業裡很危險的錯覺。&lt;/p&gt;
&lt;h2 id=&#34;真正的護城河&#34;&gt;真正的護城河
&lt;/h2&gt;&lt;p&gt;AI Agent 領域真正的護城河，不是搶先包裝某個新能力。&lt;/p&gt;
&lt;p&gt;更可靠的護城河大概有三類。&lt;/p&gt;
&lt;p&gt;第一，垂直領域深度。你是否真的理解一個行業的流程、風險、異常和責任邊界。&lt;/p&gt;
&lt;p&gt;第二，資料飛輪。你是否能從真實使用中積累高品質反饋，不斷改進流程、評估、微調和產品判斷。&lt;/p&gt;
&lt;p&gt;第三，用戶信任。用戶是否願意把更高價值、更長期、更有風險的任務交給你，而不是只把你當成一次性工具。&lt;/p&gt;
&lt;p&gt;當某項能力被平台或基座模型吞噬之後，仍然能沉澱流程、反饋、責任邊界和信任的產品，才更可能留下來。&lt;/p&gt;
&lt;h2 id=&#34;最後&#34;&gt;最後
&lt;/h2&gt;&lt;p&gt;從 2022 年到 2026 年，AI Agent 的演進不是「模型越來越會聊天」，而是「人類願意交給 AI 的事情越來越多」。&lt;/p&gt;
&lt;p&gt;真正成熟的 Agent，不是最敢自動執行的系統，而是知道何時執行、何時驗證、何時暫停、何時請人確認的系統。&lt;/p&gt;
&lt;p&gt;如果要判斷一個 Agent 產品是否有長期價值，可以問一個問題：當這個能力被下一代模型或平台內置後，它還剩下什麼？&lt;/p&gt;
&lt;p&gt;答案如果是領域流程、真實資料、可驗證結果和用戶信任，那才可能是長期價值。&lt;/p&gt;
</description>
        </item>
        
    </channel>
</rss>
