AI Agent 到底怎麼進化的?2022-2026 五代演進完整梳理

按 2022 到 2026 年時間線梳理 AI Agent 的五代演進:從 ChatGPT 對話框、工具調用、工程化工作流、Computer Use、MCP 和 Skills,到常駐數位員工。

AI Agent 的發展不是一夜之間發生的。

2022 年底,ChatGPT 還只是會聊天的視窗。到 2026 年,Agent 已經開始具備工具調用、文件操作、電腦控制、長期記憶、遠端協作和常駐執行能力。四年時間裡,它從「回答問題的模型」逐步變成「能推進任務的數位工作者」。

如果按時間線看,AI Agent 大致經歷了五代演進。每一代都解決了上一代的核心缺陷,也製造了新的泡沫和新的安全問題。

總覽:五代 Agent 時間線

階段 時間 關鍵詞 能力變化 核心問題
第零代 2022 年末 - 2023 年初 對話框 會生成文本,但不能行動 模型和現實世界斷裂
第一代 2023 年中 - 2023 年末 工具調用 能輸出結構化調用,接入 API 和 RAG 開環執行、任務迷路
第二代 2023 年末 - 2024 年 工程化工作流 有規劃、狀態、反思和多 Agent 協作 工作流易複製,低代碼泡沫
第三代 2024 年 - 2025 年 Computer Use 能看螢幕、點滑鼠、操作 GUI 權限、安全和誤操作風險
第四代 2025 年 - 2026 年 MCP / Skills / 常駐 有工具網路、長期上下文和專業技能 常駐執行擴大風險半徑
第五代前瞻 2026 年之後 閉環與世界模型 可能擁有更強記憶、驗證和物理行動能力 治理難度繼續上升

2022 年末:第零代,ChatGPT 對話框時代

第零代的起點,是 2022 年 11 月 30 日 ChatGPT 發布。

這一代 AI 還不能算真正的 Agent。它有很強的語言生成能力,但主要被困在對話框裡。它可以寫一段 Python 代碼,卻不能在你的電腦上執行;可以規劃旅行,卻不能打開網站訂票;可以告訴你文件應該怎麼改,卻不能進入文件系統執行修改。

這一代的能力邊界很清楚:

  • 能理解自然語言;
  • 能生成文章、問答、代碼和方案;
  • 不能主動訪問最新資料;
  • 不能穩定讀取企業內部資料;
  • 不能執行外部動作;
  • 不能管理長期任務狀態。

所以第零代最核心的問題是:模型能力和現實世界之間斷裂。它能想、能說,但不能行動。

這一階段也出現了第一波泡沫:提示詞工程師、提示詞模板市場、提示詞課程和提示詞認證。早期模型確實對 prompt 很敏感,但市場把一個臨時補丁誤解成了長期護城河。

後來 GPT-4 級別模型、系統提示、函數調用和產品預設引導逐漸成熟,大量提示詞模板失去稀缺性。這個現象後來反覆出現:新能力出現時,中間層爆發;下一代系統把能力內化後,中間層蒸發。

2023 年中:第一代,工具調用覺醒

第一代 Agent 的關鍵詞是工具調用。

2023 年 6 月,OpenAI 發布 function calling。它允許開發者向模型描述函數名、用途、參數類型和 JSON Schema。模型理解用戶請求後,可以不再輸出普通自然語言,而是輸出一個結構化 JSON 調用,再由外部系統執行。

這一步的架構意義很大:模型開始從「只會說話的大腦」,變成可以驅動外部工具的大腦。

第一代的關鍵能力包括:

  • 根據用戶意圖選擇工具;
  • 輸出結構化參數;
  • 調用外部 API;
  • 把 API 結果帶回模型繼續推理;
  • 通過 RAG 接入外部知識;
  • 通過插件和知識庫形成早期 persona。

同一時期,RAG 和向量資料庫流行起來。它們解決的是模型不知道最新資訊、企業私有資料和內部知識的問題。系統先檢索相關文檔片段,再把材料放進上下文,讓模型基於這些材料回答。

於是第一代 Agent 的基本結構出現了:

  • 你是誰:系統提示和 persona;
  • 你知道什麼:知識庫、RAG、私有文檔;
  • 你能做什麼:函數調用、插件、外部 API。

這一代最典型的泡沫是 AutoGPT。它展示了一個很誘人的想法:用戶只給一個宏大目標,AI 自己拆解任務、搜索、寫文件、評估、循環,直到它認為完成。

但 AutoGPT 很快暴露問題。它缺少狀態約束、終止條件和可靠反饋,經常陷入錯誤方向,反覆調用錯誤參數,或者燒掉大量 API 請求。第一代的教訓很直接:工具加死循環,不等於生產級 Agent。

2023 年末到 2024 年:第二代,工程化工作流

AutoGPT 的失敗讓行業意識到,不能只靠模型自由發揮。複雜任務需要結構化流程。

第二代 Agent 的關鍵詞是工程化工作流。Agent 不再只是一次模型調用,而是一個有狀態、有控制流、有評估機制的軟體系統。

這一代的關鍵能力包括:

  • 任務規劃:把大目標拆成步驟;
  • 狀態管理:記錄任務進行到哪裡;
  • 反思修正:生成後自評,再修改;
  • 工具編排:在不同工具之間切換;
  • 人機協作:在關鍵節點讓人確認;
  • 多 Agent 協作:讓不同角色分工。

典型範式是 ReAct,也就是 Reasoning + Acting。模型先推理,再調用工具,再根據觀察結果進入下一輪推理。這樣 Agent 不再盲目行動,而是每一步都有可審計的邏輯和反饋。

第二代的價值,是把模型能力放進可控流程裡。一個設計好的 workflow,有時能讓較小模型完成比單次大模型調用更穩定的結果。

但這一代也帶來低代碼 Agent 平台泡沫。很多平台用拖拽方式組合 prompt、RAG、插件和流程,確實降低了搭建門檻。但如果一個流程可以被低成本複製,平台本身就很難形成護城河。

低代碼工具能吃到早期紅利,但紅利不等於壁壘。

2024 到 2025 年:第三代,Computer Use 進入真實界面

第三代 Agent 的關鍵詞是 Computer Use

此前的工具調用主要依賴 API,能做什麼取決於開發者提前接好什麼接口。但現實世界裡,大量軟體沒有理想 API,或者 API 不開放、不完整、不統一。

Computer Use 類能力讓模型開始看螢幕、點滑鼠、操作 GUI。它把通用電腦界面本身變成工具。

第三代的關鍵能力包括:

  • 識別螢幕內容;
  • 點擊按鈕、輸入文本、切換視窗;
  • 操作網頁和桌面軟體;
  • 讀倉庫、改文件、跑測試;
  • 查看終端輸出和錯誤資訊;
  • 更接近真實工程助手。

這一步把 Agent 從「調用已接好的工具」,推進到「像人一樣操作軟體界面」。它也讓 coding agent 更接近真實工作流:讀專案、改代碼、運行測試、根據報錯繼續修。

但信任邊界也擴大了。AI 操作電腦,意味著它可能誤點、誤刪、誤提交,也可能被網頁、文檔或界面文字誘導。提示注入不再只是聊天問題,而可能變成文件操作、權限和系統安全問題。

第三代的核心教訓是:越接近真實操作,越需要沙箱、審批、回滾和最小權限。

2025 到 2026 年:第四代,MCP、Skills 和常駐數位員工

第四代 Agent 的關鍵詞是常駐、連接、記憶和專業化。

這一代的重點不只是單次任務更強,而是 Agent 開始擁有長期上下文、工具網路、專業技能和時間感。它不再只是一次聊天裡的助手,而更像一個能持續工作的數位員工。

MCP 解決的是工具連接問題。它讓 Agent 用標準方式連接文件系統、資料庫、瀏覽器、設計工具、專案管理工具和企業系統。協議一旦穩定,很多只做「工具連接中間層」的專案就會被壓縮。

Skills 解決的是專業方法問題。工具告訴 Agent 能做什麼,技能告訴 Agent 應該怎麼做。一個好的 skill 不只是 prompt,而是把領域流程、約束、檢查方式、常見坑和工具調用順序封裝起來。

第四代的關鍵能力包括:

  • 長期記憶:保存用戶偏好、專案規則和歷史任務;
  • 專案上下文:讓 Agent 理解代碼庫、文檔和工作規範;
  • 工具網路:通過 MCP、API、瀏覽器和文件系統連接外部世界;
  • 專業技能:用 Skills 封裝任務方法;
  • 常駐執行:可以等待、喚醒、提醒和繼續跟進;
  • 遠端協作:用戶可以從不同設備回來審批和調整。

這一代 Agent 開始有「員工感」:有身份和職責邊界,有長期上下文,有專業工作方法,有時間感,有工具權限,也能在無人盯著時繼續推進任務。

但能力越像員工,風險半徑也越像員工。長期執行、讀取本地資料、持有密鑰、調用工具、處理任務,都讓安全問題從邊緣變成中心。

尤其要注意一點:文本也是攻擊面。如果 Agent 會讀取並遵循 Markdown、說明文檔、技能包、網頁內容,那麼惡意文本就可能改變它的行為。提示注入不再只是聊天問題,而是供應鏈問題、權限問題和執行安全問題。

第四代的核心教訓是:常駐 Agent 不只需要能力,還需要治理。

2026 之後:第五代前瞻,閉環、內在記憶和世界模型

第五代還不是確定歷史,更像是沿著前面四年的演進邏輯繼續外推。

成熟 Agent 至少需要三層閉環:

  • 執行閉環:每一步操作後驗證結果,不符合預期就回滾、修正、重試;
  • 時間閉環:跨多個喚醒週期追蹤長期目標,而不是做完一次動作就結束;
  • 認知閉環:知道哪些資訊確定,哪些只是猜測,哪些已經過期。

第二個方向是內在記憶。過去的記憶大多在模型外部:RAG、向量庫、會話記錄、本地文件、memory.md。如果未來模型架構本身支援跨會話持久狀態,Agent 的記憶系統會被重構。

第三個方向是世界模型。今天很多 Agent 仍是反應式的:觀察、響應、再觀察。真正高風險任務需要模型能預演行動後果。

第四個方向是具身化。前幾代主要發生在數位空間:API、螢幕、文件、瀏覽器、企業工具。下一步可能是把 Agent 的行動能力延伸到物理世界。

第五代真正要解決的問題,是如何讓 Agent 不只會執行任務,還能理解行動後果、管理長期狀態,並在更大風險半徑內保持可靠。

這條時間線背後的六條規律

第一,基座模型能力仍然是天花板。Agent 不是大模型之外的魔法,而是大模型能力通過工程系統釋放出來的方式。

第二,工程化架構會放大模型能力。規劃、驗證、反思、修正、評估和權限控制,比單次生成更接近可交付結果。

第三,開放協議會重塑價值分配。MCP、Skills、專案上下文規範一旦穩定,競爭焦點會從「誰先接了工具」轉向「誰沉澱了真實領域能力」。

第四,Agent 演化的隱含主線是人機信任邊界擴展。從信任文本,到信任 API 調用,到信任複雜工作流,到信任電腦操作,再到信任常駐執行,每一代都把風險半徑往外推。

第五,每一代事故都會變成下一代鐵律。AutoGPT 的無限循環推動結構化編排,vibe coding 的失控推動評估驅動開發,誤刪生產環境推動最小權限和沙箱,技能投毒推動供應鏈安全。

第六,Agent 生態會反覆經歷爆發和滅絕。能力升級會創造臨時中間層,模型或平台內化後又會消滅這些中間層。把時間窗口誤判成護城河,是 AI 創業裡很危險的錯覺。

真正的護城河

AI Agent 領域真正的護城河,不是搶先包裝某個新能力。

更可靠的護城河大概有三類。

第一,垂直領域深度。你是否真的理解一個行業的流程、風險、異常和責任邊界。

第二,資料飛輪。你是否能從真實使用中積累高品質反饋,不斷改進流程、評估、微調和產品判斷。

第三,用戶信任。用戶是否願意把更高價值、更長期、更有風險的任務交給你,而不是只把你當成一次性工具。

當某項能力被平台或基座模型吞噬之後,仍然能沉澱流程、反饋、責任邊界和信任的產品,才更可能留下來。

最後

從 2022 年到 2026 年,AI Agent 的演進不是「模型越來越會聊天」,而是「人類願意交給 AI 的事情越來越多」。

真正成熟的 Agent,不是最敢自動執行的系統,而是知道何時執行、何時驗證、何時暫停、何時請人確認的系統。

如果要判斷一個 Agent 產品是否有長期價值,可以問一個問題:當這個能力被下一代模型或平台內置後,它還剩下什麼?

答案如果是領域流程、真實資料、可驗證結果和用戶信任,那才可能是長期價值。

记录并分享
使用 Hugo 建立
主題 StackJimmy 設計