AI Agent 到底怎麼進化的？2022-2026 五代演進完整梳理

Sat, 16 May 2026 19:19:52 +0800

AI Agent 的發展不是一夜之間發生的。

2022 年底，ChatGPT 還只是會聊天的視窗。到 2026 年，Agent 已經開始具備工具調用、文件操作、電腦控制、長期記憶、遠端協作和常駐執行能力。四年時間裡，它從「回答問題的模型」逐步變成「能推進任務的數位工作者」。

如果按時間線看，AI Agent 大致經歷了五代演進。每一代都解決了上一代的核心缺陷，也製造了新的泡沫和新的安全問題。

總覽：五代 Agent 時間線

階段	時間	關鍵詞	能力變化	核心問題
第零代	2022 年末 - 2023 年初	對話框	會生成文本，但不能行動	模型和現實世界斷裂
第一代	2023 年中 - 2023 年末	工具調用	能輸出結構化調用，接入 API 和 RAG	開環執行、任務迷路
第二代	2023 年末 - 2024 年	工程化工作流	有規劃、狀態、反思和多 Agent 協作	工作流易複製，低代碼泡沫
第三代	2024 年 - 2025 年	Computer Use	能看螢幕、點滑鼠、操作 GUI	權限、安全和誤操作風險
第四代	2025 年 - 2026 年	MCP / Skills / 常駐	有工具網路、長期上下文和專業技能	常駐執行擴大風險半徑
第五代前瞻	2026 年之後	閉環與世界模型	可能擁有更強記憶、驗證和物理行動能力	治理難度繼續上升

2022 年末：第零代，ChatGPT 對話框時代

第零代的起點，是 2022 年 11 月 30 日 ChatGPT 發布。

這一代 AI 還不能算真正的 Agent。它有很強的語言生成能力，但主要被困在對話框裡。它可以寫一段 Python 代碼，卻不能在你的電腦上執行；可以規劃旅行，卻不能打開網站訂票；可以告訴你文件應該怎麼改，卻不能進入文件系統執行修改。

這一代的能力邊界很清楚：

能理解自然語言；
能生成文章、問答、代碼和方案；
不能主動訪問最新資料；
不能穩定讀取企業內部資料；
不能執行外部動作；
不能管理長期任務狀態。

所以第零代最核心的問題是：模型能力和現實世界之間斷裂。它能想、能說，但不能行動。

這一階段也出現了第一波泡沫：提示詞工程師、提示詞模板市場、提示詞課程和提示詞認證。早期模型確實對 prompt 很敏感，但市場把一個臨時補丁誤解成了長期護城河。

後來 GPT-4 級別模型、系統提示、函數調用和產品預設引導逐漸成熟，大量提示詞模板失去稀缺性。這個現象後來反覆出現：新能力出現時，中間層爆發；下一代系統把能力內化後，中間層蒸發。

2023 年中：第一代，工具調用覺醒

第一代 Agent 的關鍵詞是工具調用。

2023 年 6 月，OpenAI 發布 function calling。它允許開發者向模型描述函數名、用途、參數類型和 JSON Schema。模型理解用戶請求後，可以不再輸出普通自然語言，而是輸出一個結構化 JSON 調用，再由外部系統執行。

這一步的架構意義很大：模型開始從「只會說話的大腦」，變成可以驅動外部工具的大腦。

第一代的關鍵能力包括：

根據用戶意圖選擇工具；
輸出結構化參數；
調用外部 API；
把 API 結果帶回模型繼續推理；
通過 RAG 接入外部知識；
通過插件和知識庫形成早期 persona。

同一時期，RAG 和向量資料庫流行起來。它們解決的是模型不知道最新資訊、企業私有資料和內部知識的問題。系統先檢索相關文檔片段，再把材料放進上下文，讓模型基於這些材料回答。

於是第一代 Agent 的基本結構出現了：

你是誰：系統提示和 persona；
你知道什麼：知識庫、RAG、私有文檔；
你能做什麼：函數調用、插件、外部 API。

這一代最典型的泡沫是 AutoGPT。它展示了一個很誘人的想法：用戶只給一個宏大目標，AI 自己拆解任務、搜索、寫文件、評估、循環，直到它認為完成。

但 AutoGPT 很快暴露問題。它缺少狀態約束、終止條件和可靠反饋，經常陷入錯誤方向，反覆調用錯誤參數，或者燒掉大量 API 請求。第一代的教訓很直接：工具加死循環，不等於生產級 Agent。

2023 年末到 2024 年：第二代，工程化工作流

AutoGPT 的失敗讓行業意識到，不能只靠模型自由發揮。複雜任務需要結構化流程。

第二代 Agent 的關鍵詞是工程化工作流。Agent 不再只是一次模型調用，而是一個有狀態、有控制流、有評估機制的軟體系統。

這一代的關鍵能力包括：

任務規劃：把大目標拆成步驟；
狀態管理：記錄任務進行到哪裡；
反思修正：生成後自評，再修改；
工具編排：在不同工具之間切換；
人機協作：在關鍵節點讓人確認；
多 Agent 協作：讓不同角色分工。

典型範式是 ReAct，也就是 Reasoning + Acting。模型先推理，再調用工具，再根據觀察結果進入下一輪推理。這樣 Agent 不再盲目行動，而是每一步都有可審計的邏輯和反饋。

第二代的價值，是把模型能力放進可控流程裡。一個設計好的 workflow，有時能讓較小模型完成比單次大模型調用更穩定的結果。

但這一代也帶來低代碼 Agent 平台泡沫。很多平台用拖拽方式組合 prompt、RAG、插件和流程，確實降低了搭建門檻。但如果一個流程可以被低成本複製，平台本身就很難形成護城河。

低代碼工具能吃到早期紅利，但紅利不等於壁壘。

2024 到 2025 年：第三代，Computer Use 進入真實界面

第三代 Agent 的關鍵詞是 Computer Use。

此前的工具調用主要依賴 API，能做什麼取決於開發者提前接好什麼接口。但現實世界裡，大量軟體沒有理想 API，或者 API 不開放、不完整、不統一。

Computer Use 類能力讓模型開始看螢幕、點滑鼠、操作 GUI。它把通用電腦界面本身變成工具。

第三代的關鍵能力包括：

識別螢幕內容；
點擊按鈕、輸入文本、切換視窗；
操作網頁和桌面軟體；
讀倉庫、改文件、跑測試；
查看終端輸出和錯誤資訊；
更接近真實工程助手。

這一步把 Agent 從「調用已接好的工具」，推進到「像人一樣操作軟體界面」。它也讓 coding agent 更接近真實工作流：讀專案、改代碼、運行測試、根據報錯繼續修。

但信任邊界也擴大了。AI 操作電腦，意味著它可能誤點、誤刪、誤提交，也可能被網頁、文檔或界面文字誘導。提示注入不再只是聊天問題，而可能變成文件操作、權限和系統安全問題。

第三代的核心教訓是：越接近真實操作，越需要沙箱、審批、回滾和最小權限。

2025 到 2026 年：第四代，MCP、Skills 和常駐數位員工

第四代 Agent 的關鍵詞是常駐、連接、記憶和專業化。

這一代的重點不只是單次任務更強，而是 Agent 開始擁有長期上下文、工具網路、專業技能和時間感。它不再只是一次聊天裡的助手，而更像一個能持續工作的數位員工。

MCP 解決的是工具連接問題。它讓 Agent 用標準方式連接文件系統、資料庫、瀏覽器、設計工具、專案管理工具和企業系統。協議一旦穩定，很多只做「工具連接中間層」的專案就會被壓縮。

Skills 解決的是專業方法問題。工具告訴 Agent 能做什麼，技能告訴 Agent 應該怎麼做。一個好的 skill 不只是 prompt，而是把領域流程、約束、檢查方式、常見坑和工具調用順序封裝起來。

第四代的關鍵能力包括：

長期記憶：保存用戶偏好、專案規則和歷史任務；
專案上下文：讓 Agent 理解代碼庫、文檔和工作規範；
工具網路：通過 MCP、API、瀏覽器和文件系統連接外部世界；
專業技能：用 Skills 封裝任務方法；
常駐執行：可以等待、喚醒、提醒和繼續跟進；
遠端協作：用戶可以從不同設備回來審批和調整。

這一代 Agent 開始有「員工感」：有身份和職責邊界，有長期上下文，有專業工作方法，有時間感，有工具權限，也能在無人盯著時繼續推進任務。

但能力越像員工，風險半徑也越像員工。長期執行、讀取本地資料、持有密鑰、調用工具、處理任務，都讓安全問題從邊緣變成中心。

尤其要注意一點：文本也是攻擊面。如果 Agent 會讀取並遵循 Markdown、說明文檔、技能包、網頁內容，那麼惡意文本就可能改變它的行為。提示注入不再只是聊天問題，而是供應鏈問題、權限問題和執行安全問題。

第四代的核心教訓是：常駐 Agent 不只需要能力，還需要治理。

2026 之後：第五代前瞻，閉環、內在記憶和世界模型

第五代還不是確定歷史，更像是沿著前面四年的演進邏輯繼續外推。

成熟 Agent 至少需要三層閉環：

執行閉環：每一步操作後驗證結果，不符合預期就回滾、修正、重試；
時間閉環：跨多個喚醒週期追蹤長期目標，而不是做完一次動作就結束；
認知閉環：知道哪些資訊確定，哪些只是猜測，哪些已經過期。

第二個方向是內在記憶。過去的記憶大多在模型外部：RAG、向量庫、會話記錄、本地文件、memory.md。如果未來模型架構本身支援跨會話持久狀態，Agent 的記憶系統會被重構。

第三個方向是世界模型。今天很多 Agent 仍是反應式的：觀察、響應、再觀察。真正高風險任務需要模型能預演行動後果。

第四個方向是具身化。前幾代主要發生在數位空間：API、螢幕、文件、瀏覽器、企業工具。下一步可能是把 Agent 的行動能力延伸到物理世界。

第五代真正要解決的問題，是如何讓 Agent 不只會執行任務，還能理解行動後果、管理長期狀態，並在更大風險半徑內保持可靠。

這條時間線背後的六條規律

第一，基座模型能力仍然是天花板。Agent 不是大模型之外的魔法，而是大模型能力通過工程系統釋放出來的方式。

第二，工程化架構會放大模型能力。規劃、驗證、反思、修正、評估和權限控制，比單次生成更接近可交付結果。

第三，開放協議會重塑價值分配。MCP、Skills、專案上下文規範一旦穩定，競爭焦點會從「誰先接了工具」轉向「誰沉澱了真實領域能力」。

第四，Agent 演化的隱含主線是人機信任邊界擴展。從信任文本，到信任 API 調用，到信任複雜工作流，到信任電腦操作，再到信任常駐執行，每一代都把風險半徑往外推。

第五，每一代事故都會變成下一代鐵律。AutoGPT 的無限循環推動結構化編排，vibe coding 的失控推動評估驅動開發，誤刪生產環境推動最小權限和沙箱，技能投毒推動供應鏈安全。

第六，Agent 生態會反覆經歷爆發和滅絕。能力升級會創造臨時中間層，模型或平台內化後又會消滅這些中間層。把時間窗口誤判成護城河，是 AI 創業裡很危險的錯覺。

真正的護城河

AI Agent 領域真正的護城河，不是搶先包裝某個新能力。

更可靠的護城河大概有三類。

第一，垂直領域深度。你是否真的理解一個行業的流程、風險、異常和責任邊界。

第二，資料飛輪。你是否能從真實使用中積累高品質反饋，不斷改進流程、評估、微調和產品判斷。

第三，用戶信任。用戶是否願意把更高價值、更長期、更有風險的任務交給你，而不是只把你當成一次性工具。

當某項能力被平台或基座模型吞噬之後，仍然能沉澱流程、反饋、責任邊界和信任的產品，才更可能留下來。

最後

從 2022 年到 2026 年，AI Agent 的演進不是「模型越來越會聊天」，而是「人類願意交給 AI 的事情越來越多」。

真正成熟的 Agent，不是最敢自動執行的系統，而是知道何時執行、何時驗證、何時暫停、何時請人確認的系統。

如果要判斷一個 Agent 產品是否有長期價值，可以問一個問題：當這個能力被下一代模型或平台內置後，它還剩下什麼？

答案如果是領域流程、真實資料、可驗證結果和用戶信任，那才可能是長期價值。

Function Calling on KnightLi的博客