AI Agentは一夜で生まれたものではありません。
2022年末、ChatGPTはまだ会話できるウィンドウに近い存在でした。2026年になると、Agentはツール呼び出し、ファイル操作、コンピューター制御、長期記憶、リモート協業、常駐実行に近い能力を持ち始めています。4年間で、質問に答えるモデルから、タスクを前に進めるデジタルワーカーへ近づきました。
時系列で見ると、AI Agentは大きく5世代に分けられます。各世代は前の世代の欠点を解決しながら、新しいバブルと安全上の課題も生みました。
概観:5世代のAgentタイムライン
| 段階 | 時期 | キーワード | 能力の変化 | 主な問題 |
|---|---|---|---|---|
| 第0世代 | 2022年末 - 2023年初 | チャット画面 | テキスト生成はできるが行動できない | モデルと現実世界が切断されている |
| 第1世代 | 2023年中頃 - 2023年末 | ツール呼び出し | 構造化呼び出し、APIとRAG接続 | 開ループ実行とタスク迷走 |
| 第2世代 | 2023年末 - 2024年 | 工程化ワークフロー | 計画、状態、反省、複数Agent協業 | ワークフローがコピーされやすい |
| 第3世代 | 2024年 - 2025年 | Computer Use | 画面を見てGUIを操作 | 権限、安全、誤操作リスク |
| 第4世代 | 2025年 - 2026年 | MCP / Skills / 常駐 | ツールネットワーク、長期文脈、専門スキル | 常駐実行でリスク半径が拡大 |
| 第5世代予測 | 2026年以降 | 閉ループと世界モデル | 記憶、検証、物理行動の強化 | ガバナンスがさらに難しくなる |
2022年末:第0世代、ChatGPTチャット画面の時代
第0世代の起点は、2022年11月30日のChatGPT公開です。
この世代はまだ本当のAgentとは言えません。自然言語生成は強力でしたが、主にチャット画面の中に閉じ込められていました。Pythonコードを書くことはできても、あなたのPCで実行できない。旅行計画は作れても、サイトを開いて予約できない。ファイルの直し方は説明できても、ファイルシステムに入って変更できない。
能力の境界は明確でした。
- 自然言語を理解できる
- 記事、回答、コード、計画を生成できる
- 最新データに自分でアクセスできない
- 企業内部資料を安定して読めない
- 外部アクションを実行できない
- 長期タスク状態を管理できない
第0世代の核心は、モデル能力と現実世界の断絶でした。考えて話すことはできるが、行動できない。
この段階では、プロンプトエンジニア、プロンプトテンプレート市場、講座、認定といった最初のバブルも生まれました。初期モデルがpromptに敏感だったのは事実ですが、市場は一時的な補助を長期的な堀と誤解しました。
その後、GPT-4級モデル、system prompt、function calling、製品側の標準導線が成熟し、多くのプロンプトテンプレートは希少性を失いました。このパターンは繰り返されます。新能力が出ると中間層が爆発し、次世代システムがその能力を内蔵すると中間層は蒸発します。
2023年中頃:第1世代、ツール呼び出しの覚醒
第1世代のキーワードはツール呼び出しです。
2023年6月、OpenAIはfunction callingを公開しました。開発者は関数名、用途、引数型、JSON Schemaをモデルに説明できます。モデルはユーザーの要求を理解したうえで、通常の自然言語ではなく構造化JSONを出力し、外部システムがそれを実行します。
これは大きな構造変化でした。モデルは「話すだけの脳」から、外部ツールを動かす脳へ変わり始めました。
第1世代の能力は次の通りです。
- ユーザー意図に応じてツールを選ぶ
- 構造化引数を出す
- 外部APIを呼び出す
- API結果をモデルに戻して推論を続ける
- RAGで外部知識に接続する
- プラグインや知識ベースで初期personaを作る
同時期にRAGとベクトルデータベースも流行しました。モデルが最新情報、企業固有資料、内部知識を知らない問題を補うため、関連文書を検索し、文脈に注入して回答させる方式です。
この頃、Agentの基本構造が見えてきました。
- あなたは誰か:system promptとpersona
- 何を知っているか:知識ベース、RAG、私有文書
- 何ができるか:function calling、プラグイン、外部API
代表的なバブルはAutoGPTです。ユーザーが大きな目標を与えると、AIがタスク分解、検索、ファイル作成、評価、ループを行い、自分で完了判断するという魅力的な構想でした。
しかしAutoGPTはすぐに問題を露呈しました。状態制約、終了条件、信頼できるフィードバックが不足し、間違った方向に進み続けたり、誤ったAPI引数を繰り返したり、大量のAPIコールでコストを燃やしたりしました。第1世代の教訓は明確です。ツールと無限ループだけでは、本番品質のAgentにはなりません。
2023年末から2024年:第2世代、工程化ワークフロー
AutoGPTの失敗は、モデルの自由行動だけに頼れないことを業界に示しました。複雑なタスクには構造化されたプロセスが必要です。
第2世代のキーワードは工程化ワークフローです。Agentは単発のモデル呼び出しではなく、状態、制御フロー、評価を持つソフトウェアシステムになりました。
主な能力は次の通りです。
- タスク計画:大きな目標をステップに分解
- 状態管理:作業がどこまで進んだかを記録
- 反省と修正:生成後に評価し、修正する
- ツール編成:複数ツールを切り替える
- 人間の確認:重要な節目で人に確認する
- 複数Agent協業:異なる役割に分担させる
典型例はReAct、つまりReasoning + Actingです。モデルが推論し、ツールを呼び出し、観察結果を受け取り、次の推論に進みます。Agentは盲目的に動かず、各ステップに監査可能な論理とフィードバックを持ちます。
第2世代の価値は、モデル能力を制御可能なプロセスに入れたことです。よく設計されたworkflowは、単発の大規模モデル呼び出しよりも安定した成果を出すことがあります。
一方で、低コードAgentプラットフォームのバブルも生まれました。ドラッグ&ドロップでprompt、RAG、プラグイン、フローを組み合わせるツールは構築の敷居を下げました。しかし、ワークフローが低コストでコピーできるなら、プラットフォーム自体の堀は弱いです。
早期需要を取れることと、長期的な壁を持つことは別です。
2024年から2025年:第3世代、Computer Useが実画面に入る
第3世代のキーワードはComputer Useです。
以前のツール呼び出しは主にAPIに依存していました。何ができるかは開発者が何を接続したかに依存します。しかし現実のソフトウェアには、きれいなAPIがない、公開されていない、不完全である、といったものが多くあります。
Computer Useは、モデルが画面を見て、クリックし、GUIを操作できるようにします。汎用的なコンピューター画面そのものがツールになります。
主な能力は次の通りです。
- 画面内容の認識
- ボタンのクリック、文字入力、ウィンドウ切り替え
- Webとデスクトップアプリの操作
- リポジトリの読解、ファイル編集、テスト実行
- 端末出力とエラーの確認
- 実際のエンジニアリング助手に近づく
これにより、Agentは「接続済みツールの呼び出し」から「人のようにソフトウェア画面を操作する」方向に進みました。coding agentも、プロジェクトを読み、コードを直し、テストを走らせ、エラーから修正する流れに近づきます。
しかし信頼境界も広がります。AIがPCを操作するなら、誤クリック、誤削除、誤送信があり得ます。Webページ、文書、UI文言による誘導もあります。prompt injectionは会話上の問題だけでなく、ファイル操作、権限、システム安全の問題になります。
第3世代の教訓は、実操作に近づくほど、サンドボックス、承認、ロールバック、最小権限が必要になることです。
2025年から2026年:第4世代、MCP、Skills、常駐デジタルワーカー
第4世代のキーワードは、常駐、接続、記憶、専門化です。
この世代の焦点は、単発タスクの強化だけではありません。Agentは長期文脈、ツールネットワーク、専門スキル、時間感覚を持ち始めます。一回のチャット内の助手ではなく、継続して働けるデジタルワーカーに近づきます。
MCPはツール接続の問題を解きます。ファイルシステム、データベース、ブラウザ、設計ツール、プロジェクト管理ツール、企業システムを標準化された方法で接続できます。プロトコルが安定すると、単なるツール接続中間層は圧縮されます。
Skillsは専門的方法の問題を解きます。ツールはAgentに何ができるかを伝え、Skillsはどう進めるべきかを伝えます。良いskillはpromptではなく、領域の手順、制約、チェック方法、落とし穴、ツール呼び出し順をまとめたものです。
第4世代の能力は次の通りです。
- 長期記憶:ユーザー嗜好、プロジェクト規則、履歴を保存
- プロジェクト文脈:リポジトリ、文書、作業規約を理解
- ツールネットワーク:MCP、API、ブラウザ、ファイルシステムで外界に接続
- 専門スキル:Skillsでタスク手法をパッケージ化
- 常駐実行:待機、起床、通知、追跡
- リモート協業:別デバイスから承認や方向修正が可能
この世代のAgentは「従業員らしさ」を持ち始めます。役割と責任境界、長期文脈、専門的な作業方法、時間感覚、ツール権限、無人時の継続実行です。
しかし能力が従業員に近づくほど、リスク半径も従業員に近づきます。常駐、ローカルデータ読み取り、秘密情報、ツール呼び出し、タスク処理により、安全問題は中心課題になります。
特に重要なのは、テキストも攻撃面であることです。AgentがMarkdown、説明文書、skill pack、Webページを読んで従うなら、悪意あるテキストが行動を変える可能性があります。prompt injectionは、サプライチェーン、権限、実行安全の問題になります。
第4世代の教訓は、常駐Agentには能力だけでなくガバナンスが必要だということです。
2026年以降:第5世代予測、閉ループ、内在記憶、世界モデル
第5世代はまだ確定した歴史ではありません。前の4年の流れからの予測です。
成熟したAgentには少なくとも3つの閉ループが必要です。
- 実行ループ:各操作後に結果を検証し、必要ならロールバック、修正、再試行する
- 時間ループ:複数の起床周期をまたいで長期目標を追跡する
- 認知ループ:確実な情報、推測、古い情報を区別する
次の方向は内在記憶です。これまでの記憶は、RAG、ベクトルDB、会話履歴、ローカルファイル、memory.mdのようにモデル外部にありました。将来のモデルが会話をまたいだ持続状態を持つなら、Agentの記憶システムは再設計されます。
第三の方向は世界モデルです。現在の多くのAgentは、観察、反応、再観察という反応型です。高リスクな作業では、行動の結果を事前にシミュレートする力が必要です。
第四の方向は具身化です。これまでの世代は主にデジタル空間で進化しました。API、画面、ファイル、ブラウザ、企業ツールです。次は、ロボット、デバイス制御、産業システム、物理インターフェースへ広がる可能性があります。
第5世代が解くべき問題は、Agentがタスクを実行するだけでなく、行動結果を理解し、長期状態を管理し、大きなリスク半径の中で信頼性を保つことです。
このタイムラインの背後にある6つの法則
第一に、基盤モデル能力は依然として天井です。Agentは大規模モデルの外にある魔法ではなく、モデル能力を工程システムで解放する方法です。
第二に、工程化された構造はモデル能力を増幅します。計画、検証、反省、修正、評価、権限管理は、単発生成よりも納品可能な結果に近いです。
第三に、オープンプロトコルは価値分配を変えます。MCP、Skills、プロジェクト文脈の標準が安定すると、競争はツール接続から領域能力の蓄積へ移ります。
第四に、Agent進化の隠れた主線は人間と機械の信頼境界の拡大です。テキスト、API、ワークフロー、PC操作、常駐実行へと、各世代でリスク半径が広がります。
第五に、各世代の事故は次世代の規則になります。AutoGPTの無限ループは構造化編成を促し、vibe codingの失敗は評価駆動開発を促し、本番削除事故は最小権限とサンドボックスを促します。
第六に、Agentエコシステムは爆発と絶滅を繰り返します。能力更新は一時的な中間層を作り、モデルやプラットフォームの内蔵化がそれを消します。時間窓を堀と誤解するのは危険です。
本当の堀
AI Agent領域の本当の堀は、新しい能力を最初に包装することではありません。
より信頼できる堀は3つです。
第一に、垂直領域の深さ。業界の流れ、リスク、例外、責任境界を本当に理解しているか。
第二に、データフライホイール。実利用から高品質なフィードバックを集め、プロセス、評価、微調整、製品判断を改善できるか。
第三に、ユーザー信頼。ユーザーが高価値で長期的、リスクのある仕事を任せるか、一回限りのツールとして扱うか。
プラットフォームや基盤モデルに能力が吸収された後も、プロセス、フィードバック、責任境界、信頼が残る製品だけが生き残りやすいです。
最後に
2022年から2026年までのAI Agent進化は、「モデルが会話上手になった」話ではありません。「人間がAIに任せる仕事が増えた」話です。
成熟したAgentとは、最も大胆に自動実行するシステムではありません。いつ実行し、いつ検証し、いつ止まり、いつ人に確認するかを知るシステムです。
あるAgent製品に長期価値があるかを判断するなら、こう問うべきです。次のモデルやプラットフォームがその能力を内蔵した後、何が残るのか。
答えが領域プロセス、実データ、検証可能な結果、ユーザー信頼なら、長期価値があるかもしれません。