¿Cómo evolucionaron los AI Agents? Guía completa de cinco generaciones, 2022-2026

Sat, 16 May 2026 19:19:52 +0800

Los AI Agents no aparecieron de un día para otro.

A finales de 2022, ChatGPT era principalmente una ventana de chat. Para 2026, los agentes empezaron a tener llamadas de herramientas, operaciones con archivos, control del ordenador, memoria a largo plazo, colaboración remota y ejecución persistente. En cuatro años pasaron de “modelos que responden preguntas” a “trabajadores digitales que empujan tareas”.

Vistos en línea temporal, los AI Agents pasaron por unas cinco generaciones. Cada una resolvió una limitación de la anterior y creó nuevas burbujas y nuevos problemas de seguridad.

Resumen: cinco generaciones de Agents

Etapa	Tiempo	Palabra clave	Cambio de capacidad	Problema central
Generación 0	Finales de 2022 - inicio de 2023	Chat	Genera texto, pero no actúa	El modelo está separado del mundo real
Generación 1	Mitad de 2023 - final de 2023	Tool calling	Produce llamadas estructuradas, conecta API y RAG	Ejecución abierta y pérdida de dirección
Generación 2	Finales de 2023 - 2024	Workflows de ingeniería	Planificación, estado, reflexión y multi-agent	Workflows fáciles de copiar
Generación 3	2024 - 2025	Computer Use	Ve pantallas y opera GUI	Permisos, seguridad y errores de operación
Generación 4	2025 - 2026	MCP / Skills / persistencia	Red de herramientas, contexto largo y skills	La ejecución persistente amplía el riesgo
Generación 5	Después de 2026	Loops y world models	Más memoria, validación y acción física	Gobernanza más difícil

Finales de 2022: Generación 0, la era del chat de ChatGPT

La Generación 0 empieza con el lanzamiento de ChatGPT el 30 de noviembre de 2022.

Todavía no era un Agent real. Tenía gran capacidad de lenguaje, pero estaba encerrado en una ventana de chat. Podía escribir Python, pero no ejecutarlo en tu ordenador. Podía planificar un viaje, pero no comprar billetes. Podía explicar cómo editar un archivo, pero no entrar en el sistema de archivos y modificarlo.

Sus límites eran claros:

entender lenguaje natural;
generar artículos, respuestas, código y planes;
no acceder por sí mismo a datos recientes;
no leer de forma estable documentos internos de empresa;
no ejecutar acciones externas;
no gestionar estado de tareas largas.

El problema central era la desconexión entre capacidad del modelo y mundo real. Podía pensar y hablar, pero no actuar.

Esta etapa también creó la primera burbuja: prompt engineers, mercados de plantillas, cursos y certificaciones. Los modelos tempranos sí eran sensibles al prompt, pero el mercado confundió un parche temporal con una ventaja duradera.

Con modelos tipo GPT-4, system prompts, function calling y mejores valores por defecto, muchas plantillas perdieron escasez. El patrón se repitió después: una nueva capacidad crea una capa intermedia; la siguiente generación la incorpora; la capa intermedia desaparece.

Mitad de 2023: Generación 1, despierta el tool calling

La palabra clave de la Generación 1 es tool calling.

En junio de 2023, OpenAI lanzó function calling. Los desarrolladores podían describir nombres de funciones, usos, tipos de parámetros y JSON Schema. Tras entender la petición del usuario, el modelo podía devolver una llamada JSON estructurada, que un sistema externo ejecutaba.

El cambio arquitectónico fue enorme: el modelo pasó de ser un cerebro que solo habla a un cerebro que puede mover herramientas externas.

Capacidades clave:

elegir herramientas según la intención;
producir argumentos estructurados;
llamar API externas;
devolver resultados al modelo para seguir razonando;
usar RAG para acceder a conocimiento externo;
formar personas tempranas con plugins y bases de conocimiento.

Al mismo tiempo, RAG y las bases vectoriales se volvieron populares. Resolvieron el problema de información reciente, material privado e información interna. El sistema recupera fragmentos relevantes, los inyecta en el contexto y el modelo responde a partir de ellos.

La estructura básica del Agent quedó así:

quién eres: system prompt y persona;
qué sabes: base de conocimiento, RAG, documentos privados;
qué puedes hacer: function calling, plugins, API externas.

La burbuja más visible fue AutoGPT. La idea era atractiva: el usuario da un objetivo amplio, y la IA descompone tareas, busca, escribe archivos, evalúa, itera y se detiene cuando cree haber terminado.

Pero AutoGPT mostró pronto sus fallos. Le faltaban restricciones de estado, condiciones de parada y feedback fiable. Las tareas se desviaban, las API se llamaban con argumentos erróneos y los costes podían dispararse. La lección fue clara: herramientas más bucles infinitos no hacen un Agent de producción.

Finales de 2023 a 2024: Generación 2, workflows de ingeniería

El fracaso de AutoGPT enseñó que no basta con dejar improvisar al modelo. Las tareas complejas necesitan proceso.

La Generación 2 trata de workflows de ingeniería. El Agent deja de ser una llamada al modelo y se convierte en un sistema con estado, control de flujo y evaluación.

Capacidades clave:

planificación: dividir objetivos grandes en pasos;
gestión de estado: saber por dónde va la tarea;
reflexión y revisión: generar, evaluar y corregir;
orquestación de herramientas;
intervención humana en puntos críticos;
colaboración multi-agent.

El patrón típico es ReAct, o Reasoning + Acting. El modelo razona, llama una herramienta, observa el resultado y razona otra vez. Así cada paso tiene lógica auditable y feedback.

La Generación 2 puso la capacidad del modelo dentro de un proceso controlable. Un buen workflow puede producir resultados más estables que una única llamada a un modelo grande.

También apareció la burbuja de plataformas low-code para Agents. Interfaces visuales permitían combinar prompt, RAG, plugins y flujos. Bajaban la barrera de construcción, pero si un workflow puede copiarse barato, la plataforma tiene poco moat.

Capturar demanda temprana no equivale a tener una defensa duradera.

2024 a 2025: Generación 3, Computer Use entra en interfaces reales

La palabra clave de la Generación 3 es Computer Use.

Antes, el tool calling dependía de API. Lo que el Agent podía hacer dependía de lo que alguien hubiera conectado. Pero muchas aplicaciones reales no tienen API limpias, abiertas o completas.

Computer Use permite al modelo ver pantallas, hacer clic y operar GUI. La interfaz general del ordenador se convierte en herramienta.

Capacidades clave:

reconocer contenido en pantalla;
hacer clic, escribir texto y cambiar ventanas;
operar web y software de escritorio;
leer repositorios, editar archivos y ejecutar pruebas;
revisar terminal y errores;
acercarse a un asistente de ingeniería real.

Esto empujó al Agent de “usar herramientas conectadas” a “operar software como una persona”. También acercó los coding agents al flujo real: leer proyecto, cambiar código, correr pruebas y corregir por errores.

Pero la frontera de confianza creció. Si la IA opera un ordenador, puede hacer clic mal, borrar archivos, enviar formularios o ser manipulada por texto de páginas, documentos o interfaces. Prompt injection pasa a ser un problema de archivos, permisos y seguridad del sistema.

La lección de la Generación 3: cuanto más cerca esté el Agent de operaciones reales, más necesita sandbox, aprobaciones, rollback y mínimo privilegio.

2025 a 2026: Generación 4, MCP, Skills y trabajadores digitales persistentes

La Generación 4 se centra en persistencia, conexión, memoria y especialización.

El foco ya no es solo hacer mejor una tarea aislada. Los Agents empiezan a tener contexto a largo plazo, red de herramientas, skills profesionales y sentido del tiempo. Se parecen menos a un asistente de una conversación y más a un trabajador digital continuo.

MCP resuelve la conexión de herramientas. Permite conectar sistemas de archivos, bases de datos, navegadores, herramientas de diseño, gestión de proyectos y sistemas empresariales de forma más estándar. Cuando el protocolo se estabiliza, muchas capas intermedias de conexión se comprimen.

Skills resuelve el método profesional. Las herramientas dicen qué puede hacer el Agent; las skills dicen cómo debe hacerlo. Una buena skill no es solo un prompt: empaqueta flujo de dominio, restricciones, checks, errores comunes y orden de herramientas.

Capacidades clave:

memoria a largo plazo: preferencias, reglas de proyecto e historial;
contexto de proyecto: repositorios, documentación y normas;
red de herramientas: MCP, API, navegador y sistema de archivos;
skills profesionales: métodos de tarea empaquetados;
ejecución persistente: esperar, despertar, recordar y seguir;
colaboración remota: aprobar y ajustar desde otros dispositivos.

Esta generación empieza a tener sensación de empleado: identidad, límites de responsabilidad, contexto largo, método profesional, sentido del tiempo, permisos de herramientas y capacidad de avanzar sin supervisión constante.

Pero cuanto más se parece a un empleado, más se parece su radio de riesgo. Ejecución persistente, datos locales, secretos, llamadas a herramientas y tareas reales convierten la seguridad en un asunto central.

Hay un punto especialmente importante: el texto también es superficie de ataque. Si un Agent lee y obedece Markdown, documentación, skill packs o páginas web, texto malicioso puede cambiar su conducta. Prompt injection se vuelve problema de supply chain, permisos y ejecución.

La lección de la Generación 4: los Agents persistentes necesitan gobernanza, no solo capacidad.

Después de 2026: Generación 5, loops, memoria interna y world models

La Generación 5 todavía no es historia cerrada. Es una extrapolación de los cuatro años anteriores.

Un Agent maduro necesita al menos tres loops:

loop de ejecución: verificar tras cada acción, hacer rollback, corregir y reintentar;
loop temporal: seguir objetivos largos entre varios ciclos de activación;
loop cognitivo: distinguir información segura, suposiciones e información caducada.

La segunda dirección es memoria interna. Hasta ahora, gran parte de la memoria está fuera del modelo: RAG, vectores, historial, archivos locales, memory.md. Si los modelos futuros soportan estado persistente entre sesiones, la memoria de los Agents se rediseñará.

La tercera dirección son los world models. Muchos Agents actuales son reactivos: observar, responder, volver a observar. Las tareas de alto riesgo necesitan simular consecuencias antes de actuar.

La cuarta dirección es embodiment. Las generaciones anteriores vivían sobre todo en espacio digital: API, pantallas, archivos, navegador, herramientas empresariales. El siguiente paso puede llevar la acción a robots, dispositivos, sistemas industriales e interfaces físicas.

La Generación 5 tendrá que resolver cómo ejecutar tareas, entender consecuencias, gestionar estado largo y mantenerse fiable en un radio de riesgo mayor.

Seis reglas detrás de la línea temporal

Primera: la capacidad del modelo base sigue siendo el techo. Un Agent no es magia fuera del modelo, sino capacidad del modelo liberada mediante ingeniería.

Segunda: la arquitectura de ingeniería amplifica el modelo. Planificación, verificación, reflexión, corrección, evaluación y permisos se acercan más a resultados entregables que una generación única.

Tercera: los protocolos abiertos redistribuyen valor. Cuando MCP, Skills y contexto de proyecto se estabilizan, la competencia pasa de conectar herramientas a acumular capacidad real de dominio.

Cuarta: la línea oculta es la ampliación de la confianza humano-máquina. Texto, API, workflows, ordenador y ejecución persistente amplían cada vez más el radio de riesgo.

Quinta: cada accidente se convierte en regla para la siguiente generación. Los bucles de AutoGPT empujaron la orquestación; los fallos de vibe coding empujaron evaluación; los borrados en producción empujaron permisos mínimos y sandbox.

Sexta: el ecosistema Agent alterna explosión y extinción. Las nuevas capacidades crean capas temporales; los modelos o plataformas las incorporan después. Confundir una ventana temporal con un moat es peligroso.

El moat real

El moat real en AI Agents no es empaquetar primero una nueva capacidad.

Hay tres moats más fiables.

Primero, profundidad vertical. ¿Entiendes de verdad el flujo, riesgos, excepciones y responsabilidades de una industria?

Segundo, data flywheel. ¿Puedes acumular feedback real de alta calidad y mejorar procesos, evaluación, fine-tuning y decisiones de producto?

Tercero, confianza del usuario. ¿Te entregan trabajo de más valor, más largo y más riesgoso, o solo te usan como herramienta puntual?

Cuando una plataforma o modelo base absorbe una capacidad, los productos que aún conservan procesos, feedback, límites de responsabilidad y confianza tienen más probabilidades de sobrevivir.

Cierre

De 2022 a 2026, la evolución de AI Agents no fue “modelos que chatean mejor”. Fue “humanos dispuestos a entregar más trabajo a la IA”.

Un Agent maduro no es el sistema que más se atreve a ejecutar. Es el sistema que sabe cuándo ejecutar, cuándo verificar, cuándo pausar y cuándo pedir confirmación humana.

Para juzgar si un producto Agent tiene valor a largo plazo, pregunta: cuando el próximo modelo o plataforma incorpore esta capacidad, ¿qué queda?

Si la respuesta es proceso de dominio, datos reales, resultados verificables y confianza del usuario, puede haber valor duradero.

Function Calling on KnightLi Blog

¿Cómo evolucionaron los AI Agents? Guía completa de cinco generaciones, 2022-2026

Resumen: cinco generaciones de Agents

Finales de 2022: Generación 0, la era del chat de ChatGPT

Mitad de 2023: Generación 1, despierta el tool calling

Finales de 2023 a 2024: Generación 2, workflows de ingeniería

2024 a 2025: Generación 3, Computer Use entra en interfaces reales

2025 a 2026: Generación 4, MCP, Skills y trabajadores digitales persistentes

Después de 2026: Generación 5, loops, memoria interna y world models

Seis reglas detrás de la línea temporal

El moat real

Cierre