La parte más importante de esta actualización del Codex no es que agregó otro botón común y corriente. Es que el Codex está empezando a avanzar hacia “controlar la computadora”.
En el pasado, usar IA generalmente significaba hacer preguntas en un cuadro de chat, copiar, pegar y luego operar manualmente el software.
Ahora ese límite se está ampliando: la IA no solo te responde. Puede operar aplicaciones de escritorio según su objetivo.
A corto plazo, esta es una característica nueva. A largo plazo, puede cambiar la cantidad de personas que usan computadoras.
¿Qué es esta característica?
En pocas palabras, la capacidad de uso de computadoras de Codex le permite acceder y operar el entorno de escritorio.
Puede hacer cosas como:
- seleccionar y controlar una aplicación
- recibir tareas en lenguaje natural
- abrir navegadores, herramientas de inteligencia artificial, archivos locales u otro software
- ingrese texto, haga clic en botones y espere resultados
- conectar varios pasos en una tarea
- seguir ejecutándose en segundo plano sin necesidad de que el usuario siga cada paso manualmente
Su función no es solo escribir un texto para usted, sino también completar un flujo de operación para usted.
Esa es la diferencia clave entre un Agente y un chatbot común y corriente:
un chatbot da principalmente respuestas; un Agente está más cerca de “recibir un objetivo y luego ejecutarlo”.
Por qué esto es importante
En el pasado, gran parte de la automatización requería que supieras escribir guiones.
Por ejemplo, supongamos que desea completar un flujo de trabajo entre software:
- abrir una página web
- encontrar información
- copiar contenido
- pásalo a otra herramienta de IA
- guardar un archivo
- abre el directorio local y comprueba el resultado
Para automatizar esto de forma tradicional, es posible que necesite scripts de navegador, API, programas locales e incluso automatización de ventanas.
Pero muchos usuarios comunes y corrientes no saben cómo escribir estas cosas.
Incluso si lo hacen, puede que no valga la pena escribir un guión para una tarea temporal.
Aquí es donde importa el uso de la computadora: empuja la “capacidad similar a un script” hacia el lenguaje natural.
No es necesario que le diga exactamente dónde hacer clic.
Puede decirle qué resultado desea y dejar que intente completar la tarea.
Flujos de trabajo que pueden cambiar
Creo que los primeros flujos de trabajo que cambiarán no serán trabajos extremadamente serios o de alto riesgo, sino tareas molestas, fragmentadas, repetitivas y para las que no vale la pena escribir un programa dedicado.
1. Mover información a través del software
El caso más típico es el de mover información entre aplicaciones.
Anteriormente, podía alternar entre un navegador, un documento, una ventana de chat y una carpeta local.
En el futuro, podrás encargar este tipo de tarea a un Agente:
- encontrar cierto tipo de información
- resumirlo en un documento
- guárdelo en un directorio específico
- abre el resultado para que lo revises
Este trabajo no es difícil, pero requiere atención.
El valor de un Agente es que absorbe estas pequeñas operaciones.
2. Coordinación entre múltiples herramientas de IA
El flujo de trabajo real de muchas personas ya no se basa en una única herramienta de inteligencia artificial.
Puede verse así:
- una herramienta escribe código
- una herramienta busca información
- una herramienta genera imágenes
- una herramienta organiza documentos
Anteriormente, estas herramientas se conectaban mediante copiar y pegar manualmente.
En el futuro, un Agente puede convertirse en la capa intermedia: abre herramientas, pasa contexto, espera resultados y organiza resultados.
Esto puede convertir “múltiples herramientas de IA trabajando juntas” de un proceso manual a un proceso semiautomático.
3. Automatización del software de oficina
Las hojas de cálculo, las presentaciones, los documentos y el correo electrónico comparten una característica: son potentes, pero muchas operaciones están fragmentadas.
Si los agentes pueden controlar este software de forma fiable, la barrera a la automatización de oficinas disminuirá notablemente.
No es necesario recordar dónde está un menú ni aprender atajos complicados.
Solo necesitas describir el objetivo, como por ejemplo:
- convierta esta hoja de cálculo en un informe mensual
- hacer un resumen de una página de este documento
- combinar estos materiales en una explicación claramente estructurada
Las tediosas operaciones de los botones quedarán gradualmente ocultas detrás del lenguaje natural.
Qué significa para los usuarios comunes
Para los usuarios comunes, este tipo de característica puede tener un impacto más directo que “el modelo se volvió un poco más inteligente”.
Porque reduce la barrera operativa, no sólo la barrera del conocimiento.
Muchas personas pueden describir lo que quieren, pero no saben dónde hacer clic o cómo combinar funciones dentro del software.
Si los Agentes pueden hacerse cargo de esta parte, el uso de una computadora puede convertirse en:
|
|
Esto está más cerca de la productividad real que un simple chat.
Su impacto en el software
Si este tipo de capacidad del Agente continúa madurando, el software en sí también se verá afectado.
En el pasado, el diseño de software se basaba principalmente en el clic humano.
En el futuro, es posible que también sea necesario que el software sirva para la operación del Agente.
Esto significa:
- los elementos de la interfaz deben ser más claros
- la retroalimentación de operación debe ser más estable
- los permisos locales deben ser más granulares
- el software puede proporcionar interfaces más adecuadas para las llamadas de los agentes
- A los usuarios les puede interesar más si la IA puede operar el software sin problemas
A largo plazo, los límites entre las aplicaciones pueden volverse más delgados.
Es posible que a los usuarios les importe menos “qué aplicación debo abrir” y más “qué tarea quiero completar”.
No lo exageres todavía
Por supuesto, todavía no es momento de dejarlo ir por completo.
Este tipo de capacidad todavía tiene varias limitaciones claras:
- la estabilidad aún necesita observación
- las tareas complejas pueden fallar en el medio
- los límites de los permisos deben manejarse con cuidado
- Las operaciones de eliminación de cuentas, pagos y archivos no deben delegarse a la ligera.
- el consumo de cuotas no es algo que puedas ignorar por completo
Entonces, en esta etapa, el mejor caso de uso es no dejar que se haga cargo de toda la computadora, sino permitir que maneje tareas de bajo riesgo, revisables y con muchos pasos.
Por ejemplo:
- organización de materiales
- generar borradores
- mover contenido entre herramientas
- abrir y comprobar archivos
- ejecutar flujos de trabajo semiautomáticos que pueden ser revisados por un humano
Una última línea
La verdadera importancia de esta actualización del Codex es que empuja a la IA de “responder preguntas” a “operar el entorno”.
A corto plazo, es una característica del uso de la computadora.
A largo plazo, puede marcar un cambio en la forma en que se utilizan las computadoras personales.
En el futuro, es posible que dediquemos menos tiempo a recordar botones, buscar menús y cambiar de ventana.
Más a menudo, describiremos el objetivo, dejaremos que un Agente lo ejecute y luego dejaremos que los humanos tomen el juicio final.