¿Qué son las habilidades de los agentes? Desde los principios de diseño hasta la optimización del contexto

Una descripción general de los principios básicos de diseño de Agent Skills, la divulgación progresiva y el impacto práctico en la optimización de los costos del contexto.

Agent Skills es una forma estandarizada de empaquetar conocimientos procesales. En resumen, responde no sólo a “si existen herramientas” sino también a “cómo utilizarlas correcta y eficazmente”.

1. Principios básicos de diseño

El valor central de Agent Skills es que captura una metodología reutilizable:

  • Proporciona conocimiento del dominio para guiar cómo los agentes combinan e invocan herramientas en escenarios específicos.
  • Restringe las rutas de ejecución, reduciendo el ensayo y error y mejorando la coherencia.
  • Hace que los flujos de trabajo complejos sean reutilizables e iterativos, formando SOP estables a lo largo del tiempo.

Si la capacidad de la herramienta es como una interfaz de hardware, Skills se acerca más a un manual de operaciones más un manual de mejores prácticas, que define qué se debe hacer y cómo.

2. Divulgación progresiva: resolver el cuello de botella del contexto

La innovación clave en Agent Skills es la divulgación progresiva: cargue información solo cuando sea necesario, en lugar de enviar todo a la ventana contextual a la vez.

2.1 Capa 1: Metadatos

Cada habilidad generalmente se almacena en su propia carpeta, con SKILL.md como archivo principal. Este archivo comienza con la información preliminar de YAML que define la información básica de habilidades.

Al inicio, el agente lee solo la parte frontal de todas las habilidades e inyecta esos metadatos en el indicador del sistema. En la práctica:

  • Los metadatos de una habilidad cuestan alrededor de “100 tokens”.
  • 50 habilidades cuestan alrededor de “5000 fichas”.

2.2 Capa 2: Instrucciones

Cuando una habilidad se considera muy relevante para la tarea actual, el agente lee el SKILL.md completo y carga instrucciones detalladas, notas y ejemplos.

El uso de tokens en esta capa depende de la complejidad de las instrucciones, normalmente:

  • 1000 a 5000 tokens

2.3 Capa 3: Recursos adicionales (guiones y referencias)

Para habilidades más complejas, SKILL.md puede hacer referencia a scripts, archivos de configuración y documentos, que se cargan solo cuando es necesario.

Ejemplo de estructura de directorio:

1
2
3
4
5
6
7
skills/pdf-processing/
├── SKILL.md                 # Main skill file
├── parse_pdf.py             # PDF parsing script
├── forms.md                 # Form-filling guide (loaded only for form tasks)
└── templates/
    ├── invoice.pdf
    └── report.pdf

Patrón de invocación típico:

  • Ejecute parse_pdf.py cuando sea necesario analizar PDF
  • Cargue forms.md solo para tareas de llenado de formularios
  • Acceda a archivos de plantilla solo cuando genere formatos de salida específicos

3. Por qué funciona este diseño

3.1 Capacidad de conocimiento escalable

Con scripts y archivos externos, una habilidad puede llevar el conocimiento mucho más allá de los límites de la ventana contextual. Por ejemplo, una habilidad de análisis de datos puede incluir un conjunto de datos de “1 GB” más scripts de consulta, y el agente puede acceder a los datos mediante la ejecución en lugar de cargar todo el conjunto de datos en contexto.

3.2 Determinismo más fuerte

Delegar cálculos complejos, transformación de datos y análisis de formatos al código reduce significativamente la incertidumbre y el riesgo de alucinaciones en la generación de texto puro.

4. Impacto práctico: de 16k a 500 tokens

La práctica comunitaria muestra que la Divulgación Progresiva puede reducir drásticamente los gastos generales del contexto inicial:

  • Enfoque MCP tradicional: conéctese directamente a un servidor MCP con muchas definiciones de herramientas, alrededor de “16 000 tokens” en la inicialización
  • Con paquete de habilidades: use una habilidad de puerta de enlace liviana que se describe principalmente al principio, alrededor de “500 tokens” en la inicialización.

Las instrucciones detalladas y los recursos adicionales se cargan sólo cuando la tarea realmente los requiere. Esto reduce el costo inicial y mejora la precisión de la gestión del contexto durante la conversación.

Resumen

El valor clave de Agent Skills es pasar de “las herramientas están disponibles” a “las capacidades son reutilizables”. Con Progressive Disclosure, los sistemas pueden preservar la profundidad de la capacidad y al mismo tiempo optimizar significativamente el costo del token y la estabilidad de la ejecución.

记录并分享
Creado con Hugo
Tema Stack diseñado por Jimmy