La idea es ejecutar el modelo Qwen3.6 GGUF con llama.cpp dentro de WSL2 y conectar Hermes Agent a una API local compatible con OpenAI. Asi puedes tener un asistente de IA local siempre disponible en tu propio ordenador, sin depender de cuotas de tokens de servicios online.
Esta solucion encaja con usuarios que quieren probar un AI Agent local y, al mismo tiempo, conservar privacidad de datos y control a largo plazo. Puede servir para preguntas diarias, escritura, ayuda con codigo, organizacion de informacion y automatizacion simple. Hay que tener en cuenta que cuanto mayor sea el modelo, mas VRAM necesitara; el ejemplo original usa Qwen3.6-27B y va mas estable con 24GB de VRAM. Si tienes menos VRAM, conviene elegir un modelo mas pequeno o una cuantizacion mas baja.
Estructura de la solucion
La cadena completa es sencilla:
- Instalar WSL2 y Ubuntu 24.04 en Windows.
- Instalar CUDA Toolkit y compilar
llama.cppdentro de WSL2. - Descargar el modelo Qwen3.6 GGUF.
- Iniciar el servicio local con
llama-server. - Instalar Hermes Agent y configurarlo hacia
http://localhost:8080/v1. - Opcional: escribir un script de inicio para arrancar el servicio del modelo al abrir WSL2.
Hermes aporta la capacidad de Agent, y Qwen3.6 aporta el LLM local. Combinados, convierten el ordenador en un asistente de IA local y privado.
Instalar WSL2 y Ubuntu
En una ventana de Windows PowerShell como administrador:
|
|
Despues de reiniciar, instala Ubuntu 24.04:
|
|
Al terminar, Ubuntu pedira usuario y contrasena. Ya dentro de Ubuntu, comprueba primero si la GPU NVIDIA se reconoce correctamente en WSL2:
|
|
Si no se reconoce la GPU, normalmente hay que actualizar primero el driver NVIDIA en Windows. WSL2 hereda el driver de Windows, pero CUDA Toolkit debe instalarse por separado dentro de WSL2.
Instalar Python y herramientas basicas
|
|
Tambien hacen falta herramientas de compilacion, Git y CMake:
|
|
Compilar llama.cpp
Clona primero el codigo:
|
|
Si WSL2 ya tiene un entorno CUDA utilizable, compila directamente:
|
|
CMAKE_CUDA_ARCHITECTURES=89 es adecuado para GPU Ada, por ejemplo la serie RTX 40. En otras tarjetas debes ajustarlo segun la arquitectura real.
Si al compilar aparece que falta CUDA Toolkit, instalalo primero dentro de WSL2:
|
|
Despues configura variables de entorno:
|
|
Y compila de nuevo:
|
|
Descargar el modelo Qwen3.6 GGUF
El ejemplo original usa Qwen3.6-27B-UD-Q4_K_XL.gguf de unsloth/Qwen3.6-27B-GGUF:
|
|
El archivo ronda los 17GB. Si Hugging Face descarga lento, puedes cambiar a espejos como ModelScope. Si no tienes suficiente VRAM, no fuerces 27B; usa un modelo mas pequeno o una cuantizacion mas baja.
Iniciar el servicio local del modelo
Arranca llama-server segun el nombre real de tu archivo de modelo:
|
|
Tras iniciar correctamente, abre en el navegador de Windows:
|
|
Para que Hermes Agent u otros clientes compatibles con OpenAI lo llamen, la direccion de API suele ser:
|
|
Elegir Thinking mode
Qwen3.6 puede activar Thinking mode por defecto. Es util para razonamiento complejo, problemas de codigo complicados y analisis de varios pasos, pero sera mas lento.
Si quieres desactivarlo, detén el servicio y agrega --chat-template-kwargs:
|
|
Sin Thinking, las preguntas simples, escritura, autocompletado de codigo y explicacion de codigo iran mas rapido; para algoritmos complejos, Debug dificil y analisis de arquitectura, sigue siendo recomendable activarlo.
Instalar Hermes Agent
Mantén llama-server en ejecucion y abre otra terminal WSL2 para instalar Hermes Agent:
|
|
El script instala dependencias como Python, Node.js, ripgrep y ffmpeg. Al configurar el endpoint del modelo, elige endpoint personalizado:
|
|
Para el llama-server local, la API Key puede ser cualquier valor de relleno. Tras configurarlo, puedes conectar Telegram, WeChat, QQ, Discord y otros canales para que Hermes Agent use el modelo local y ejecute tareas.
Arrancar automaticamente el servicio del modelo
Puedes escribir un script para iniciar el servicio al abrir la terminal WSL2.
Crea el script:
|
|
Escribe en .bashrc:
|
|
Asi, cada vez que abras WSL2, si llama-server no esta en ejecucion se iniciara automaticamente; si ya esta corriendo, se omitira para evitar duplicados.
Notas
- El modelo 27B exige bastante VRAM; 24GB va mas estable. Con menos VRAM, usa un modelo mas pequeno.
--ctx-size 65536aumenta mucho la presion de VRAM y RAM. Si no es estable, baja primero a32768o menos.- CUDA Toolkit dentro de WSL2 y el driver de Windows deben estar correctos; si falta uno, la compilacion o ejecucion CUDA puede fallar.
- Cuando Hermes Agent se conecta al servicio local, en esencia llama a una API compatible con OpenAI. Lo clave es que
http://localhost:8080/v1responda bien. - Si quieres acceder desde el telefono u otros dispositivos, debes configurar firewall de Windows, direccion LAN y aislamiento de seguridad. No expongas el servicio local directamente a Internet.
Enlaces relacionados
- Original: Hermes + Qwen3.6:本地最强 Agent 组合!零成本、无限 Token,太香了!
- llama.cpp: ggerganov/llama.cpp
- Hermes Agent: NousResearch/hermes-agent
- Ejemplo Qwen3.6 GGUF: unsloth/Qwen3.6-27B-GGUF