Actualización llama.cpp b9196: los binarios precompilados para Windows soportan CUDA 13.1, Vulkan, HIP y SYCL

La versión reciente de llama.cpp para Windows es más amigable para usuarios de LLM locales. Antes, ejecutar modelos GGUF en Windows solía atascarse por problemas de entorno: versiones de CUDA incompatibles, DLL faltantes, drivers no compatibles, fallos de compilación con CMake, variables de entorno incorrectas o configuración complicada de Vulkan / HIP / SYCL.

Ahora la página oficial de Release ofrece varios paquetes precompilados para Windows. En muchos casos ya no hace falta compilar desde código fuente. Descargas la versión correcta, la descomprimes, colocas el archivo del modelo y puedes arrancar directamente un servicio local de inferencia.

Para qué sirve llama.cpp

llama.cpp es uno de los frameworks más usados para inferencia local con modelos GGUF. Es ligero, multiplataforma, puede usar CPU o GPU, y alrededor de GGUF ya existe un ecosistema amplio de modelos.

Familias de modelos comunes:

Qwen
Llama
DeepSeek
Gemma
Mistral
Mixtral
Hermes

A medida que los modelos cuantizados en GGUF se popularizan, muchos modelos open source publican versiones GGUF aptas para despliegue local. Para usuarios normales, el valor de llama.cpp está en que no necesitas montar un stack de inferencia complejo para correr un servicio de chat usable en tu propia máquina.

Cómo elegir una versión precompilada para Windows

Los usuarios de Windows pueden elegir distintos builds según su hardware:

Windows x64 CPU
Windows x64 CUDA 12.4
Windows x64 CUDA 13.1
Windows x64 Vulkan
Windows x64 HIP Radeon
Windows x64 SYCL
Windows ARM64 CPU

Si usas una GPU NVIDIA, normalmente conviene priorizar la versión CUDA. Tarjetas como RTX 3060, 4060, 4070, 4080 y 4090 encajan mejor con la ruta CUDA.

Si usas una GPU AMD, puedes probar HIP o Vulkan. En la práctica, Vulkan a veces resulta más sencillo que HIP, sobre todo si no quieres montar un entorno ROCm completo.

Si usas gráficos integrados Intel o una GPU Arc, puedes probar SYCL o Vulkan. El rendimiento suele quedar por detrás de NVIDIA CUDA, pero ya basta para probar muchos modelos GGUF pequeños y medianos.

La versión CPU sirve para usuarios sin GPU dedicada o para quienes solo quieren verificar un modelo o correr modelos pequeños. No será rápida, pero es la ruta más simple.

Arrancar un modelo GGUF normal

Supongamos que ya descargaste el paquete precompilado de llama.cpp para Windows y colocaste el modelo en el directorio models. Entra en la carpeta descomprimida de llama.cpp y ejecuta:

1

llama-server.exe -m models\your-model.gguf -ngl 999

Aquí -m apunta al archivo GGUF, y -ngl 999 intenta cargar la mayor cantidad posible de capas en la GPU. Cuántas se cargan realmente depende de la VRAM, el tamaño del modelo y el formato de cuantización.

Cuando arranque correctamente, abre en el navegador:

1

http://127.0.0.1:8080

Entrarás en la interfaz web local de chat.

Si la VRAM no alcanza, cambia a un modelo más pequeño o a una cuantización más baja, como archivos GGUF Q4 o Q5. No mires solo el número de parámetros; revisa también el formato de cuantización y la longitud de contexto.

Arrancar un modelo visual multimodal

Los modelos visuales multimodales normalmente necesitan algo más que el archivo principal. También necesitan un archivo de proyección visual mmproj. Al arrancar, especifica ambos:

1

llama-server.exe -m "models\main-model.gguf" --mmproj "models\mmproj-model.gguf" -ngl 999

Usos comunes:

Reconocimiento OCR
Comprensión de capturas de pantalla
Análisis de capturas de páginas web
Preguntas y respuestas sobre imágenes
Juicio simple de contenido visual

Por ejemplo, modelos como Qwen2-VL / Qwen2.5-VL son útiles para entender capturas en chino, OCR y preguntas sobre imágenes. Asegúrate de que el modelo principal y el archivo mmproj correspondan entre sí; una versión no compatible puede causar fallos de carga o resultados extraños.

Gestionar varios modelos con un script bat

Si tienes varios modelos locales, puedes escribir un .bat sencillo para alternarlos con un menú. Este ejemplo requiere cambiar ruta y nombres de modelos por los tuyos:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16


@echo off
chcp 65001 >nul
cd /d C:\path\to\llama-b9196-bin-win-cuda-13.1-x64

echo 请选择模型：
echo 1. Gemma
echo 2. Qwen VL 多模态
echo 3. DeepSeek

set /p choice=输入数字：

if "%choice%"=="1" llama-server.exe -m "models\gemma.gguf" -ngl 999
if "%choice%"=="2" llama-server.exe -m "models\qwen-vl.gguf" --mmproj "models\mmproj.gguf" -ngl 999
if "%choice%"=="3" llama-server.exe -m "models\deepseek.gguf" -ngl 999

pause

Guárdalo en UTF-8 y luego cambia la extensión a .bat. Al hacer doble clic, podrás elegir distintos modelos por número.

Tres cosas que mirar al elegir modelos

Primero, el hardware. Cuanta más VRAM tengas, modelos más grandes podrás correr. Si la VRAM es limitada, no fuerces un modelo grande; empieza con 7B, 8B o una cuantización más baja.

Segundo, el uso. Para preguntas diarias, resúmenes y reescritura, un modelo pequeño o una cuantización media suele bastar. Para código, análisis de documentos largos o comprensión multimodal, necesitas modelos más fuertes y más VRAM.

Tercero, licencias y límites de seguridad. En internet hay muchos modelos modificados por la comunidad, con capacidades, restricciones y licencias distintas. Antes de descargar, confirma origen, licencia, escenario de uso y riesgos. No conviene entregar tareas de producción directamente a modelos de origen poco claro.

Problemas comunes

Si al arrancar aparece un error de DLL faltante, primero confirma que el paquete descargado corresponde a tu ruta de GPU. Los usuarios de NVIDIA no deberían descargar por error la versión HIP, y los usuarios de AMD no deberían descargar la versión CUDA.

Si el modelo carga muy lento, puede ser demasiado grande, el disco puede ser lento, o parte de las capas puede estar cayendo a CPU por falta de VRAM.

Si la página web no abre, revisa primero si el servicio arrancó correctamente en la consola y confirma que el puerto sea 8080. Si el puerto está ocupado, consulta los parámetros de llama-server para cambiarlo.

Si un modelo multimodal da resultados raros, revisa primero si el archivo mmproj corresponde al modelo principal, antes de limitarte a cambiar prompts.

Resumen

El valor de estos paquetes precompilados para Windows está en bajar la barrera de entrada a la IA local. Antes muchos usuarios se quedaban atrapados en compilación y dependencias; ahora pueden llegar más rápido a descargar modelos, arrancar un servicio y probar resultados.

Para usuarios de Windows, la ruta puede resumirse así:

NVIDIA: prioriza CUDA.
AMD: prueba primero Vulkan, luego HIP.
Intel: prueba SYCL o Vulkan.
Sin GPU dedicada: usa la versión CPU para modelos pequeños.

Antes de usarlo en serio, confirma origen del modelo, licencia, requisitos de VRAM y resultados reales. La IA local ofrece control, uso offline y baja latencia, pero no significa coste cero: gestión de modelos, recursos de hardware y calidad de salida siguen siendo responsabilidad tuya.

Fuente: https://www.freedidi.com/24211.html