Cómo comprobar si un modelo de Ollama ya se cargó en la GPU

Si quieres confirmar si un modelo de Ollama se está ejecutando realmente en la GPU, el método más directo es revisar la información de uso de procesador de los modelos cargados actualmente.

Comando

1

ollama ps

Salida de ejemplo

1
2


NAME        ID            SIZE    PROCESSOR   UNTIL
llama3:70b  bcfb190ca3a7  42 GB   100% GPU    4 minutes from now

Cómo interpretar la columna `PROCESSOR`

100% GPU: el modelo está cargado por completo en la memoria de la GPU.
100% CPU: el modelo está cargado por completo en la memoria del sistema (no usa GPU para inferencia).
48%/52% CPU/GPU: una parte del modelo está en memoria del sistema y otra en memoria de GPU; es una carga mixta.

Consejos prácticos

Si esperas usar GPU pero ves 100% CPU, revisa primero el driver de la tarjeta gráfica, el entorno CUDA/ROCm y los parámetros de ejecución de Ollama.
Cuando el modelo es grande y la memoria de GPU no alcanza, suele aparecer una carga mixta CPU/GPU.
Al diagnosticar problemas de rendimiento, ejecuta primero ollama ps y luego mira los datos de velocidad; así podrás ubicar antes el cuello de botella.

Resumen

ollama ps es el primer paso para saber si un modelo está usando realmente la GPU. Basta con fijarse en la columna PROCESSOR para confirmar rápidamente dónde está cargado el modelo y decidir la siguiente dirección de optimización.

Comando

Salida de ejemplo

Cómo interpretar la columna PROCESSOR

Consejos prácticos

Resumen

Cómo interpretar la columna `PROCESSOR`