Si quieres confirmar si un modelo de Ollama se está ejecutando realmente en la GPU, el método más directo es revisar la información de uso de procesador de los modelos cargados actualmente.
Comando
|
|
Salida de ejemplo
|
|
Cómo interpretar la columna PROCESSOR
100% GPU: el modelo está cargado por completo en la memoria de la GPU.100% CPU: el modelo está cargado por completo en la memoria del sistema (no usa GPU para inferencia).48%/52% CPU/GPU: una parte del modelo está en memoria del sistema y otra en memoria de GPU; es una carga mixta.
Consejos prácticos
- Si esperas usar GPU pero ves
100% CPU, revisa primero el driver de la tarjeta gráfica, el entorno CUDA/ROCm y los parámetros de ejecución de Ollama. - Cuando el modelo es grande y la memoria de GPU no alcanza, suele aparecer una carga mixta CPU/GPU.
- Al diagnosticar problemas de rendimiento, ejecuta primero
ollama psy luego mira los datos de velocidad; así podrás ubicar antes el cuello de botella.
Resumen
ollama ps es el primer paso para saber si un modelo está usando realmente la GPU. Basta con fijarse en la columna PROCESSOR para confirmar rápidamente dónde está cargado el modelo y decidir la siguiente dirección de optimización.