Cómo comprobar si un modelo de Ollama ya se cargó en la GPU

Usa `ollama ps` para comprobar rápidamente si un modelo se está ejecutando en GPU, CPU o memoria mixta CPU/GPU, y entiende el significado de la columna `PROCESSOR`.

Si quieres confirmar si un modelo de Ollama se está ejecutando realmente en la GPU, el método más directo es revisar la información de uso de procesador de los modelos cargados actualmente.

Comando

1
ollama ps

Salida de ejemplo

1
2
NAME        ID            SIZE    PROCESSOR   UNTIL
llama3:70b  bcfb190ca3a7  42 GB   100% GPU    4 minutes from now

Cómo interpretar la columna PROCESSOR

  • 100% GPU: el modelo está cargado por completo en la memoria de la GPU.
  • 100% CPU: el modelo está cargado por completo en la memoria del sistema (no usa GPU para inferencia).
  • 48%/52% CPU/GPU: una parte del modelo está en memoria del sistema y otra en memoria de GPU; es una carga mixta.

Consejos prácticos

  1. Si esperas usar GPU pero ves 100% CPU, revisa primero el driver de la tarjeta gráfica, el entorno CUDA/ROCm y los parámetros de ejecución de Ollama.
  2. Cuando el modelo es grande y la memoria de GPU no alcanza, suele aparecer una carga mixta CPU/GPU.
  3. Al diagnosticar problemas de rendimiento, ejecuta primero ollama ps y luego mira los datos de velocidad; así podrás ubicar antes el cuello de botella.

Resumen

ollama ps es el primer paso para saber si un modelo está usando realmente la GPU. Basta con fijarse en la columna PROCESSOR para confirmar rápidamente dónde está cargado el modelo y decidir la siguiente dirección de optimización.

记录并分享
Creado con Hugo
Tema Stack diseñado por Jimmy