Qué modelos locales de IA puede ejecutar un portátil RTX 4060 8GB

Fri, 08 May 2026 13:41:15 +0800

Un portátil con RTX 4060 8GB puede ejecutar IA local, pero el límite es claro: lo importante no es si el modelo arranca, sino si cabe en VRAM. La versión móvil también depende de potencia, refrigeración, ancho de banda de memoria y ajustes del fabricante.

En 2026, 8GB de VRAM siguen siendo la línea de entrada para IA local. Con modelos cuantizados y herramientas adecuadas, puedes ejecutar LLM de 3B-8B, SDXL, SD 1.5, algunos flujos FLUX cuantizados, Whisper y extracción de características de imagen. Si fuerzas LLM de 14B+, modelos grandes sin cuantizar o flujos de imagen pesados, el rendimiento cae cuando se usa memoria del sistema.

Resumen: no persigas el modelo más grande. Usa modelos pequeños, pesos cuantizados y flujos de baja VRAM.

Presupuesto de VRAM

Windows 11, navegadores, drivers y procesos de fondo ya consumen memoria de GPU. El presupuesto real suele estar más cerca de 6.5GB-7.2GB que de los 8GB completos.

LLM: 3B-8B con cuantización 4-bit.
Imagen: SDXL, SD 1.5 y FLUX GGUF/NF4 low-VRAM.
Multimodal: modelos ligeros de unos 4B.
Voz: Whisper large-v3 funciona, pero los lotes largos calientan.
Indexación: CLIP, ViT y SigLIP encajan muy bien.

Un modelo pequeño completo en GPU suele ir mejor que uno grande con mucho offload.

LLM: modelos cuantizados de 3B-8B

Para chat y razonamiento local, usa Ollama, LM Studio, koboldcpp, llama.cpp u otro frontend compatible con GGUF. El punto cómodo en 8GB es 3B-8B en 4-bit.

Ligero general: Gemma 4 E4B

Gemma 4 E4B es uno de los modelos pequeños de la familia Gemma 4 de Google lanzada en 2026. Es adecuado para uso local y edge: preguntas, resúmenes, organización ligera, tareas multimodales simples e inferencia barata.

En una RTX 4060 de portátil, empieza por una versión cuantizada oficial o comunitaria. No comiences con los pesos de mayor precisión.

Razonamiento: DeepSeek R1 Distill 7B/8B, Qwen 3 8B

Para lógica, matemáticas, análisis complejo y texto largo, prueba DeepSeek R1 distill 7B/8B o Qwen 3 8B cuantizado.

Con Q4_K_M, los modelos de 8B suelen entrar en el presupuesto de una GPU de 8GB. La velocidad depende del contexto, backend, driver y modo de energía.

No empieces con 14B, 32B o más. Aunque arranquen con CPU offload, la experiencia suele ser peor que con un modelo menor completamente en GPU.

Código: Qwen 2.5 Coder 3B/7B

Qwen 2.5 Coder 3B es rápido y útil para autocompletado, explicación y generación pequeña. El 7B entiende mejor, pero consume más VRAM y tarda más.

Autocompletado: 3B.
Q&A y explicación: 3B o 7B.
Refactors pequeños: 7B cuantizado.
Arquitectura grande: no esperes meter todo el proyecto en 8GB.

Imagen: SDXL estable, FLUX cuantizado

SD 1.5 es muy amigable con 8GB, rápido y maduro. SDXL consume más pero sigue siendo viable.

Herramientas:

ComfyUI
Stable Diffusion WebUI Forge
Fooocus

FLUX ofrece mejor calidad y comprensión de prompt, pero los modelos originales son pesados. En 8GB usa GGUF, NF4, FP8 u otras rutas low-VRAM con ComfyUI-GGUF.

Consejos:

Usa FLUX.1 schnell GGUF Q4/Q5.
Reduce resolución o batch size.
Usa --lowvram en ComfyUI.
No combines demasiados LoRA, ControlNet y hi-res fix.
Vigila si la VRAM se libera al cambiar de workflow.

Puedes probar 1024px, pero no copies flujos pensados para GPUs de 16GB/24GB.

Multimodal y utilidades

Whisper large-v3 sirve para transcripción de audio. Para lotes largos, activa modo rendimiento y cuida la temperatura.

Para un sistema de búsqueda de fotos, la RTX 4060 8GB es muy adecuada. CLIP, ViT y SigLIP no consumen VRAM extrema y procesan miles de imágenes con rapidez.

Flujo típico:

Extraer embeddings con CLIP/ViT/SigLIP.
Guardarlos en SQLite o una base vectorial.
Buscar por texto o imagen similar.
Usar un LLM pequeño para etiquetas, descripciones o resúmenes.

Combos recomendados

Ollama / LM Studio
+ Gemma 4 E4B cuantizado
+ DeepSeek R1 Distill 7B/8B Q4
+ Qwen 3 8B Q4

1
2
3

Qwen 2.5 Coder 3B
+ Qwen 2.5 Coder 7B Q4
+ Continue / Cline / servidor local OpenAI-compatible

ComfyUI / Forge
+ SDXL
+ SD 1.5
+ FLUX.1 schnell GGUF Q4/Q5

1
2
3

CLIP / SigLIP / ViT
+ SQLite / FAISS / LanceDB
+ Gemma 4 E4B o Phi-4 Mini para organizar texto

Errores comunes

Escenario	Consejo
Modelos grandes	Evita 14B+ salvo que aceptes lentitud
Cuantización	Empieza con `Q4_K_M`; prueba Q5 si necesitas calidad
VRAM	Monitoriza con Task Manager o `nvidia-smi`
Temperatura	Usa modo rendimiento para imagen y lotes
Resolución	Empieza con 768px o una imagen 1024px
Navegador	Cierra pestañas pesadas en GPU
Driver	Mantén NVIDIA actualizado
Workflows	No copies flujos ComfyUI de 16GB/24GB directamente

Mi recomendación

Un portátil RTX 4060 8GB es una plataforma local de entrada con buena relación coste/rendimiento. Encaja con LLM 3B-8B, modelos pequeños de código, SDXL, SD 1.5, FLUX cuantizado, Whisper, búsqueda vectorial de imágenes y gestión local de fotos.

No encaja bien con uso prolongado de 14B/32B, modelos grandes sin cuantizar, FLUX por lotes de alta resolución, generación de video grande o muchos modelos residentes a la vez.

Para búsqueda de fotos, usa la GPU para extracción CLIP/SigLIP y etiquetado con modelos pequeños, y guarda vectores en SQLite, FAISS o LanceDB.

VRAM Optimization on KnightLi Blog