Un portátil con RTX 4060 8GB puede ejecutar IA local, pero el límite es claro: lo importante no es si el modelo arranca, sino si cabe en VRAM. La versión móvil también depende de potencia, refrigeración, ancho de banda de memoria y ajustes del fabricante.
En 2026, 8GB de VRAM siguen siendo la línea de entrada para IA local. Con modelos cuantizados y herramientas adecuadas, puedes ejecutar LLM de 3B-8B, SDXL, SD 1.5, algunos flujos FLUX cuantizados, Whisper y extracción de características de imagen. Si fuerzas LLM de 14B+, modelos grandes sin cuantizar o flujos de imagen pesados, el rendimiento cae cuando se usa memoria del sistema.
Resumen: no persigas el modelo más grande. Usa modelos pequeños, pesos cuantizados y flujos de baja VRAM.
Presupuesto de VRAM
Windows 11, navegadores, drivers y procesos de fondo ya consumen memoria de GPU. El presupuesto real suele estar más cerca de 6.5GB-7.2GB que de los 8GB completos.
- LLM: 3B-8B con cuantización 4-bit.
- Imagen: SDXL, SD 1.5 y FLUX GGUF/NF4 low-VRAM.
- Multimodal: modelos ligeros de unos 4B.
- Voz: Whisper large-v3 funciona, pero los lotes largos calientan.
- Indexación: CLIP, ViT y SigLIP encajan muy bien.
Un modelo pequeño completo en GPU suele ir mejor que uno grande con mucho offload.
LLM: modelos cuantizados de 3B-8B
Para chat y razonamiento local, usa Ollama, LM Studio, koboldcpp, llama.cpp u otro frontend compatible con GGUF. El punto cómodo en 8GB es 3B-8B en 4-bit.
Ligero general: Gemma 4 E4B
Gemma 4 E4B es uno de los modelos pequeños de la familia Gemma 4 de Google lanzada en 2026. Es adecuado para uso local y edge: preguntas, resúmenes, organización ligera, tareas multimodales simples e inferencia barata.
En una RTX 4060 de portátil, empieza por una versión cuantizada oficial o comunitaria. No comiences con los pesos de mayor precisión.
Razonamiento: DeepSeek R1 Distill 7B/8B, Qwen 3 8B
Para lógica, matemáticas, análisis complejo y texto largo, prueba DeepSeek R1 distill 7B/8B o Qwen 3 8B cuantizado.
Con Q4_K_M, los modelos de 8B suelen entrar en el presupuesto de una GPU de 8GB. La velocidad depende del contexto, backend, driver y modo de energía.
No empieces con 14B, 32B o más. Aunque arranquen con CPU offload, la experiencia suele ser peor que con un modelo menor completamente en GPU.
Código: Qwen 2.5 Coder 3B/7B
Qwen 2.5 Coder 3B es rápido y útil para autocompletado, explicación y generación pequeña. El 7B entiende mejor, pero consume más VRAM y tarda más.
- Autocompletado: 3B.
- Q&A y explicación: 3B o 7B.
- Refactors pequeños: 7B cuantizado.
- Arquitectura grande: no esperes meter todo el proyecto en 8GB.
Imagen: SDXL estable, FLUX cuantizado
SD 1.5 es muy amigable con 8GB, rápido y maduro. SDXL consume más pero sigue siendo viable.
Herramientas:
- ComfyUI
- Stable Diffusion WebUI Forge
- Fooocus
FLUX ofrece mejor calidad y comprensión de prompt, pero los modelos originales son pesados. En 8GB usa GGUF, NF4, FP8 u otras rutas low-VRAM con ComfyUI-GGUF.
Consejos:
- Usa FLUX.1 schnell GGUF Q4/Q5.
- Reduce resolución o batch size.
- Usa
--lowvramen ComfyUI. - No combines demasiados LoRA, ControlNet y hi-res fix.
- Vigila si la VRAM se libera al cambiar de workflow.
Puedes probar 1024px, pero no copies flujos pensados para GPUs de 16GB/24GB.
Multimodal y utilidades
Whisper large-v3 sirve para transcripción de audio. Para lotes largos, activa modo rendimiento y cuida la temperatura.
Para un sistema de búsqueda de fotos, la RTX 4060 8GB es muy adecuada. CLIP, ViT y SigLIP no consumen VRAM extrema y procesan miles de imágenes con rapidez.
Flujo típico:
- Extraer embeddings con CLIP/ViT/SigLIP.
- Guardarlos en SQLite o una base vectorial.
- Buscar por texto o imagen similar.
- Usar un LLM pequeño para etiquetas, descripciones o resúmenes.
Combos recomendados
|
|
|
|
|
|
|
|
Errores comunes
| Escenario | Consejo |
|---|---|
| Modelos grandes | Evita 14B+ salvo que aceptes lentitud |
| Cuantización | Empieza con Q4_K_M; prueba Q5 si necesitas calidad |
| VRAM | Monitoriza con Task Manager o nvidia-smi |
| Temperatura | Usa modo rendimiento para imagen y lotes |
| Resolución | Empieza con 768px o una imagen 1024px |
| Navegador | Cierra pestañas pesadas en GPU |
| Driver | Mantén NVIDIA actualizado |
| Workflows | No copies flujos ComfyUI de 16GB/24GB directamente |
Mi recomendación
Un portátil RTX 4060 8GB es una plataforma local de entrada con buena relación coste/rendimiento. Encaja con LLM 3B-8B, modelos pequeños de código, SDXL, SD 1.5, FLUX cuantizado, Whisper, búsqueda vectorial de imágenes y gestión local de fotos.
No encaja bien con uso prolongado de 14B/32B, modelos grandes sin cuantizar, FLUX por lotes de alta resolución, generación de video grande o muchos modelos residentes a la vez.
Para búsqueda de fotos, usa la GPU para extracción CLIP/SigLIP y etiquetado con modelos pequeños, y guarda vectores en SQLite, FAISS o LanceDB.