Ejecutar DeepSeek V4 en local: estimaciones de VRAM para versiones Pro, Flash y Base

Tabla de estimación de VRAM al estilo Gemma 4 para DeepSeek V4 Pro, Flash, Pro-Base y Flash-Base en distintos anchos de cuantización.

DeepSeek V4 y Gemma 4 no están en la misma categoría para despliegue local. Con Gemma 4 todavía tiene sentido hablar de ejecutar modelos 26B o 31B en GPUs de 24GB o 32GB. DeepSeek V4 es un modelo MoE enorme, y el despliegue local completo entra rápidamente en territorio de estaciones multi-GPU o servidores.

El lanzamiento oficial DeepSeek V4 Preview incluye principalmente dos modelos de inferencia:

  • DeepSeek-V4-Pro: 1.6T total / 49B active params
  • DeepSeek-V4-Flash: 284B total / 13B active params

La colección oficial de Hugging Face también incluye dos modelos Base:

  • DeepSeek-V4-Pro-Base
  • DeepSeek-V4-Flash-Base

Este artículo solo estima VRAM cuando se cargan los pesos completos. En modelos MoE, active params afecta sobre todo al cómputo por token. No significa que solo esos parámetros deban cargarse.

Resumen rápido

Escala de VRAM Realista No esperes
24GB No puede cargar DeepSeek V4 completo; usa modelos destilados o API V4-Flash / V4-Pro local completo
48GB Aún no es adecuado para carga completa V4-Flash Q4 estable
80GB Pruebas V4-Flash Q2/Q3 u offload pesado V4-Pro
128GB V4-Flash Q4 empieza a ser más realista V4-Pro Q4
192GB V4-Flash FP8/Q6 más cómodo; Pro Q2 experimental V4-Pro Q4
256GB V4-Flash FP8 cómodo; Pro Q2/Q3 puede probarse V4-Pro Q5+
512GB V4-Pro Q4 empieza a discutirse V4-Pro FP8
1TB+ V4-Pro FP8 y Pro-Base de bajo bit Despliegue barato en una máquina
2TB+ Clase Pro-Base FP8 Estación común

Si tu objetivo es correr un modelo en un PC personal, DeepSeek V4 no es el objetivo adecuado. Es más realista usar API oficial, esperar cuantizaciones comunitarias maduras, usar modelos destilados o elegir modelos locales de 7B a 70B.

Tamaños oficiales de pesos

Las cifras vienen de model.safetensors.index.json en los repositorios oficiales de Hugging Face.

Model Parameter Scale Official Weight Size Notes
DeepSeek-V4-Flash 284B total / 13B active 159.61GB Inference model, smallest in this group
DeepSeek-V4-Pro 1.6T total / 49B active 864.70GB Inference model, stronger but enormous
DeepSeek-V4-Flash-Base 284B total 294.67GB Base model, closer to full FP8 weight size
DeepSeek-V4-Pro-Base 1.6T total 1606.03GB Base model, about 1.6TB

Incluso el V4-Flash más pequeño se acerca a 160GB de pesos oficiales. No debe tratarse como un 13B solo por tener 13B active params.

Estimación de VRAM para DeepSeek V4 Flash

V4-Flash es la variante más abordable para experimentos locales, pero sigue sin ser un modelo de una sola GPU de consumo.

Version / Quantization Estimated Weight Size Minimum VRAM Safer VRAM Best For
FP8 / official weights 159.61GB 192GB 256GB Multi-GPU servers, inference service
Q6 120GB 160GB 192GB Quality-first quantization tests
Q5 100GB 128GB 160GB Quality/size balance
Q4 80GB 96GB 128GB More realistic starting point for Flash
Q3 60GB 80GB 96GB Large-VRAM single GPU or multi-GPU tests
Q2 40GB 48GB 64GB Extreme low-bit experiments with clear quality risk

Si aparecen builds maduros de V4-Flash Q4, probablemente seguirán sin ser modelos para 24GB. El punto de partida realista es 96GB a 128GB de VRAM total, o setups con offload que sacrifican velocidad por capacidad.

Estimación de VRAM para DeepSeek V4 Pro

V4-Pro es el modelo de inferencia insignia, con unos 864.70GB de pesos oficiales.

Version / Quantization Estimated Weight Size Minimum VRAM Safer VRAM Best For
FP8 / official weights 864.70GB 1TB 1.2TB+ Multi-node or multi-GPU inference service
Q6 648GB 768GB 1TB High-quality quantized service
Q5 540GB 640GB 768GB Quality/cost balance
Q4 432GB 512GB 640GB Lowest practical quality line for Pro
Q3 324GB 384GB 512GB Low-bit experiments
Q2 216GB 256GB 320GB Extreme experiments with high risk

Para usuarios individuales, V4-Pro se consume mejor por API. Para despliegue local completo, trátalo como modelo de servidor multi-GPU.

Estimación de VRAM para Flash-Base y Pro-Base

Los modelos Base suelen ser para investigación, fine-tuning o entrenamiento continuo, no para chat común.

V4-Flash-Base pesa unos 294.67GB:

Version / Quantization Estimated Weight Size Minimum VRAM Safer VRAM Best For
FP8 / official weights 294.67GB 384GB 512GB Research, preprocessing, evaluation
Q6 221GB 256GB 320GB High-quality quantization research
Q5 184GB 224GB 256GB Quality/size balance
Q4 147GB 192GB 224GB Lower-cost Base experiments
Q3 111GB 128GB 160GB Low-bit experiments
Q2 74GB 96GB 128GB Extreme experiments

V4-Pro-Base pesa unos 1606.03GB:

Version / Quantization Estimated Weight Size Minimum VRAM Safer VRAM Best For
FP8 / official weights 1606.03GB 2TB 2.4TB+ Large-scale research clusters
Q6 1205GB 1.5TB 2TB High-quality quantization research
Q5 1004GB 1.2TB 1.5TB Research and evaluation
Q4 803GB 1TB 1.2TB Low-bit research
Q3 602GB 768GB 1TB Extreme low-bit research
Q2 402GB 512GB 640GB Extreme experiments

Este tipo de modelo no debe evaluarse con la pregunta “¿lo corre una GPU doméstica?”. Incluso Q4 queda fuera de la comodidad de la mayoría de estaciones.

Por qué active params no basta

MoE activa solo parte de los expertos por token, por eso el cómputo puede ser mucho menor que el total de parámetros. Pero eso no significa que la VRAM solo tenga que cargar los parámetros activos.

El despliegue local completo depende de:

  • si todos los expertos deben residir en GPU;
  • si hay carga bajo demanda de expertos;
  • coste de transferencia CPU-GPU;
  • latencia de offload a NVMe;
  • crecimiento de KV cache con contexto largo;
  • sobrecarga de runtime en contexto muy largo;
  • coste de comunicación multi-GPU o multinodo.

V4-Pro con 49B active no se despliega como un 49B. V4-Flash con 13B active tampoco debe tratarse como un 13B pequeño.

Cómo elegir

Si eres usuario individual:

  • no intentes alojar DeepSeek V4 completo;
  • usa la API oficial cuando necesites sus capacidades;
  • para despliegue privado, revisa primero tu infraestructura multi-GPU;
  • con 24GB a 48GB, los modelos cuantizados 7B, 14B, 32B o 70B son más prácticos.

Con 128GB a 256GB de VRAM total, observa implementaciones estables de V4-Flash Q4/Q5. Con 512GB+, V4-Pro Q4 empieza a ser un objetivo de validación de ingeniería.

La pregunta clave no es “qué archivo cuantizado descargo”, sino “si tengo capacidad de inferencia de sistema para este modelo”.

Referencias

记录并分享
Creado con Hugo
Tema Stack diseñado por Jimmy