Guía local de Gemma 4: de ejecutarlo con un comando a integrarlo en desarrollo

Si quieres ejecutar Gemma 4 en local, puedes elegir entre cuatro rutas prácticas según tu objetivo y tu hardware.

1) Inicio más rápido: Ollama (recomendado)

Es la opción con menos fricción para pruebas rápidas, chat diario y uso de API local.

1

ollama run gemma4

Puntos clave:

Si prefieres una UI de escritorio en lugar de comandos de terminal:

LM Studio: permite buscar y ejecutar variantes cuantizadas de Gemma 4 desde Hugging Face, por ejemplo 4-bit u 8-bit, con visibilidad del uso de recursos.
Unsloth Studio: soporta inferencia y fine-tuning con poca VRAM, a menudo más cómodo para GPUs de 6GB-8GB.

Buena opción para hardware antiguo, escenarios centrados en CPU o usuarios que quieren controlar más parámetros de inferencia.

Con archivos de modelo .gguf y cuantización, Gemma 4 puede funcionar con presupuestos de hardware mucho más bajos.

Si necesitas integrar Gemma 4 en tu propia aplicación:

Necesidad	Herramientas recomendadas	Requisito de hardware
Solo quiero ejecutarlo ya	Ollama	Bajo
Prefiero una interfaz tipo ChatGPT	LM Studio	Medio
Tengo VRAM limitada (6GB-8GB)	Unsloth / llama.cpp	Bajo
Estoy creando aplicaciones locales de AI	Ollama / Transformers / vLLM	Medio a alto
Necesito fine-tuning	Unsloth Studio	Medio a alto

Gemma 4 llega en varios tamaños, por ejemplo E2B, E4B y 31B.