Guía local de Gemma 4: de ejecutarlo con un comando a integrarlo en desarrollo

Una guía breve de las principales formas de ejecutar Gemma 4 localmente: Ollama, LM Studio, llama.cpp e integración para desarrolladores.

Si quieres ejecutar Gemma 4 en local, puedes elegir entre cuatro rutas prácticas según tu objetivo y tu hardware.

1) Inicio más rápido: Ollama (recomendado)

Es la opción con menos fricción para pruebas rápidas, chat diario y uso de API local.

1
ollama run gemma4

Puntos clave:

  • Funciona en Windows, macOS y Linux
  • Gestiona automáticamente la aceleración por hardware
  • Ofrece una API local compatible con el estilo de OpenAI

2) Flujo con interfaz gráfica: LM Studio / Unsloth Studio

Si prefieres una UI de escritorio en lugar de comandos de terminal:

  • LM Studio: permite buscar y ejecutar variantes cuantizadas de Gemma 4 desde Hugging Face, por ejemplo 4-bit u 8-bit, con visibilidad del uso de recursos.
  • Unsloth Studio: soporta inferencia y fine-tuning con poca VRAM, a menudo más cómodo para GPUs de 6GB-8GB.

3) Equipos modestos y máximo control: llama.cpp

Buena opción para hardware antiguo, escenarios centrados en CPU o usuarios que quieren controlar más parámetros de inferencia.

Con archivos de modelo .gguf y cuantización, Gemma 4 puede funcionar con presupuestos de hardware mucho más bajos.

4) Integración de desarrollo: Transformers / vLLM

Si necesitas integrar Gemma 4 en tu propia aplicación:

  • Transformers: integración directa en proyectos Python
  • vLLM: inferencia de alto rendimiento para entornos GPU más potentes

Selección rápida

Necesidad Herramientas recomendadas Requisito de hardware
Solo quiero ejecutarlo ya Ollama Bajo
Prefiero una interfaz tipo ChatGPT LM Studio Medio
Tengo VRAM limitada (6GB-8GB) Unsloth / llama.cpp Bajo
Estoy creando aplicaciones locales de AI Ollama / Transformers / vLLM Medio a alto
Necesito fine-tuning Unsloth Studio Medio a alto

Sugerencia de tamaño de modelo

Gemma 4 llega en varios tamaños, por ejemplo E2B, E4B y 31B.

  • En portátiles comunes, empieza por E2B/E4B cuantizados
  • Prueba variantes más grandes solo cuando tu flujo base ya sea estable
记录并分享
Creado con Hugo
Tema Stack diseñado por Jimmy