Cómo ejecutar Gemma 4 en un portátil: guía de despliegue local en 5 minutos

Ejecuta Gemma 4 rápidamente en portátiles Mac, Windows y Linux con Ollama, con sugerencias de selección de modelo y rendimiento.

Si quieres ejecutar Gemma 4 localmente en un portátil, Ollama es una de las opciones más sencillas actualmente. Incluso sin configurar un entorno complicado, normalmente se puede poner en marcha en unos 5 minutos.

Paso 1: instalar Ollama

  1. Abre https://ollama.com y descarga el instalador correspondiente a tu sistema.
  2. Completa la instalación según el sistema:
  • macOS: arrástralo a Applications.
  • Windows: ejecuta el instalador .exe.
  • Linux: usa el script de instalación ofrecido en el sitio oficial.

Tras la instalación, Ollama se ejecutará como servicio en segundo plano. Salvo durante la instalación inicial, en el uso diario suelen bastar comandos simples.

Paso 2: descargar el modelo Gemma 4

Abre una terminal y ejecuta:

1
ollama pull gemma4:4b

Si tu equipo tiene más rendimiento, puedes cambiarlo por 12b o 27b. Cuando termine la descarga, el modelo quedará guardado localmente.

Para ver los modelos descargados:

1
ollama list

Paso 3: iniciar el modelo

1
ollama run gemma4:4b

Esto abrirá una conversación interactiva en la terminal. Escribe una pregunta y pulsa Enter; para terminar la sesión puedes introducir:

1
/bye

Si prefieres una interfaz de chat web, puedes usarlo junto con Open WebUI. Esta herramienta envuelve Ollama en una UI de navegador y normalmente se configura en pocos minutos con Docker.

Consejos de optimización para portátiles

  • Apple Silicon (M2/M3/M4): por defecto usa Metal y la aceleración suele funcionar muy bien; 12B también puede ofrecer una buena experiencia.
  • Tarjeta NVIDIA: cuando detecta una GPU compatible, suele usar CUDA automáticamente. Conviene actualizar los drivers con antelación.
  • Inferencia solo con CPU: se puede ejecutar, pero los modelos grandes serán claramente más lentos; en la mayoría de escenarios CPU-only conviene priorizar 4B.
  • Liberar memoria: antes de cargar modelos grandes, cierra en lo posible aplicaciones que consuman mucha memoria. Como referencia práctica, cada mil millones de parámetros suelen necesitar entre 0.5GB y 1GB de memoria.

Cómo elegir modelo

  • Gemma 4 1B: adecuado para preguntas y respuestas ligeras, resúmenes básicos y consultas rápidas; su capacidad de razonamiento complejo es limitada.
  • Gemma 4 4B: adecuado para la mayoría de tareas diarias (ayuda de escritura, ayuda de código, resumen de materiales), con buen equilibrio entre velocidad y calidad.
  • Gemma 4 12B: adecuado para contextos más largos y tareas más complejas; es más estable en escenarios de código y razonamiento.
  • Gemma 4 27B: adecuado para tareas exigentes; el resultado se acerca más a modelos grandes en la nube, pero requiere mucho más hardware.
记录并分享
Creado con Hugo
Tema Stack diseñado por Jimmy