Gemma 4 en Raspberry Pi 5: viable, pero con respuestas lentas

Un intento un poco extremo: ejecutar Gemma 4 en una Raspberry Pi 5 (8GB RAM). El objetivo no fue una versión grande del modelo, sino el modelo más pequeño E2B.

La conclusión primero: puede ejecutarse y es usable, pero encaja mejor en escenarios con poca interacción. No es ideal para una experiencia conversacional con alta exigencia de tiempo real.

Entorno de prueba

Dispositivo: Raspberry Pi 5 (CPU de 4 núcleos, 8GB RAM)
Sistema: Ubuntu Server (sin interfaz gráfica)
Acceso: SSH
Forma de ejecución del modelo: LM Studio CLI (solo modo línea de comandos)
Modelo: Gemma 4 E2B (aprox. 4.5GB)

Paso 1: instalar e iniciar LM Studio CLI

Instala la versión CLI de LM Studio, inicia el servicio y consulta los comandos disponibles.

Como es un entorno puro de línea de comandos, este método de despliegue solo por CLI encaja muy bien con Raspberry Pi.

Paso 2: mover el almacenamiento de modelos a un SSD

Para evitar lecturas y escrituras frecuentes en la tarjeta SD, moví el directorio de descarga de modelos a un SSD externo.

La experiencia de conectar un SSD a Raspberry Pi 5 es claramente más práctica que en modelos anteriores. Para ejecutar modelos locales durante mucho tiempo, conviene priorizar SSD.

Paso 3: descargar y cargar Gemma 4 E2B

Después de la descarga, el modelo puede cargarse correctamente en memoria.

Según la información oficial, la serie Gemma 4 cuenta con:

Capacidad de tool calling orientada a escenarios Agent (function calling)
Capacidades multimodales (incluyendo imagen/video; los modelos pequeños también tienen capacidades relacionadas con voz)
Ventana de contexto 128K
Licencia Apache 2.0 (usable comercialmente)

Viendo las condiciones de hardware de Raspberry Pi, la variante E2B es la más adecuada para empezar a probar.

Paso 4: iniciar la API y abrir acceso en la red local

Después de cargar el modelo, primero inicié la API en el puerto local (4000) y confirmé mediante una petición HTTP que la lista de modelos podía devolverse.

El problema es que, por defecto, solo escucha en la propia máquina, así que otros dispositivos de la LAN no pueden acceder directamente.

Como los parámetros de inicio no permitían configurar directamente el host, usé socat para hacer reenvío de puerto: las peticiones al puerto externo de la Raspberry Pi se puentean al puerto interno de LM Studio, permitiendo acceso por LAN.

El resultado fue viable: desde un MacBook en la misma red local pude hacer la petición y obtener correctamente la lista de modelos.

Paso 5: integración con editor (Zed)

El servicio local de LM Studio es compatible con la forma de la OpenAI API, por lo que la mayoría de herramientas que soportan base_url personalizado pueden conectarse directamente.

En Zed añadí un nuevo LLM provider apuntando a la instancia de Gemma 4 en la Raspberry Pi, y después la prueba de chat dentro del editor funcionó.

Juicio de usabilidad real

Esta solución encaja con:

Scripts locales de automatización
Tareas auxiliares de baja concurrencia y baja exigencia de tiempo real
Aprendizaje personal y experimentos en dispositivos edge

No encaja tanto con:

Chat interactivo de alta frecuencia
Escenarios de colaboración de desarrollo sensibles a la latencia

Conclusión

Ejecutar Gemma 4 (E2B) en Raspberry Pi 5 es viable, y el resultado real fue mejor de lo esperado.

Si tu objetivo es “poder ejecutarlo offline, conectarlo a herramientas y completar tareas ligeras o medias”, esta ruta merece probarse. Si el objetivo es interacción fluida en tiempo real, sigue siendo recomendable usar hardware más potente.