Un intento un poco extremo: ejecutar Gemma 4 en una Raspberry Pi 5 (8GB RAM). El objetivo no fue una versión grande del modelo, sino el modelo más pequeño E2B.
La conclusión primero: puede ejecutarse y es usable, pero encaja mejor en escenarios con poca interacción. No es ideal para una experiencia conversacional con alta exigencia de tiempo real.
Entorno de prueba
- Dispositivo: Raspberry Pi 5 (CPU de 4 núcleos, 8GB RAM)
- Sistema: Ubuntu Server (sin interfaz gráfica)
- Acceso: SSH
- Forma de ejecución del modelo: LM Studio CLI (solo modo línea de comandos)
- Modelo: Gemma 4 E2B (aprox. 4.5GB)
Paso 1: instalar e iniciar LM Studio CLI
Instala la versión CLI de LM Studio, inicia el servicio y consulta los comandos disponibles.
Como es un entorno puro de línea de comandos, este método de despliegue solo por CLI encaja muy bien con Raspberry Pi.
Paso 2: mover el almacenamiento de modelos a un SSD
Para evitar lecturas y escrituras frecuentes en la tarjeta SD, moví el directorio de descarga de modelos a un SSD externo.
La experiencia de conectar un SSD a Raspberry Pi 5 es claramente más práctica que en modelos anteriores. Para ejecutar modelos locales durante mucho tiempo, conviene priorizar SSD.
Paso 3: descargar y cargar Gemma 4 E2B
Después de la descarga, el modelo puede cargarse correctamente en memoria.
Según la información oficial, la serie Gemma 4 cuenta con:
- Capacidad de tool calling orientada a escenarios Agent (function calling)
- Capacidades multimodales (incluyendo imagen/video; los modelos pequeños también tienen capacidades relacionadas con voz)
- Ventana de contexto
128K - Licencia Apache 2.0 (usable comercialmente)
Viendo las condiciones de hardware de Raspberry Pi, la variante E2B es la más adecuada para empezar a probar.
Paso 4: iniciar la API y abrir acceso en la red local
Después de cargar el modelo, primero inicié la API en el puerto local (4000) y confirmé mediante una petición HTTP que la lista de modelos podía devolverse.
El problema es que, por defecto, solo escucha en la propia máquina, así que otros dispositivos de la LAN no pueden acceder directamente.
Como los parámetros de inicio no permitían configurar directamente el host, usé socat para hacer reenvío de puerto: las peticiones al puerto externo de la Raspberry Pi se puentean al puerto interno de LM Studio, permitiendo acceso por LAN.
El resultado fue viable: desde un MacBook en la misma red local pude hacer la petición y obtener correctamente la lista de modelos.
Paso 5: integración con editor (Zed)
El servicio local de LM Studio es compatible con la forma de la OpenAI API, por lo que la mayoría de herramientas que soportan base_url personalizado pueden conectarse directamente.
En Zed añadí un nuevo LLM provider apuntando a la instancia de Gemma 4 en la Raspberry Pi, y después la prueba de chat dentro del editor funcionó.
Juicio de usabilidad real
Esta solución encaja con:
- Scripts locales de automatización
- Tareas auxiliares de baja concurrencia y baja exigencia de tiempo real
- Aprendizaje personal y experimentos en dispositivos edge
No encaja tanto con:
- Chat interactivo de alta frecuencia
- Escenarios de colaboración de desarrollo sensibles a la latencia
Conclusión
Ejecutar Gemma 4 (E2B) en Raspberry Pi 5 es viable, y el resultado real fue mejor de lo esperado.
Si tu objetivo es “poder ejecutarlo offline, conectarlo a herramientas y completar tareas ligeras o medias”, esta ruta merece probarse. Si el objetivo es interacción fluida en tiempo real, sigue siendo recomendable usar hardware más potente.