Local AI on KnightLi Blog

Chrome descarga 4GB de Gemini Nano en silencio: cómo comprobarlo, desactivarlo y borrarlo

Sat, 09 May 2026 21:37:18 +0800

Se ha informado que Google Chrome descarga en segundo plano, sin permiso explícito del usuario, un archivo de modelo local de IA de unos 4GB. El caso ha abierto un debate sobre privacidad, uso de almacenamiento e impacto ambiental.

Estos archivos están relacionados con Gemini Nano y se usan principalmente para funciones locales de IA en Chrome. La polémica no es simplemente que el navegador admita IA local, sino si el proceso de descarga es lo bastante transparente, si el usuario debería ser informado antes y si el uso de recursos del sistema es razonable.

Qué ocurrió

El archivo de modelo mencionado se llama weights.bin y se encuentra en el directorio OptGuideOnDeviceModel de Chrome. Se considera una versión local de Gemini Nano, usada para ejecutar parte de la inferencia de IA directamente en el dispositivo.

Chrome decide en segundo plano si debe descargarlo según las capacidades del hardware, especialmente RAM y VRAM. Normalmente el usuario no inicia la descarga de forma manual, y puede que tampoco vea un aviso claro antes de que ocurra.

Lo más incómodo es que borrar manualmente el archivo del modelo no suele impedir que vuelva. Mientras la función relacionada siga activada, Chrome puede descargar el modelo de nuevo después de reiniciar el navegador o tras una actualización posterior.

Las plataformas mencionadas en la discusión incluyen Windows 11, macOS y Ubuntu en sistemas de escritorio. Si se toma como referencia la base instalada de Chrome en escritorio, el número de dispositivos potencialmente afectados podría llegar a cientos de millones.

La explicación de Google

Google afirma que estos archivos sirven para funciones locales de IA, como “Help me write” y la detección de estafas. Ejecutar el modelo de forma local puede reducir parte de la subida de datos y mejorar la protección de la privacidad.

Google también señala que, si el dispositivo tiene poco espacio libre, Chrome eliminará automáticamente el modelo relacionado para liberar almacenamiento. Es decir, el modelo no necesariamente ocupa disco de forma permanente.

Al mismo tiempo, Google dice que desde febrero de 2024 los usuarios pueden desactivar la función relacionada desde la configuración de Chrome. Una vez desactivada, el modelo dejará de descargarse o actualizarse.

Cómo comprobarlo y desactivarlo

Si no quieres que Chrome conserve el modelo Gemini Nano en local, puedes empezar revisando varios lugares.

Primero, entra en la configuración de Chrome y busca opciones relacionadas con “on-device AI”, IA local, asistencia de escritura o sugerencias de optimización. Desactiva las funciones que no necesites.

Después, escribe esto en la barra de direcciones:

`1`	`chrome://flags`

Luego busca y desactiva:

`1`	`Enables optimization guide on device`

Por último, revisa el directorio de datos de usuario de Chrome, busca la carpeta OptGuideOnDeviceModel y elimina los archivos de modelo que contiene. Ten en cuenta que borrar el archivo por sí solo no suele bastar. Es mejor desactivar primero el flag o la configuración relacionada; de lo contrario, Chrome podría volver a descargarlo más adelante.

Posibles rutas en distintos sistemas

OptGuideOnDeviceModel suele estar dentro del directorio de datos de usuario de Chrome. La ubicación exacta puede variar según el sistema operativo y el método de instalación, pero estos son buenos puntos de partida:

Windows: %LOCALAPPDATA%\Google\Chrome\User Data\
macOS: ~/Library/Application Support/Google/Chrome/
Linux: ~/.config/google-chrome/
Chromium: ~/.config/chromium/

Una vez dentro del directorio correspondiente, busca OptGuideOnDeviceModel o weights.bin. Si usas Chrome Beta, Dev o Canary, el nombre del directorio puede incluir el canal de versión correspondiente.

Cómo saber si weights.bin ya se descargó

El método más directo es buscar en el directorio de datos de usuario de Chrome:

`1`	`weights.bin`

Si ya se ha descargado, normalmente aparecerá dentro de OptGuideOnDeviceModel, y su tamaño puede acercarse a varios GB. También puedes mirar la hora de modificación del archivo para saber si Chrome lo creó o actualizó recientemente en segundo plano.

Si no encuentras weights.bin, eso no significa necesariamente que el dispositivo nunca vaya a descargarlo. Chrome puede decidir si obtiene el modelo según el hardware, la región, la versión, los interruptores de funciones y la configuración experimental.

Qué funciones de IA de Chrome pueden verse afectadas

Después de desactivar las funciones locales de IA u optimización relacionadas, pueden verse afectadas capacidades en el dispositivo que dependan de Gemini Nano, como “Help me write”, la detección local de estafas y futuras funciones de IA del navegador que no pasen por la nube.

Para quienes no usan estas funciones, la navegación diaria normalmente no cambia demasiado. Para usuarios que dependen a menudo de la asistencia de escritura integrada en Chrome, la comprensión de páginas o funciones experimentales de seguridad, la experiencia podría volver al procesamiento en la nube, dejar de estar disponible o usar una alternativa del navegador.

Dónde está la polémica

La cuestión central es si un navegador debería descargar varios GB de archivos de modelo para funciones de IA antes de que el usuario haya dado un consentimiento claro.

Quienes lo defienden argumentan que la IA local puede reducir el procesamiento en la nube, mejorar la privacidad y acelerar las respuestas. Quienes lo critican sostienen que el usuario debería ver al menos un aviso claro antes de la descarga, especialmente cuando el archivo ronda los 4GB y puede afectar al almacenamiento y al tráfico de red.

Expertos en privacidad también señalan que este tipo de descarga en segundo plano sin información suficiente podría plantear dudas de cumplimiento bajo la Directiva ePrivacy de la UE y el GDPR. Que sea o no una infracción dependerá del mecanismo de aviso de Google, la configuración predeterminada, la ruta de tratamiento de datos y los controles ofrecidos al usuario.

Resumen

La llegada de Gemini Nano a Chrome muestra que los navegadores están trasladando más capacidades de IA al dispositivo local. Pero también plantea un nuevo límite de producto: los modelos locales siguen consumiendo disco y ancho de banda, y pueden afectar la sensación de control del usuario sobre su propio dispositivo.

Para un usuario normal, lo más directo es revisar la configuración de IA local y optimización de Chrome. Si no necesitas esas funciones, desactiva las opciones relacionadas y luego elimina los archivos del modelo dentro del directorio OptGuideOnDeviceModel.

Hoja de ruta de Canonical para Ubuntu AI: inferencia local primero, sin integración forzada

Fri, 08 May 2026 22:23:46 +0800

La hoja de ruta de Canonical para AI en Ubuntu no destaca por “meter AI en todas partes”, sino por intentar una vía más prudente: funciones por capas, desactivadas por defecto, activadas solo cuando el usuario lo elige explícitamente y con inferencia local como prioridad.

Esto contrasta con parte de la polémica alrededor de la AI a nivel de sistema en Windows y macOS. Ubuntu no apunta a una capa global de AI imposible de evitar ni a un único interruptor general. La idea es separar las capacidades de AI en herramientas relativamente independientes, para que el usuario decida si las instala, si las activa, qué modelo usa y si los datos salen de la máquina.

Primero, la fecha: no es Ubuntu 26.04 LTS

La hoja de ruta apunta sobre todo a Ubuntu 26.10 “Questing Quokka”, previsto para el 9 de octubre de 2026. Canonical planea introducir algunas herramientas de AI como previews experimentales, no como funciones por defecto dentro de Ubuntu 26.04 LTS.

Este punto es clave. Las versiones LTS priorizan estabilidad, despliegues empresariales y mantenimiento de seguridad. No sería razonable convertir funciones de AI de escritorio aún exploratorias en experiencia predeterminada de una LTS. Lo más lógico es probarlas primero en una versión regular como 26.10, recibir feedback de desarrolladores y usuarios tempranos, y decidir después qué debe llegar a futuras versiones de soporte prolongado.

Inferencia local primero; la nube no es la opción por defecto

Uno de los principios centrales es local inference first: por defecto, la inferencia debe ejecutarse en la máquina del usuario. Las peticiones solo deberían salir del equipo si el usuario configura explícitamente un proveedor cloud, un servidor propio o un servicio empresarial de modelos.

La razón es práctica. La AI a nivel de sistema puede tocar salidas de comandos, logs, rutas de archivos, errores y configuración del sistema. Enviar esa información automáticamente a la nube, aunque sea para explicar un error, crea riesgos claros de privacidad y cumplimiento.

Por eso, la dirección de Ubuntu no parece ser una puerta de entrada a AI en la nube, sino una capa de inferencia intercambiable. El usuario puede elegir un modelo local, un servicio interno de la empresa o, si lo necesita, un servicio gestionado por Canonical. Lo importante es no quedar atado a un solo proveedor de modelos.

AI CLI: empezar por la terminal

Una de las primeras funciones prácticas podría ser AI Command Line Helper, conocido como ai-cli.

No pretende reemplazar el shell ni ejecutar comandos peligrosos automáticamente. Su función es ayudar a entender comandos, logs, unidades systemd, salidas de error y estado del sistema. Por ejemplo, puede explicar por qué falló un servicio o aclarar el significado de una opción de línea de comandos.

Este punto encaja bien con la base de usuarios de Ubuntu. Muchos usuarios de Ubuntu Desktop y Server ya trabajan en la terminal. En vez de empezar con una ventana de chat llamativa, tiene sentido ubicar la AI en diagnóstico de errores, explicación de comandos y ayuda operativa.

Pero los límites de seguridad deben ser claros. Los logs pueden contener tokens, direcciones internas, nombres de usuario, rutas, fragmentos de claves o información de negocio. Aunque la inferencia local sea el valor por defecto, la herramienta debería animar a redactar datos sensibles. Si el usuario elige un backend cloud, debe quedar claro qué se enviará.

Settings Agent: configuración del sistema con lenguaje natural

Otra dirección es Settings Agent, una forma de consultar o cambiar configuración del sistema con lenguaje natural.

Suena sencillo, pero es fácil hacerlo mal. Un Settings Agent maduro no debería leer la pantalla, adivinar botones y simular clics. Debería usar APIs internas controladas: qué puede leer, qué puede modificar, cuándo requiere confirmación y cómo revierte errores.

Por eso parece más una línea de trabajo posterior a 26.10 que una función completa inmediata. Si se hace bien, puede reducir mucho la fricción para configurar Linux de escritorio. Si se hace de forma agresiva, puede convertirse en un nuevo riesgo de seguridad.

Por qué no hace falta empezar por un “interruptor total” de AI

Muchos usuarios temen que, cuando un sistema operativo incorpora AI, esta aparezca por todas partes y sea difícil desactivarla por completo. Por eso surge una pregunta natural: ¿debería Ubuntu tener un kill switch global para AI?

La respuesta de Canonical parece ser que, si las funciones de AI son opt-in, están separadas por capas y se pueden instalar y configurar de forma independiente, un interruptor global no es la primera prioridad. Es decir, el diseño intenta evitar el patrón de “activado por defecto, integrado profundamente y luego el usuario debe desactivarlo”.

Que eso sea suficiente dependerá de la implementación. Si las herramientas de AI no se activan por defecto, no se conectan remotamente por defecto, no recopilan datos automáticamente y cada función tiene controles claros, el usuario no debería tener que buscar opciones ocultas para apagar AI.

Qué significa para desarrolladores y empresas

Para desarrolladores, el valor práctico de herramientas como AI CLI es reducir el tiempo dedicado a documentación, lectura de logs y diagnóstico de problemas del sistema. No sustituye el criterio técnico; automatiza muchas tareas de “ayúdame a entender esta salida”.

Para empresas, la inferencia local y los backends intercambiables son todavía más importantes. Muchas organizaciones no pueden enviar código fuente, logs, datos de clientes o información de infraestructura a servicios públicos de modelos. Si Ubuntu conecta la AI de sistema con modelos locales, servicios privados de inferencia y permisos empresariales, puede ofrecer asistencia controlable en entornos regulados.

También es una oportunidad para el escritorio y la estación de trabajo Linux. Windows y macOS pueden convertir la AI en parte del ecosistema del proveedor. La ventaja de Ubuntu está en ser abierto, auditable, reemplazable y autohospedable. Si Canonical mantiene esos principios, la AI puede reforzar la experiencia profesional en Linux.

No conviene sobreinterpretar

Todavía es pronto para afirmar que Ubuntu vaya a preinstalar un modelo pequeño concreto, que Ubuntu 26.04 incluya un modo de auditoría de AI o que exista un comando fijo llamado ubuntu-ai. Lo más claro en la información pública es la dirección, no la forma final del producto.

La lectura más prudente es esta: Canonical está preparando un marco de herramientas AI a nivel de sistema para Ubuntu, empezando por ayuda en la línea de comandos, asistencia de configuración, inferencia local y elección de backend. La postura por defecto es que elija el usuario, no el sistema.

Resumen

Lo interesante de la hoja de ruta de AI de Ubuntu no es que Ubuntu “se sume a la ola de AI”, sino que intenta definir una forma más contenida de integrar AI en un sistema operativo open source: la inteligencia puede ser infraestructura, pero privacidad, control y elección del usuario deben ir primero.

Si las funciones experimentales de 26.10 cumplen esos principios, Ubuntu puede seguir un camino distinto al de los sistemas de consumo: AI no como un espacio inevitable dentro del sistema, sino como una capa de productividad seleccionable, reemplazable y auditable.

Referencias:

Qué modelos locales de IA puede ejecutar un portátil RTX 4060 8GB

Fri, 08 May 2026 13:41:15 +0800

Un portátil con RTX 4060 8GB puede ejecutar IA local, pero el límite es claro: lo importante no es si el modelo arranca, sino si cabe en VRAM. La versión móvil también depende de potencia, refrigeración, ancho de banda de memoria y ajustes del fabricante.

En 2026, 8GB de VRAM siguen siendo la línea de entrada para IA local. Con modelos cuantizados y herramientas adecuadas, puedes ejecutar LLM de 3B-8B, SDXL, SD 1.5, algunos flujos FLUX cuantizados, Whisper y extracción de características de imagen. Si fuerzas LLM de 14B+, modelos grandes sin cuantizar o flujos de imagen pesados, el rendimiento cae cuando se usa memoria del sistema.

Resumen: no persigas el modelo más grande. Usa modelos pequeños, pesos cuantizados y flujos de baja VRAM.

Presupuesto de VRAM

Windows 11, navegadores, drivers y procesos de fondo ya consumen memoria de GPU. El presupuesto real suele estar más cerca de 6.5GB-7.2GB que de los 8GB completos.

LLM: 3B-8B con cuantización 4-bit.
Imagen: SDXL, SD 1.5 y FLUX GGUF/NF4 low-VRAM.
Multimodal: modelos ligeros de unos 4B.
Voz: Whisper large-v3 funciona, pero los lotes largos calientan.
Indexación: CLIP, ViT y SigLIP encajan muy bien.

Un modelo pequeño completo en GPU suele ir mejor que uno grande con mucho offload.

LLM: modelos cuantizados de 3B-8B

Para chat y razonamiento local, usa Ollama, LM Studio, koboldcpp, llama.cpp u otro frontend compatible con GGUF. El punto cómodo en 8GB es 3B-8B en 4-bit.

Ligero general: Gemma 4 E4B

Gemma 4 E4B es uno de los modelos pequeños de la familia Gemma 4 de Google lanzada en 2026. Es adecuado para uso local y edge: preguntas, resúmenes, organización ligera, tareas multimodales simples e inferencia barata.

En una RTX 4060 de portátil, empieza por una versión cuantizada oficial o comunitaria. No comiences con los pesos de mayor precisión.

Razonamiento: DeepSeek R1 Distill 7B/8B, Qwen 3 8B

Para lógica, matemáticas, análisis complejo y texto largo, prueba DeepSeek R1 distill 7B/8B o Qwen 3 8B cuantizado.

Con Q4_K_M, los modelos de 8B suelen entrar en el presupuesto de una GPU de 8GB. La velocidad depende del contexto, backend, driver y modo de energía.

No empieces con 14B, 32B o más. Aunque arranquen con CPU offload, la experiencia suele ser peor que con un modelo menor completamente en GPU.

Código: Qwen 2.5 Coder 3B/7B

Qwen 2.5 Coder 3B es rápido y útil para autocompletado, explicación y generación pequeña. El 7B entiende mejor, pero consume más VRAM y tarda más.

Autocompletado: 3B.
Q&A y explicación: 3B o 7B.
Refactors pequeños: 7B cuantizado.
Arquitectura grande: no esperes meter todo el proyecto en 8GB.

Imagen: SDXL estable, FLUX cuantizado

SD 1.5 es muy amigable con 8GB, rápido y maduro. SDXL consume más pero sigue siendo viable.

Herramientas:

ComfyUI
Stable Diffusion WebUI Forge
Fooocus

FLUX ofrece mejor calidad y comprensión de prompt, pero los modelos originales son pesados. En 8GB usa GGUF, NF4, FP8 u otras rutas low-VRAM con ComfyUI-GGUF.

Consejos:

Usa FLUX.1 schnell GGUF Q4/Q5.
Reduce resolución o batch size.
Usa --lowvram en ComfyUI.
No combines demasiados LoRA, ControlNet y hi-res fix.
Vigila si la VRAM se libera al cambiar de workflow.

Puedes probar 1024px, pero no copies flujos pensados para GPUs de 16GB/24GB.

Multimodal y utilidades

Whisper large-v3 sirve para transcripción de audio. Para lotes largos, activa modo rendimiento y cuida la temperatura.

Para un sistema de búsqueda de fotos, la RTX 4060 8GB es muy adecuada. CLIP, ViT y SigLIP no consumen VRAM extrema y procesan miles de imágenes con rapidez.

Flujo típico:

Extraer embeddings con CLIP/ViT/SigLIP.
Guardarlos en SQLite o una base vectorial.
Buscar por texto o imagen similar.
Usar un LLM pequeño para etiquetas, descripciones o resúmenes.

Combos recomendados

Ollama / LM Studio
+ Gemma 4 E4B cuantizado
+ DeepSeek R1 Distill 7B/8B Q4
+ Qwen 3 8B Q4

1
2
3

Qwen 2.5 Coder 3B
+ Qwen 2.5 Coder 7B Q4
+ Continue / Cline / servidor local OpenAI-compatible

ComfyUI / Forge
+ SDXL
+ SD 1.5
+ FLUX.1 schnell GGUF Q4/Q5

1
2
3

CLIP / SigLIP / ViT
+ SQLite / FAISS / LanceDB
+ Gemma 4 E4B o Phi-4 Mini para organizar texto

Errores comunes

Escenario	Consejo
Modelos grandes	Evita 14B+ salvo que aceptes lentitud
Cuantización	Empieza con `Q4_K_M`; prueba Q5 si necesitas calidad
VRAM	Monitoriza con Task Manager o `nvidia-smi`
Temperatura	Usa modo rendimiento para imagen y lotes
Resolución	Empieza con 768px o una imagen 1024px
Navegador	Cierra pestañas pesadas en GPU
Driver	Mantén NVIDIA actualizado
Workflows	No copies flujos ComfyUI de 16GB/24GB directamente

Mi recomendación

Un portátil RTX 4060 8GB es una plataforma local de entrada con buena relación coste/rendimiento. Encaja con LLM 3B-8B, modelos pequeños de código, SDXL, SD 1.5, FLUX cuantizado, Whisper, búsqueda vectorial de imágenes y gestión local de fotos.

No encaja bien con uso prolongado de 14B/32B, modelos grandes sin cuantizar, FLUX por lotes de alta resolución, generación de video grande o muchos modelos residentes a la vez.

Para búsqueda de fotos, usa la GPU para extracción CLIP/SigLIP y etiquetado con modelos pequeños, y guarda vectores en SQLite, FAISS o LanceDB.