GPU on KnightLi Blog

Cómo elegir una GPU en abril de 2026: qué modelos evitar y cuáles vale más la pena considerar

Mon, 27 Apr 2026 08:51:10 +0800

Si te estás preparando para construir una PC, la GPU es la única parte en la que realmente no debes fijarte únicamente en si una tarjeta es nueva. En abril de 2026, algunos modelos ya son mucho más difíciles de justificar, mientras que otros no son perfectos, pero aún así parecen notablemente más razonables que las alternativas del mismo precio.

Así que este artículo se salta la teoría y va directamente a modelos específicos.

Modelos que no priorizaría

1. `RTX 5060 Ti 8GB`

El mayor problema de esta tarjeta no es que sea inutilizable. El problema es que “8GB” ya se siente atrapado en un incómodo término medio en este momento.

Si juegas principalmente a juegos en línea más livianos en configuraciones 1080p de media a alta, aún puede funcionar. Pero una vez que ingresa a cualquiera de estas áreas, la limitación aparece rápidamente:

Juegos AAA más nuevos
Configuraciones de textura más altas
1440p
Uso mixto con inferencia de IA, edición o trabajo de productividad

Si ya está considerando la “RTX 5060 Ti”, la decisión más segura suele ser ir directamente a la versión de “16 GB” en lugar de ahorrar un poco de presupuesto optando por la de “8 GB”.

En resumen:

RTX 5060 Ti 8GB: no recomendado
RTX 5060 Ti 16GB: claramente más vale la pena considerar

2. Tarjetas antiguas y caras, especialmente `RTX 3080 10GB` y `RTX 3070 Ti` cuando todavía tienen un precio elevado

El problema con estas tarjetas no es que el rendimiento sea completamente malo. El problema es que, en el mercado actual, comprarlos a menudo te pone en una situación incómoda:

El consumo de energía no es bajo
Ya no son nuevos
La VRAM no es especialmente generosa
Las fuentes del mercado de segunda mano suelen ser confusas

RTX 3080 10GB es el ejemplo más claro. Si todavía tiene un precio alto, rápidamente se convierte en una tarjeta que parece sólida en el papel pero que se siente menos equilibrada en el uso real.

RTX 3070 Ti sigue la misma lógica. No es absolutamente imposible de comprar, pero si la diferencia de precio no es significativa, normalmente será mejor que busques algo más nuevo, algo con una VRAM más cómoda o algo más equilibrado en potencia y térmica.

3. Insignias más antiguas con un historial poco claro, como `RTX 3090` y `RTX 3080 Ti`

Es fácil querer estas dos cartas por razones obvias:

Los nombres todavía suenan fuertes
El rendimiento del papel no es débil
Son muy visibles en el mercado de segunda mano.

Lo que realmente hay que tener en cuenta es de dónde vienen.

Si estás comprando:

Una tarjeta extraída
Una tarjeta reparada
Una tarjeta usada con un historial poco claro.

entonces el riesgo suele ser mucho mayor que con una tarjeta minorista normal. Una tarjeta como la “RTX 3090” parece atractiva debido a la VRAM de “24 GB”, pero el calor, la entrega de energía, el estado del silicio y el historial de uso pasado se convierten en preocupaciones mayores de las que serían en una tarjeta nueva y sencilla.

Si aún no sabe exactamente lo que está comprando y no planea dedicar tiempo a revisar la tarjeta con atención, estos buques insignia más antiguos generalmente no son algo que tocaría casualmente.

4. `RTX 5070` cuando el precio no es el adecuado

RTX 5070 no es una tarjeta que sea automáticamente mala. El problema es que el precio tiene que tener sentido.

Su incomodidad aparece cuando la brecha entre este y el RTX 5070 Ti no es lo suficientemente grande. En ese caso, muchos compradores acaban sintiéndose extrañamente insatisfechos.

El patrón suele verse así:

Compra el 5070: sigues pensando que con un poco más te habrías comprado el 5070 Ti
No estires el presupuesto: aún sabes que compraste la tarjeta “casi”

Por lo tanto, “RTX 5070” no es algo que deba ignorarse por completo, pero vale la pena considerarlo solo cuando el precio es claramente correcto. Si el precio se sitúa en una zona intermedia incómoda, rápidamente se convierte en una tarjeta que tiene sentido teórico pero que no se siente muy bien en la práctica.

Modelos que tienen más sentido

1. `RTX 5060 Ti 16GB`

Si ya está comprando en el rango medio, esta tarjeta suele ser la opción más segura en comparación con la versión de “8 GB”.

Las razones son simples:

Más espacio libre dentro de la misma familia de productos
Es menos probable que VRAM lo bloquee en los próximos años.
Es más fácil vivir con él si combinas juegos y productividad

Puede que no sea la tarjeta más explosiva por su precio, pero al menos es el tipo de tarjeta de la que es menos probable que te arrepientas inmediatamente.

2. `RTX 5070 Ti`

Si su presupuesto puede estirarse, esta suele ser una respuesta más completa que el RTX 5070.

Su valor no es que domine todos los escenarios. Su valor es que se siente más como una tarjeta que puede equilibrar los juegos, la resolución y el uso a largo plazo, todo al mismo tiempo.

Tiene sentido para las personas que:

Quiere configuraciones altas de 1440p
Quiere que el sistema dure años
No quiero empezar a pensar en actualizaciones demasiado pronto.

Si ya está atrapado entre el 5070 y el 5070 Ti, y la brecha no es absurdamente grande, ir directamente al 5070 Ti suele ser la decisión menos molesta.

3. Las tarjetas nuevas con un precio adecuado suelen ser una mejor primera opción que las tarjetas más antiguas de alta gama

Si no eres un cazador veterano de GPU usadas, una regla simple y efectiva es la siguiente:

Priorizar las nuevas tarjetas minoristas normales
Tenga cuidado con las tarjetas antiguas de alta gama que tienen orígenes complicados

En este punto, el enfoque más práctico suele ser:

Presupuesto de gama media: comience con RTX 5060 Ti 16GB
Un nivel superior: céntrese en RTX 5070 Ti
Considere RTX 5070 solo cuando el precio sea claramente favorable

Este suele ser un mejor camino que apostar con cartas más antiguas que suenan más fuertes pero que vienen con más equipaje.

Si solo quieres la versión corta

Puedes recordarlo así:

Realmente no recomendado: RTX 5060 Ti 8GB
No recomendado a menos que tenga un buen precio: RTX 5070
Tenga cuidado con: RTX 3080 10GB, RTX 3070 Ti y RTX 3090/RTX 3080 Ti de fuente poco clara
Más que vale la pena considerar: RTX 5060 Ti 16GB
Selección más fácil a largo plazo si el presupuesto lo permite: RTX 5070 Ti

Línea final

A estas alturas del mercado el verdadero error suele ser no gastar un poco más. Se trata de comprar una tarjeta que parece aceptable en papel pero que siempre se siente un poco comprometida en el uso real.

Si desea minimizar el arrepentimiento, RTX 5060 Ti 16GB y RTX 5070 Ti son generalmente más seguras que muchas tarjetas que parecen “suficientemente buenas”, mientras que RTX 5060 Ti 8GB, RTX 5070 de mal precio y tarjetas de gama alta más antiguas con un historial poco claro suelen ser las primeras en tachar.

Actualizaciones de hardware y GPU Ubuntu 26.04 LTS: CUDA, ROCm, DPC++ y más cambios de plataforma

Sun, 26 Apr 2026 19:35:57 +0800

Si el artículo anterior funcionó como una descripción general centrada en el escritorio de Ubuntu 26.04 LTS, es mejor leer este como su seguimiento del hardware y la computación. En este ciclo 26.04, Ubuntu impulsó una serie de cambios en IA, computación GPU y compatibilidad de plataforma en el archivo principal o alcance de soporte formal.

La versión corta es esta: la parte más importante de esta ronda no son solo las actualizaciones de escritorio y kernel, sino que Ubuntu está incorporando pilas de computación de GPU Intel, NVIDIA y AMD a la distribución de una manera más sistemática.

1. Intel DPC++ y componentes relacionados ahora están en Ubuntu Archive

A partir de 26.04, el compilador de código abierto oneAPI DPC++ de Intel está disponible directamente desde Ubuntu Archive para crear código SYCL. Su tiempo de ejecución también incluye adaptadores para GPU Intel.

Ahora también están disponibles dos componentes relacionados en los repositorios de Ubuntu:

oneDPL, la biblioteca DPC++, que proporciona API de desarrollador de mayor productividad
oneDNN, creado con dpclang-6, que puede ejecutarse en GPU Intel

Eso significa que si ya está trabajando con SYCL, computación heterogénea o cargas de trabajo de IA en GPU Intel, Ubuntu ahora ofrece una ruta más directa en lugar de obligarlo a mantener una pila externa separada para todo.

Ubuntu también señala un requisito práctico: los usuarios deben estar en el grupo “renderizar” para utilizar realmente estas capacidades relacionadas con la GPU Intel.

2. El kit de herramientas NVIDIA CUDA ahora se puede instalar directamente con `apt`

Para muchos desarrolladores y operadores, este puede ser uno de los cambios más útiles de inmediato en las notas.

A partir de 26.04, el kit de herramientas NVIDIA CUDA ahora se puede instalar directamente desde Ubuntu Archive:

`1`	`sudo apt install cuda-toolkit`

El valor aquí es mayor que simplemente guardar algunos pasos de configuración.

Para los desarrolladores que envían software en Ubuntu, este nuevo modelo significa que pueden simplemente declarar una dependencia del “tiempo de ejecución CUDA”, mientras que Ubuntu gestiona la instalación y la compatibilidad a nivel de distribución. Eso hace que CUDA se sienta más como una capacidad nativa del sistema en Ubuntu, en lugar de una capa de software adicional que siempre debe mantenerse por separado.

3. AMD ROCm 7.1.0 ya está en Universe

Por el lado de AMD, Ubuntu Universe ahora incluye ROCm 7.1.0.

Estas bibliotecas proporcionan principalmente:

infraestructura backend para entrenamiento e inferencia de IA en GPU AMD
fundamentos de software para el aprendizaje automático y la informática de alto rendimiento

Canonical también señala que los componentes relacionados con ROCm se prueban continuamente en su canal de CI/CD. Más allá de “autopkgtests”, eso incluye varias aplicaciones de espacio de usuario como:

-llama.cpp -pytorch

licuadora
Servidor de limonada

Ese detalle es importante, porque muestra que Ubuntu no se limita a colocar paquetes en el archivo. Está validando ROCm como una pila de software mantenible.

4. La historia más importante es que los tres ecosistemas de GPU están aterrizando

Es más fácil ver la dirección de 26.04 cuando DPC++, CUDA y ROCm se ven juntos:

Intel: incorporando componentes SYCL/oneAPI a repositorios oficiales
NVIDIA: dando al kit de herramientas CUDA una ruta de instalación administrada por distribución
AMD: lanzando ROCm 7.1.0 en Universe con pruebas en curso

Si trabaja con este tipo de cargas de trabajo en Ubuntu, esta versión probablemente le resultará más relevante:

inferencia local LLM
Entrenamiento o ajuste acelerado por GPU
Blender, informática científica y HPC.
entornos de desarrollo que necesitan moverse a través de diferentes plataformas GPU

En otras palabras, Ubuntu ya no es sólo “un sistema donde puedes instalar un controlador de GPU”. Está comenzando a tener una pila de software de espacio de usuario más completa para computación con IA y GPU.

5. NVIDIA Dynamic Boost está habilitado de forma predeterminada

Desde el “25.04”, “Dynamic Boost” se ha habilitado de forma predeterminada en las computadoras portátiles NVIDIA compatibles.

La idea es sencilla: dependiendo de la carga del sistema, la energía se puede cambiar dinámicamente entre la CPU y la GPU. En escenarios de juegos, eso generalmente significa darle más potencia a la GPU cuando sea necesario para extraer más rendimiento.

Sólo se aplica bajo dos condiciones:

la computadora portátil está conectada a la alimentación de CA
la carga de la GPU es lo suficientemente alta

No se activa mientras el sistema está funcionando con batería.

6. La compatibilidad con las nuevas GPU Intel integradas y discretas sigue avanzando

Ubuntu también continúa ampliando el soporte para nuevas GPU Intel, que incluyen:

Integrado:

-Intel Core Ultra Xe2 -Intel Core Ultra Xe3

Discreto:

Intel Arco 5 B570 -Intel Arc 5 B580 -Intel Arc Pro B50 -Intel Arc Pro B60 -Intel Arc Pro B65 -Intel Arc Pro B70

Ubuntu también destaca varias características que ya están disponibles en estos dispositivos:

rendimiento mejorado del trazado de rayos de GPU y CPU a través de Intel Embree, beneficiando aplicaciones como Blender 4.2+
codificación de vídeo por hardware para AVC, JPEG, HEVC y AV1 en dispositivos “Battlemage”
una nueva optimización CCS en Intel Compute Runtime
soporte de depuración habilitado para GPU Intel Xe

Si está viendo las versiones de seguimiento, “25.10” también continúa incorporando más capacidades, que incluyen:

soporte inicial para la plataforma de cliente de próxima generación de Intel con nombre en código Panther Lake hasta Linux kernel 6.17
IOMMU mejorado, subsistema PCIe y compatibilidad con múltiples GPU
Mesa 25.2.3 habilitando VK_KHR_shader_bfloat16 para Battlemage y Panther Lake
intel-media-driver 25.3.0 agrega soporte de decodificación Panther Lake y codificación VP9
intel-compute-runtime 25.31 ajusta el comportamiento de asignación de eventos de memoria del dispositivo local y del grupo USM de nivel cero
level-zero 1.24 y level-zero-raytracing 1.1.0 brindan compatibilidad con especificaciones más amplias y extensión RTAS

7. Suspender y reanudar también es más estable en las computadoras de escritorio Nvidia

A partir de 25.10, Ubuntu habilita el soporte de suspensión y reanudación en el controlador propietario Nvidia para reducir la corrupción y la congelación al activar un sistema de escritorio.

Este no es el tipo de cambio más visible, pero es muy importante en el uso diario, especialmente en computadoras de escritorio que permanecen encendidas durante períodos prolongados y que se suspenden y reanudan con frecuencia.

8. ARM, Raspberry Pi, RISC-V e IBM Z también reciben cambios más difíciles a nivel de plataforma

Más allá de la pila de software de GPU, las notas de la versión también incluyen varios cambios a nivel de plataforma que vale la pena mencionar por separado.

Plataformas de escritorio ARM64

A partir de 25.10, el kernel linux-generic ARM64 proporciona una compatibilidad de escritorio más amplia para las plataformas de escritorio ARM64 que arrancan a través de UEFI.

Un nuevo diseño de arranque de Raspberry Pi

Un cambio introducido en 25.10 y refinado en 26.04 es un nuevo diseño de partición de arranque para sistemas Raspberry Pi. Su objetivo es mejorar la confiabilidad del arranque: los recursos de arranque recién escritos primero se “prueban” antes de confirmarlos como el nuevo conjunto “bueno conocido”.

Los requisitos de fecha del firmware son la parte que la mayoría de los usuarios querrán recordar:

Pi 3 / 3+ / CM3+ / Zero 2W: no se requiere ninguna acción adicional, el firmware de arranque está en la propia imagen
Pi 4/400/CM4: el firmware de arranque no debe tener una fecha anterior a 2022-11-25
Pi 5/500/CM5: el firmware de arranque no debe tener una fecha anterior a 2025-02-11

Puedes comprobarlo con:

`1`	`sudo rpi-eeprom-update`

Si el firmware es demasiado antiguo y está utilizando “Ubuntu 24.04 LTS” o más reciente, puede actualizarlo de esta manera:

1
2

sudo rpi-eeprom-update -a
sudo reboot

Las imágenes de escritorio de Raspberry Pi ahora usan escritorio mínimo

Desde “25.10”, las imágenes de escritorio de Ubuntu para Raspberry Pi se basan en “desktop-minimal” en lugar de en la semilla de “escritorio” completa.

Ubuntu ofrece aquí un beneficio muy concreto: el conjunto de aplicaciones predeterminado es más pequeño, lo que ahorra alrededor de “777 MB” en la imagen sin comprimir y en los sistemas instalados.

Si desea eliminar esa aplicación predeterminada configurada de forma masiva después de la actualización, puede usar:

`1`	`sudo apt purge ubuntu-desktop --autoremove`

Si desea conservar algunas de esas aplicaciones, primero márquelas como instaladas manualmente con “apt”.

El intercambio en Raspberry Pi ahora lo maneja cloud-init

Desde “25.10”, la creación de archivos de intercambio en imágenes de escritorio de Raspberry Pi se maneja mediante “cloud-init”.
Si desea personalizar el tamaño del intercambio antes del primer inicio, puede editar los “datos de usuario” directamente en la partición de inicio.

Los requisitos de RISC-V han aumentado

A partir de 25.10, la compilación RISC-V de Ubuntu 26.04 LTS requiere hardware que implemente el perfil ISA RVA23S64.

Los sistemas que no cumplan con ese requisito ya no podrán ejecutar “Ubuntu 26.04 LTS”. Si todavía tiene placas basadas en núcleos de procesador “RVA20” anteriores, debe permanecer en la línea de soporte proporcionada por “Ubuntu 24.04 LTS”.

Según Ubuntu, a partir de “abril de 2026”, todavía no hay hardware “RVA23S64” real disponible. Por lo tanto, la única plataforma actualmente compatible es efectivamente un entorno virtualizado “QEMU” configurado con “-cpu rva23s64”.

IBM Z ahora requiere z15 como mínimo

A partir de 26.04, el requisito mínimo para la arquitectura s390x pasó a z15.

Eso significa:

z14 / LinuxONE II y sistemas más antiguos ya no pueden instalar Ubuntu 26.04 LTS
z15 / LinuxONE III y los sistemas más nuevos deberían tener un mejor rendimiento

9. ¿Quién debería leer esto primero?

Este artículo es más útil que la descripción general del escritorio si se encuentra en alguno de estos casos:

usas Ubuntu para CUDA, ROCm, SYCL o inferencia de IA local
realiza trabajos de desarrollo o computación en GPU Intel, NVIDIA o AMD
mantiene Raspberry Pi, ARM64, RISC-V, IBM Z u otras plataformas x86 no estándar
eres especialmente sensible a la disponibilidad del repositorio, el comportamiento del controlador, los tiempos de ejecución y los requisitos de la plataforma después de una actualización

10. Comida para llevar de una línea

El punto clave de “Ubuntu 26.04 LTS” en el lado del hardware y la pila de IA no es que un proveedor de GPU haya obtenido una actualización destacada. Es que DPC++ de Intel, CUDA de NVIDIA y ROCm de AMD están ingresando al ecosistema Ubuntu de una manera más oficial, en repositorio y mantenible. Si solía pensar en Ubuntu como “primero el sistema, luego yo mismo ensamblo el entorno de GPU”, 26.04 comienza a parecerse más a una distribución que está dispuesta a transportar activamente IA y cargas de trabajo informáticas heterogéneas.

12V-2x6 frente a 12VHPWR: notas sobre las diferencias en el conector de alimentación de 16 pines de la GPU

Sun, 19 Apr 2026 23:21:17 +0800

Entre las GPU de gama alta recientes, el conector de alimentación del que se habla con más frecuencia es probablemente el “12VHPWR” y el más nuevo “12V-2x6”. Ambos parecen conectores de 16 pines, con un diseño “12 + 4”, pero no son exactamente la misma interfaz.

En términos simples, “12V-2x6” puede entenderse como una revisión del diseño anterior “12VHPWR” bajo “ATX 3.1” y “PCIe CEM 5.1”. Mantiene la capacidad de salida de alta potencia, pero utiliza un diseño más conservador para la detección de inserción y la estructura del terminal. El objetivo es reducir el riesgo de que el conector siga soportando carga cuando no está completamente asentado.

01 Las diferencias de cables son pequeñas

La primera pregunta que preocupa a mucha gente es si los cables modulares “12V-2x6” y “12VHPWR” se pueden utilizar indistintamente.

Si nos fijamos únicamente en el cable en sí, la diferencia no suele ser grande. El verdadero cambio está principalmente en el conector del lado de la placa, como el zócalo de la GPU o el zócalo de la placa posterior de la fuente de alimentación modular. Tanto los cables modulares “12V-2x6” más nuevos como los cables modulares “12VHPWR” más antiguos todavía están destinados a la entrega de energía de GPU de 16 pines.

Por lo tanto, la compatibilidad no debe juzgarse únicamente por la longitud, el calibre o la apariencia del cable. Las especificaciones del socket del lado de la GPU y de la PSU, la calidad del terminal y la declaración de compatibilidad oficial del proveedor de la fuente de alimentación son más importantes.

02 Cambios mecánicos clave

El objetivo de 12V-2x6 no es cambiar completamente la forma exterior del conector, sino ajustar la estructura de los pines.

Sus 12 pines de alimentación principales son más largos y hacen contacto antes, mientras que los 4 pines de señal SENSE son más cortos y hacen contacto más tarde. La lógica es sencilla: sólo cuando el conector se inserta lo suficientemente profundo los pines SENSE deben conducir correctamente, permitiendo a la GPU identificar la capacidad de energía deseada.

Este cambio apunta a un problema típico expuesto por los primeros conectores “12VHPWR”: el enchufe puede parecer insertado, pero en realidad puede no estar completamente asentado. Bajo cargas elevadas, un contacto insuficiente puede generar calor y, en casos graves, puede quemar el enchufe o el enchufe.

03 Lógica SENTIDA más conservadora

SENTIDO0	SENTIDO1	Encendido inicial (encendido)	Potencia máxima sostenida
Terreno	Terreno	375 W	600 vatios
Abrir	Terreno	225 W	450 vatios
Terreno	Abrir	150W	300W
Corto	Corto	100 vatios	150W
Abrir	Abrir	0W	0W

La mejora de seguridad en 12V-2x6 se centra en la lógica SENSE.

En la definición más reciente, si “SENSE0” y “SENSE1” están en el estado flotante “Abierto”, la GPU no se encenderá normalmente o no entrará en el estado de entrada de alta potencia correspondiente. En otras palabras, cuando el conector no está colocado correctamente, el sistema es más propenso a impedir el funcionamiento en lugar de dejar que la GPU siga consumiendo energía.

Esto es más conservador que los primeros “12VHPWR”. En diseños más antiguos, incluso si el estado SENSE no fuera ideal, algunos casos aún podrían permitir un cierto nivel de entrada de energía. Para las GPU de alta potencia, esa tolerancia puede convertirse en un riesgo.

Acortar los pines SENSE es esencialmente una forma de hacer que “completamente insertados” sea un requisito previo más estricto.

04 Qué significa H++

Los conectores “12V-2x6” más nuevos suelen llevar una marca “H++”. Indica que los terminales del conector admiten una capacidad de corriente 9.2A o superior, lo que los distingue de los conectores 12VHPWR anteriores marcados como H+.

Vale la pena señalar que “H++” no significa que el límite de potencia del conector supere los 600 W. Ya sea nuevo o antiguo, el límite superior común para este esquema de energía de GPU de 16 pines sigue siendo “600W”. H++ se entiende mejor como especificación de terminal e identificación de versión de conector, no simplemente como “mayor potencia”.

05 Qué significa para la construcción de PC

Para la construcción diaria de PC, el mayor valor de “12V-2x6” es reducir el riesgo relacionado con la inserción, pero no es un escudo mágico.

Al utilizar este tipo de conector, vale la pena prestar atención a algunas cosas:

Insertar completamente el enchufe; No confíe sólo en si “parece insertado”.
Evite doblar demasiado el cable justo al lado del conector de la GPU.
No deje que el panel lateral ejerza presión sobre el cable.
Prefiera cables originales, personalizados o adaptadores explícitamente admitidos por el proveedor de PSU o GPU.
Evite adaptadores baratos de origen desconocido en GPU de alta potencia.

Si la carcasa está apretada, un cable en forma de L de 90 grados o un cable personalizado certificado por el proveedor pueden reducir la presión de flexión. Aún así, la calidad del terminal, el calibre del cable y la certificación del proveedor son más importantes que la apariencia.

06 Resumen rápido

12V-2x6 no es un conector que sea “básicamente igual que 12VHPWR porque tiene el mismo aspecto”. Sus cambios reales están dentro de la estructura del conector y la lógica de detección.

Puedes pensarlo de esta manera:

La forma del cable es similar, pero el conector del lado de la placa y el diseño del terminal son más importantes.
Los pines de alimentación principales son más largos, mientras que los pines SENSE son más cortos.
Cuando el conector no está completamente asentado, es más probable que el nuevo diseño impida que la GPU entre en estado de funcionamiento.
La marca H++ identifica terminales con mayor capacidad de corriente.
El límite de potencia común de la GPU sigue siendo “600W”.

Si está construyendo un sistema con una GPU de alta potencia, “12V-2x6” es de hecho más tranquilizador que el anterior “12VHPWR”. Pero la seguridad final aún depende de si el enchufe está completamente colocado, la calidad del cable, el diseño de la fuente de alimentación y el espacio para la gestión de cables de la caja. Un mejor estándar de conector no hace que una instalación descuidada sea segura.

Notas de Ollama Multi-GPU: agrupación de VRAM, selección de GPU y malentendidos comunes

Sun, 19 Apr 2026 00:18:00 +0800

Al ejecutar la inferencia local con Ollama, surgen rápidamente algunas preguntas: si ya tengo una GPU y mi placa base todavía tiene ranuras PCIe vacías, ¿ayuda agregar más GPU? ¿Es necesario que las GPU sean idénticas? ¿Se puede combinar VRAM? ¿Acelerará la inferencia como un marco de entrenamiento de múltiples GPU?

Esta nota resume cómo se comporta Ollama con múltiples GPU. La versión corta:

Ollama admite múltiples GPU.
El valor principal de varias GPU generalmente es adaptar modelos más grandes a la VRAM disponible, sin obtener un escalado lineal de tokens.
De forma predeterminada, si un modelo cabe completamente en una GPU, Ollama tiende a cargarlo en una sola GPU.
Si un modelo no cabe en una GPU, Ollama puede distribuirlo entre las GPU disponibles.
Ollama puede ver modelos de GPU mixtos, pero el rendimiento y la ubicación pueden no ser los ideales.
SLI/NVLink no es necesario para el uso de múltiples GPU.
Para limitar qué GPU puede usar Ollama, use CUDA_VISIBLE_DEVICES, ROCR_VISIBLE_DEVICES o GGML_VK_VISIBLE_DEVICES.

Comportamiento oficial: GPU única primero, GPU múltiple cuando sea necesario

Las preguntas frecuentes de Ollama describen directamente la lógica de carga de múltiples GPU: al cargar un nuevo modelo, Ollama estima la VRAM requerida y la compara con la memoria de GPU disponible actualmente. Si el modelo cabe completamente en una GPU, carga el modelo en esa GPU. Si no cabe en una sola GPU, el modelo se distribuye entre todas las GPU disponibles.

La razón es el rendimiento. Mantener un modelo en una GPU generalmente reduce las transferencias de datos a través del bus PCIe durante la inferencia, por lo que suele ser más rápido.

Así que no pienses en Ollama multi-GPU como si “más tarjetas significan automáticamente varias veces más rápido”. Un modelo más preciso es:

El modelo pequeño cabe en una GPU: normalmente funciona con una GPU.
El modelo grande no cabe en una GPU: se divide en varias GPU.
Todavía no hay suficiente VRAM: parte del modelo vuelve a la memoria del sistema y la velocidad cae notablemente.

Utilice este comando para ver dónde está cargado el modelo:

`1`	`ollama ps`

La columna “PROCESADOR” puede mostrar algo como:

1
2
3

100% GPU
48%/52% CPU/GPU
100% CPU

Si ve “48%/52% CPU/GPU”, parte del modelo ya está en la memoria del sistema. En ese caso, agregar más memoria GPU o usar una GPU con VRAM más grande suele ser más útil que seguir dependiendo de la CPU/RAM.

Multi-GPU no es un simple apilamiento informático

La inferencia LLM local no es lo mismo que SLI en los juegos. Con Ollama en múltiples GPU, el patrón común es que se colocan diferentes capas o tensores en diferentes dispositivos. Esto puede hacer que un modelo más grande encaje en la VRAM disponible combinada, pero es posible que aún sea necesario que los datos se muevan entre dispositivos durante la inferencia.

Por lo tanto, los beneficios de múltiples GPU generalmente se dividen en dos categorías:

Beneficio de VRAM: los modelos más grandes encajan más fácilmente, o menos parte del modelo recurre a CPU/RAM.
Beneficio de rendimiento: generalmente es más obvio cuando un modelo no cabría en una GPU o se extendería en gran medida a la CPU.

Si un modelo 8B o 14B ya cabe por completo en un solo RTX 3090, forzarlo en dos GPU puede no ser más rápido. Incluso puede ralentizarse debido a la sobrecarga de transferencia entre GPU. La estrategia predeterminada de Ollama de “usar una GPU cuando sea necesario” evita ese costo innecesario de PCIe.

No se requiere SLI o NVLink

Ollama multi-GPU no depende de SLI. Se pueden programar varias GPU PCIe normales siempre que el controlador y Ollama puedan detectarlas. NVLink o un ancho de banda PCIe superior puede ayudar en algunos escenarios entre GPU, pero no es un requisito. Muchos servidores y estaciones de trabajo GPU usados pueden ejecutar varias GPU a través de PCIe normal.

A lo que debes prestar atención es al ancho de banda PCIe. La diferencia entre x1, x4, x8 y x16 afecta la rapidez con la que se carga un modelo en VRAM. Si cambia con frecuencia de modelo grande, el ancho de banda PCIe se vuelve más importante. Después de cargar un modelo, PCIe generalmente importa menos durante la generación, pero la división entre GPU aún puede agregar gastos generales.

Reglas más seguras:

Prefiere las bandas x16/x8 a las bandas x1 estilo minería.
El ancho de banda PCIe es más importante cuando se cambian modelos grandes con frecuencia.
Si un modelo permanece residente en VRAM durante mucho tiempo, el ancho de banda PCIe es menos visible.
Para máquinas con múltiples GPU, verifique la topología PCIe de la placa base y los carriles conectados a la CPU.

Limite las GPU NVIDIA que utiliza Ollama

En sistemas NVIDIA con múltiples GPU, use CUDA_VISIBLE_DEVICES para controlar qué GPU puede ver Ollama.

Ejecución temporal:

`1`	`CUDA_VISIBLE_DEVICES=0,1 ollama serve`

Utilice sólo la segunda GPU:

`1`	`CUDA_VISIBLE_DEVICES=1 ollama serve`

Obligar a Ollama a no utilizar GPU NVIDIA:

`1`	`CUDA_VISIBLE_DEVICES=-1 ollama serve`

Los documentos oficiales señalan que los ID numéricos pueden cambiar de orden, por lo que los UUID de GPU son más confiables. Primero verifique los UUID:

`1`	`nvidia-smi -L`

Salida de ejemplo:

1
2

GPU 0: NVIDIA GeForce RTX 3090 (UUID: GPU-xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx)
GPU 1: NVIDIA GeForce RTX 3070 (UUID: GPU-yyyyyyyy-yyyy-yyyy-yyyy-yyyyyyyyyyyy)

Luego especifique el UUID:

`1`	`CUDA_VISIBLE_DEVICES=GPU-xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx ollama serve`

Si Ollama está instalado como un servicio systemd de Linux, coloque la variable en el entorno del servicio:

`1`	`sudo systemctl edit ollama.service`

Agregar:

1
2

[Service]
Environment="CUDA_VISIBLE_DEVICES=0,1"

Recargar y reiniciar:

1
2

sudo systemctl daemon-reload
sudo systemctl restart ollama

Selección de dispositivos AMD y Vulkan

Para AMD ROCm, use ROCR_VISIBLE_DEVICES para controlar las GPU visibles:

`1`	`ROCR_VISIBLE_DEVICES=0,1 ollama serve`

Para obligar a Ollama a no usar GPU ROCm, use una identificación no válida:

`1`	`ROCR_VISIBLE_DEVICES=-1 ollama serve`

Los documentos de GPU de Ollama también mencionan el soporte experimental de Vulkan. Para GPU Vulkan, use GGML_VK_VISIBLE_DEVICES:

`1`	`OLLAMA_VULKAN=1 GGML_VK_VISIBLE_DEVICES=0 ollama serve`

Si los dispositivos Vulkan causan problemas, desactívelos:

`1`	`GGML_VK_VISIBLE_DEVICES=-1 ollama serve`

Es más probable que las configuraciones de múltiples GPU de AMD tengan problemas de compatibilidad con el controlador, la versión ROCm y la versión GFX. Los documentos oficiales también mencionan los requisitos del controlador ROCm de Linux y las anulaciones de compatibilidad, como HSA_OVERRIDE_GFX_VERSION. Si combina diferentes generaciones de GPU AMD, primero verifique que cada tarjeta funcione por sí sola antes de probar con varias GPU.

Exponer varias GPU en Docker

Si ejecuta Ollama en Docker, las configuraciones de NVIDIA generalmente requieren nvidia-container-toolkit y luego --gpus para exponer los dispositivos.

Exponga todas las GPU:

docker run -d \
  --gpus=all \
  -v ollama:/root/.ollama \
  -p 11434:11434 \
  --name ollama \
  ollama/ollama

Exponer GPU específicas:

docker run -d \
  --gpus '"device=0,1"' \
  -v ollama:/root/.ollama \
  -p 11434:11434 \
  --name ollama \
  ollama/ollama

También puedes combinar esto con variables de entorno:

docker run -d \
  --gpus=all \
  -e CUDA_VISIBLE_DEVICES=0,1 \
  -v ollama:/root/.ollama \
  -p 11434:11434 \
  --name ollama \
  ollama/ollama

Si nvidia-smi no puede ver las GPU dentro del contenedor, Ollama tampoco puede usarlas. Primero solucione los problemas de transferencia de GPU de Docker y luego Ollama.

¿Qué es `OLLAMA_SCHED_SPREAD`?

En algunas discusiones sobre configuración de múltiples GPU, es posible que vea OLLAMA_SCHED_SPREAD=1 o OLLAMA_SCHED_SPREAD=true. Está relacionado con el programador de Ollama y se usa a menudo cuando las personas desean que los modelos o solicitudes se distribuyan más ampliamente entre las GPU.

Ejemplo:

`1`	`OLLAMA_SCHED_SPREAD=1 ollama serve`

O con systemd:

1
2

[Service]
Environment="OLLAMA_SCHED_SPREAD=true"

Pero no es un cambio mágico. Habilitarlo no implica un escalado lineal de tokens y aún puede ejecutarse en OOM cuando se cargan varios modelos, las estimaciones de VRAM son ajustadas, la longitud del contexto aumenta o la caché KV se expande. El comportamiento principal de las preguntas frecuentes todavía se aplica: si una GPU puede contener completamente el modelo, una GPU suele ser más eficiente; Si una GPU no puede contenerlo, entonces resulta útil la división entre varias GPU. Trate OLLAMA_SCHED_SPREAD como un experimento de programación avanzada, no como una configuración multi-GPU requerida. Primero, comprenda el comportamiento predeterminado y luego ajústelo según ollama ps, registros y nvidia-smi.

Cómo comprobar si se están utilizando varias GPU

Comandos útiles:

`1`	`ollama ps`

`1`	`watch -n 0.5 nvidia-smi`

Ver los registros del servicio de Ollama:

`1`	`journalctl -u ollama -f`

Si usa Docker:

`1`	`docker logs -f ollama`

Esté atento a:

Si Ollama descubre GPU compatibles.
Si el modelo muestra “100% GPU” o una división CPU/GPU.
Si cada GPU tiene VRAM asignada.
Si la VRAM crece en varias GPU durante la carga del modelo.
Si los tokens de generación mejoran en comparación con el desbordamiento de CPU/RAM.
Si la descarga de OOM o de modelos ocurre con frecuencia.

La utilización de la GPU por sí sola puede resultar engañosa. La inferencia LLM no siempre mantiene las GPU completamente cargadas, especialmente con varias GPU, tamaños de lote bajos, contextos pequeños, CPU lentas o enlaces PCIe lentos.

Malentendidos comunes

Malentendido 1: Dos GPU de 12 GB equivalen a una GPU de 24 GB

No exactamente. Varias GPU pueden colocar un modelo en varios dispositivos, pero el acceso entre dispositivos tiene una sobrecarga. Resuelve el problema de “no encaja”, pero no es equivalente a la velocidad y estabilidad de una GPU de gran VRAM.

Malentendido 2: No se pueden mezclar diferentes modelos de GPU

No necesariamente. Si el controlador, la capacidad informática y las bibliotecas de tiempo de ejecución son compatibles con las tarjetas, Ollama puede ver varias GPU. Pero las configuraciones mixtas suelen estar limitadas por una tarjeta más lenta, una VRAM más pequeña y una topología PCIe. La configuración más predecible sigue siendo el mismo modelo, el mismo tamaño de VRAM y controladores de la misma generación con buen soporte.

Malentendido 3: La GPU múltiple siempre es más rápida que la GPU única

No siempre. Si el modelo se adapta completamente a una GPU rápida, una GPU única puede ser más rápida. La GPU múltiple es útil principalmente para modelos grandes, contextos prolongados o VRAM de GPU única insuficiente.

Malentendido 4: Se requiere NVLink / SLI

No. Ollama puede utilizar sistemas PCIe múltiples-GPU ordinarios. NVLink no es un requisito previo.

Malentendido 5: Agregar una GPU no requiere reiniciar los servicios

No siempre es cierto. Es posible que sea necesario reiniciar los servicios systemd de Linux, las aplicaciones en segundo plano de Windows y los contenedores Docker antes de que redescubran dispositivos y variables de entorno.

Sugerencias de selección de GPU

Para la inferencia local de Ollama, la prioridad aproximada es:

La VRAM de una sola GPU más grande suele ser más fácil de administrar.
Las GPU idénticas son más fáciles de solucionar que las GPU mixtas.
Los carriles PCIe más completos facilitan la carga de modelos grandes.
Primero se debe verificar la capacidad de computación CUDA o la compatibilidad con ROCm en las tarjetas más antiguas.
La alimentación, la refrigeración y el flujo de aire del chasis de varias GPU deben planificarse con antelación.

Para plataformas económicas de segunda mano:

Dual RTX 3090 sigue siendo una opción común de alta VRAM.
Las tarjetas Tesla más antiguas, como la P40/M40, tienen una gran VRAM, pero la potencia, la refrigeración, la compatibilidad con el controlador y el rendimiento necesitan compensaciones.
Las tarjetas como RTX 4070/4070 Ti tienen buena eficiencia, pero la VRAM de una sola tarjeta puede ser limitante.
Puede ser divertido experimentar con varias tarjetas antiguas de 8 GB, pero no son ideales para ejecutar modelos grandes a largo plazo.

Resumen

La compatibilidad con múltiples GPU de Ollama se entiende mejor como “primero la expansión de VRAM y luego la aceleración del rendimiento”. Si el modelo cabe completamente en una GPU, la ruta predeterminada de una sola GPU suele ser más rápida. Si una GPU no puede contenerlo, varias GPU pueden distribuir el modelo entre dispositivos y evitar un gran desbordamiento de CPU/RAM, lo que hace que se puedan utilizar modelos más grandes.

En la práctica, use ollama ps para verificar dónde está cargado el modelo, luego use las herramientas nvidia-smi o ROCm para observar la asignación de VRAM. Para la selección de GPU, use CUDA_VISIBLE_DEVICES en NVIDIA, ROCR_VISIBLE_DEVICES en AMD ROCm y GGML_VK_VISIBLE_DEVICES para Vulkan. Si se ejecuta en Docker, primero asegúrese de que el contenedor pueda ver las GPU.

La multi-GPU no es mágica. Puede ayudar a adaptar modelos más grandes, pero no garantiza una aceleración lineal. La ruta estable sigue siendo preferir GPU únicas con gran VRAM o configuraciones idénticas de múltiples GPU, considerando al mismo tiempo la compatibilidad con controladores, PCIe, alimentación, refrigeración y cuantificación de modelos.

Referencias

Preguntas frecuentes de Ollama: ¿Cómo carga Ollama modelos en múltiples GPU?: https://github.com/ollama/ollama/blob/main/docs/faq.mdx
Documentos de Ollama GPU: soporte de hardware/selección de GPU: https://github.com/ollama/ollama/blob/main/docs/gpu.mdx
Centro Docker de Ollama: https://hub.docker.com/r/ollama/ollama
Kit de herramientas de contenedor NVIDIA: https://github.com/NVIDIA/nvidia-container-toolkit

Cómo comprobar si un modelo de Ollama ya se cargó en la GPU

Mon, 06 Apr 2026 10:15:18 +0800

Si quieres confirmar si un modelo de Ollama se está ejecutando realmente en la GPU, el método más directo es revisar la información de uso de procesador de los modelos cargados actualmente.

Comando

`1`	`ollama ps`

Salida de ejemplo

1
2

NAME        ID            SIZE    PROCESSOR   UNTIL
llama3:70b  bcfb190ca3a7  42 GB   100% GPU    4 minutes from now

Cómo interpretar la columna `PROCESSOR`

100% GPU: el modelo está cargado por completo en la memoria de la GPU.
100% CPU: el modelo está cargado por completo en la memoria del sistema (no usa GPU para inferencia).
48%/52% CPU/GPU: una parte del modelo está en memoria del sistema y otra en memoria de GPU; es una carga mixta.

Consejos prácticos

Si esperas usar GPU pero ves 100% CPU, revisa primero el driver de la tarjeta gráfica, el entorno CUDA/ROCm y los parámetros de ejecución de Ollama.
Cuando el modelo es grande y la memoria de GPU no alcanza, suele aparecer una carga mixta CPU/GPU.
Al diagnosticar problemas de rendimiento, ejecuta primero ollama ps y luego mira los datos de velocidad; así podrás ubicar antes el cuello de botella.

Resumen

ollama ps es el primer paso para saber si un modelo está usando realmente la GPU. Basta con fijarse en la columna PROCESSOR para confirmar rápidamente dónde está cargado el modelo y decidir la siguiente dirección de optimización.

GPU on KnightLi Blog

Cómo elegir una GPU en abril de 2026: qué modelos evitar y cuáles vale más la pena considerar

Modelos que no priorizaría

1. RTX 5060 Ti 8GB

2. Tarjetas antiguas y caras, especialmente RTX 3080 10GB y RTX 3070 Ti cuando todavía tienen un precio elevado

3. Insignias más antiguas con un historial poco claro, como RTX 3090 y RTX 3080 Ti

4. RTX 5070 cuando el precio no es el adecuado

Modelos que tienen más sentido

1. RTX 5060 Ti 16GB

2. RTX 5070 Ti

3. Las tarjetas nuevas con un precio adecuado suelen ser una mejor primera opción que las tarjetas más antiguas de alta gama

Si solo quieres la versión corta

Línea final

Actualizaciones de hardware y GPU Ubuntu 26.04 LTS: CUDA, ROCm, DPC++ y más cambios de plataforma

1. Intel DPC++ y componentes relacionados ahora están en Ubuntu Archive

2. El kit de herramientas NVIDIA CUDA ahora se puede instalar directamente con apt

3. AMD ROCm 7.1.0 ya está en Universe

4. La historia más importante es que los tres ecosistemas de GPU están aterrizando

5. NVIDIA Dynamic Boost está habilitado de forma predeterminada

6. La compatibilidad con las nuevas GPU Intel integradas y discretas sigue avanzando

7. Suspender y reanudar también es más estable en las computadoras de escritorio Nvidia

8. ARM, Raspberry Pi, RISC-V e IBM Z también reciben cambios más difíciles a nivel de plataforma

Plataformas de escritorio ARM64

Un nuevo diseño de arranque de Raspberry Pi

Las imágenes de escritorio de Raspberry Pi ahora usan escritorio mínimo

El intercambio en Raspberry Pi ahora lo maneja cloud-init

Los requisitos de RISC-V han aumentado

IBM Z ahora requiere z15 como mínimo

9. ¿Quién debería leer esto primero?

10. Comida para llevar de una línea

12V-2x6 frente a 12VHPWR: notas sobre las diferencias en el conector de alimentación de 16 pines de la GPU

01 Las diferencias de cables son pequeñas

02 Cambios mecánicos clave

03 Lógica SENTIDA más conservadora

04 Qué significa H++

05 Qué significa para la construcción de PC

06 Resumen rápido

Notas de Ollama Multi-GPU: agrupación de VRAM, selección de GPU y malentendidos comunes

Comportamiento oficial: GPU única primero, GPU múltiple cuando sea necesario

Multi-GPU no es un simple apilamiento informático

No se requiere SLI o NVLink

Limite las GPU NVIDIA que utiliza Ollama

Selección de dispositivos AMD y Vulkan

Exponer varias GPU en Docker

¿Qué es OLLAMA_SCHED_SPREAD?

Cómo comprobar si se están utilizando varias GPU

Malentendidos comunes

Malentendido 1: Dos GPU de 12 GB equivalen a una GPU de 24 GB

Malentendido 2: No se pueden mezclar diferentes modelos de GPU

Malentendido 3: La GPU múltiple siempre es más rápida que la GPU única

Malentendido 4: Se requiere NVLink / SLI

Malentendido 5: Agregar una GPU no requiere reiniciar los servicios

Sugerencias de selección de GPU

Resumen

Referencias

Cómo comprobar si un modelo de Ollama ya se cargó en la GPU

Comando

Salida de ejemplo

Cómo interpretar la columna PROCESSOR

Consejos prácticos

Resumen

1. `RTX 5060 Ti 8GB`

2. Tarjetas antiguas y caras, especialmente `RTX 3080 10GB` y `RTX 3070 Ti` cuando todavía tienen un precio elevado

3. Insignias más antiguas con un historial poco claro, como `RTX 3090` y `RTX 3080 Ti`

4. `RTX 5070` cuando el precio no es el adecuado

1. `RTX 5060 Ti 16GB`

2. `RTX 5070 Ti`

2. El kit de herramientas NVIDIA CUDA ahora se puede instalar directamente con `apt`

¿Qué es `OLLAMA_SCHED_SPREAD`?

Cómo interpretar la columna `PROCESSOR`