¿Sigue valiendo la pena comprar una Tesla V100? ECC, mods de refrigeración y trampas DIY

Guía práctica para comprar una Tesla V100: cómo leer fechas de producción y pistas visuales, interpretar ECC, detectar manipulación y entender por qué la refrigeración y alimentación DIY fallan tan fácilmente.

Si has estado mirando tarjetas Tesla V100 usadas, probablemente viste dos opiniones muy distintas:

  • un lado dice que la tarjeta sigue siendo fuerte y ofrece gran valor
  • el otro dice que el mercado está lleno de trampas y que los usuarios DIY pueden quemarse fácilmente

Ambas son ciertas.

El punto no es que V100 sea incomprable. El punto es que no puedes comprarla como comprarías una GPU de consumo normal. No importa solo si arranca, ni si el vendedor dice “como nueva” o “retirada de servidor original”. Importa si fue manipulada, cómo se ve su estado ECC y si el setup de refrigeración y alimentación es realmente fiable.

Este artículo reúne los controles más útiles para comprar y usar una en la práctica.

Resumen rápido

Si solo quieres la versión corta:

  • V100 se produjo aproximadamente de 2017 a 2021, y las tarjetas 16G de 2021 son poco comunes
  • mirar solo “ECC cero” u “original pull” no basta, porque tanto datos como estado físico pueden alterarse
  • el mayor riesgo no suele ser comprar una tarjeta vieja, sino una que fue desmontada, reflasheada o usada con mala refrigeración
  • para usuarios DIY, el problema real suele estar en la placa adaptadora, alimentación, temperatura hotspot y refrigeración de backplate

1. Empieza por fecha de producción y pistas de lote

Un método práctico es revisar primero la fecha del chip y luego ver si las fechas de componentes cercanos encajan.

Tesla V100

Por ejemplo, si la superficie del chip muestra 1828, normalmente significa:

  • 18 = año 2018
  • 28 = semana 28

Ese chip se produjo en la semana 28 de 2018.

Además del encapsulado del chip, los inductores cercanos suelen tener marcas relacionadas con fecha. Si la fecha del chip y la de los inductores están muy separadas, por ejemplo:

  • chip de 2017
  • inductores que apuntan a 2020

conviene tener cuidado. No prueba automáticamente que la tarjeta sea mala, pero sugiere que ya no está en estado muy original.

Si las fechas encajan de forma amplia, como un chip 2018 con componentes 2018, o un chip de finales de 2019 con componentes 2020, eso es mucho más normal.

2. No mires solo el chip: revisa inductores, resortes y marco

La inspección visual conviene dividirla en varios controles.

1. Toca primero los inductores

Presiona o toca suavemente los inductores. En condiciones normales, ninguno debería sentirse suelto.

Si alguno se mueve, suele significar:

  • la soldadura no está sana
  • el problema puede empeorar con el uso

Aunque la tarjeta funcione ahora, no es una buena señal.

2. Revisa si el resorte de retención fue retirado antes

Hay una lógica útil:

  • si el vendedor insiste en que es una “original server pull”
  • entonces el resorte de retención normalmente no debería haberse retirado casualmente

En un entorno normal de servidor de fábrica, la gente no retira ese resorte sin razón.

Si el resorte sale muy fácil, probablemente la tarjeta fue abierta antes. Si el vendedor además dice que nunca fue tocada, esa afirmación merece escepticismo.

3. Si el marco se separa demasiado fácil, también sospecha

Una vez retirado el marco medio, si toda la estructura se separa casi sin esfuerzo, suele significar que la tarjeta ya fue desmontada varias veces.

En V100 usadas, reflasheos, modificaciones y reparaciones suelen dejar exactamente ese tipo de trazas.

3. Si el backplate se separa demasiado fácil, sospecha reflasheo o manipulación previa

Un detalle importante es que hay una placa metálica bajo el PCB. No solo protege; también ayuda a disipar calor.

En estado original normal, este backplate no suele ser fácil de retirar por:

  • adhesivo
  • ajuste estructural estrecho
  • diseño no pensado para desmontajes repetidos

Si el backplate se separa del PCB con poca fuerza, sospecha:

  • fue abierta antes
  • pudo tener VBIOS reflasheado
  • pudo sufrir modificaciones secundarias

No la vuelve automáticamente inutilizable, pero contradice claramente “original e intacta”.

4. Cómo leer ECC: importa más si crece que si es cero

ECC es una de las primeras cosas que se miran en una V100, y hay que interpretarlo con cuidado.

Un método común es usar nvidia-smi en modo detallado y revisar ECC Errors.

1. Los errores en tiempo real son los más peligrosos

La sección superior puede entenderse como errores en tiempo real.

Si esos números siguen aumentando mientras la tarjeta corre, normalmente significa que ya está en estado inestable.

En simple:

  • una tarjeta que corre sin nuevos errores importa más que una lectura estática de cero
  • una tarjeta cuyos errores aumentan bajo estrés preocupa mucho más que una con solo conteos históricos acumulados

2. Los errores acumulados de por vida no siempre son terroríficos

Otra sección muestra errores acumulados de vida útil.

Si esos valores son:

  • de un solo dígito
  • o quizá decenas bajas

no es automáticamente desastre.

Si los errores en tiempo real no siguen aumentando durante uso real, la tarjeta puede seguir siendo perfectamente usable.

3. La sección de page retirement merece más atención

La sección de page retirement es aún más importante, porque indica bloques de memoria retirados tras errores no corregibles.

Una forma práctica de verlo:

  • categorías single-bit y double-bit pueden tener bloques retirados
  • si el total supera 10, entras en una zona donde conviene cautela

No siempre significa que la tarjeta sea inutilizable, pero sugiere menor memoria efectiva y menor confianza a largo plazo.

5. No veneres “zero ECC”: los datos pueden manipularse

Advertencia práctica:

los números ECC no son sagrados por sí mismos.

Si una tarjeta tiene:

  • datos extremadamente limpios
  • señales obvias de desmontaje
  • estructura claramente trabajada

no confíes en “zero ECC” por sí solo.

La analogía útil es un coche viejo que de pronto muestra 0 kilometraje y casi nada de desgaste. Cuesta no sospechar del odómetro.

Con V100 aplica igual:

  • números demasiado perfectos no siempre son buena noticia
  • importa que datos, estado físico y comportamiento bajo estrés tengan sentido juntos

6. El stress test es necesario, pero no basta probar el core

Puedes usar herramientas como gpu-burn durante varios minutos o más y observar:

  • si permanece estable
  • si la tarjeta desaparece
  • si aparecen nuevos errores ECC

Pero probar solo el core no demuestra que toda la tarjeta esté sana.

Muchos fallos de V100 no empiezan en el core, sino en:

  • sobrecalentamiento de alimentación
  • refrigeración insuficiente del backplate
  • temperaturas hotspot excesivas
  • adaptadores y refrigeración operando demasiado al límite

El stress test solo prueba que “la tarjeta corre ahora”. No prueba que “este setup DIY sobrevivirá a largo plazo”.

7. Para DIY, el punto débil suele ser refrigeración y alimentación

Esta quizá sea la parte más importante.

Para usuarios DIY, combinar una base adaptadora cualquiera con un cooler genérico no es un plan robusto.

V100 no es una tarjeta de consumo normal. Es un acelerador de servidor con:

  • alto consumo
  • alta densidad térmica
  • distribución de calor complicada

El chip no es lo único que genera calor. Backplate, zona de alimentación y conectores también se calientan, a veces mucho.

1. No mires solo temperatura promedio de GPU

Muchas herramientas muestran temperatura promedio, pero el número peligroso suele ser el hot spot.

Puede pasar que:

  • la temperatura visible esté en 60 y pico Celsius
  • mientras hotspots locales ya superen 100C

Por eso algunos builds DIY de V100 parecen “bien” en papel y luego mueren de repente.

2. La refrigeración de backplate debe considerarse

No puedes ignorar backplate y zona de alimentación.

Si solo enfrías el core, pero:

  • descuidas la zona MOS
  • el backplate no recibe ayuda térmica
  • la parte trasera carece de diseño térmico adecuado

el setup sigue incompleto.

3. Los water-cooling improvisados baratos son riesgosos

Cuidado con setups tipo “adaptador aleatorio + AIO barato”.

El problema no es que fallen siempre de inmediato. Es que a menudo tienen:

  • cobertura desigual de canales de agua
  • refrigeración incompleta de alimentación
  • control pobre de zonas hotspot reales
  • vida útil impredecible

8. Si aún quieres DIY, vigila al menos esto

Recomendaciones prácticas:

  • prefiere adaptadores más maduros y con historial
  • no te centres solo en el core; alimentación trasera y backplate también necesitan atención térmica
  • el bloque de agua necesita cobertura real y manejo uniforme del calor
  • tras stress test, sigue observando temperaturas, hotspots y comportamiento a largo plazo
  • la calidad de PSU también afecta coil whine y estabilidad

Lo difícil de un build V100 DIY no es “hacer que arranque”. Es “mantenerlo vivo y estable después”.

9. Coil whine y variación de adaptadores también son problemas reales

Dos puntos se pasan por alto.

1. El coil whine quizá no se elimine del todo

Depende de la tarjeta concreta, inductores, capacitores y entorno de alimentación. No siempre se arregla con un cable o accesorio.

2. La variación entre adaptadores es enorme

Por eso algunos vendedores, incluso vendiendo tarjeta desnuda, enfatizan:

  • probarla en banco primero
  • registrar número de serie
  • hacer stress tests
  • documentar el proceso

Muchos conflictos no vienen del silicio, sino del adaptador y la refrigeración usados después.

Cierre

¿Sigue valiendo la pena comprar Tesla V100? Sí, pero solo si entiendes qué compras y cómo planeas usarla.

No basta revisar:

  • si enciende
  • si ECC está todo en cero
  • si el vendedor dice “original pull”

Es más útil verificar:

  • si fechas y pistas de lote encajan
  • si hay señales sospechosas de desmontaje
  • si backplate y estructura fueron abiertos
  • si los errores aumentan bajo stress test
  • si tu refrigeración y alimentación son confiables

Especialmente para usuarios DIY, la parte más peligrosa de V100 no suele ser comprar una tarjeta vieja, sino subestimar lo exigentes que son en refrigeración, alimentación y calidad de modificación.

记录并分享
Creado con Hugo
Tema Stack diseñado por Jimmy