Si tienes una Tesla V100 y quieres hacer primero una revisión básica de salud, el estado ECC es una de las cosas más útiles que mirar.
El método más directo es inspeccionar la información detallada de la tarjeta con nvidia-smi.
|
|
Concéntrate en la sección ECC Errors.
En una tarjeta en estado normal, los cuatro grupos comunes de contadores bajo ECC Errors deberían ser 0 o N/A. Si alguno ya muestra un valor distinto de cero, significa que la tarjeta ha visto ese tipo de anomalía ECC antes, y deberías evaluar con más detalle si sigue siendo adecuada para uso continuo.
Salida de referencia:
|
|
Puedes pensarlo así:
Volatilees el conteo de errores del ciclo de encendido actualAggregatees el conteo acumulado durante la vida de la tarjetaSingle Bitsignifica errores corregiblesDouble Bitsignifica errores no corregibles, más serios
Si solo quieres una regla rápida de cribado:
- La mayoría de elementos deberían ser
0 N/Aes normal en entradas no aplicables- Si
Double Bito el total no es0, no te fíes solo de la descripción verbal del vendedor; conviene seguir con stress tests y comprobaciones de estabilidad
Esto no reemplaza una inspección completa, pero basta para una primera revisión cuando llega una V100.