Cómo comprobar si una Tesla V100 tiene errores ECC

Usa nvidia-smi para inspeccionar rápidamente el estado ECC de una Tesla V100 y determinar qué contadores deberían ser 0 o N/A.

Si tienes una Tesla V100 y quieres hacer primero una revisión básica de salud, el estado ECC es una de las cosas más útiles que mirar.

El método más directo es inspeccionar la información detallada de la tarjeta con nvidia-smi.

1
2
3
nvidia-smi -q
# Query GPU 0
nvidia-smi -q -i 0

Concéntrate en la sección ECC Errors.

En una tarjeta en estado normal, los cuatro grupos comunes de contadores bajo ECC Errors deberían ser 0 o N/A. Si alguno ya muestra un valor distinto de cero, significa que la tarjeta ha visto ese tipo de anomalía ECC antes, y deberías evaluar con más detalle si sigue siendo adecuada para uso continuo.

Salida de referencia:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
nvidia-smi -q
    ECC Mode
        Current                          : Enabled
        Pending                          : Enabled
    ECC Errors
        Volatile
            Single Bit
                Device Memory            : 0
                Register File            : 0
                L1 Cache                 : 0
                L2 Cache                 : 0
                Texture Memory           : N/A
                Texture Shared           : N/A
                CBU                      : N/A
                Total                    : 0
            Double Bit
                Device Memory            : 0
                Register File            : 0
                L1 Cache                 : 0
                L2 Cache                 : 0
                Texture Memory           : N/A
                Texture Shared           : N/A
                CBU                      : 0
                Total                    : 0
        Aggregate
            Single Bit
                Device Memory            : 0
                Register File            : 0
                L1 Cache                 : 0
                L2 Cache                 : 0
                Texture Memory           : N/A
                Texture Shared           : N/A
                CBU                      : N/A
                Total                    : 0
            Double Bit
                Device Memory            : 0
                Register File            : 0
                L1 Cache                 : 0
                L2 Cache                 : 0
                Texture Memory           : N/A
                Texture Shared           : N/A
                CBU                      : 0
                Total                    : 0
    Retired Pages

Puedes pensarlo así:

  • Volatile es el conteo de errores del ciclo de encendido actual
  • Aggregate es el conteo acumulado durante la vida de la tarjeta
  • Single Bit significa errores corregibles
  • Double Bit significa errores no corregibles, más serios

Si solo quieres una regla rápida de cribado:

  • La mayoría de elementos deberían ser 0
  • N/A es normal en entradas no aplicables
  • Si Double Bit o el total no es 0, no te fíes solo de la descripción verbal del vendedor; conviene seguir con stress tests y comprobaciones de estabilidad

Esto no reemplaza una inspección completa, pero basta para una primera revisión cuando llega una V100.

记录并分享
Creado con Hugo
Tema Stack diseñado por Jimmy