如何检查 Tesla V100 是否存在 ECC 错误

用 nvidia-smi 快速查看 Tesla V100 的 ECC 状态,并判断哪些错误计数应为 0 或 N/A。

如果你手上有一张 Tesla V100,想先做最基础的健康检查,ECC 状态是很值得优先看的项目。

最直接的方法就是用 nvidia-smi 查看显卡详细信息。

1
2
3
nvidia-smi -q
# 查询第 0 块 GPU
nvidia-smi -q -i 0

重点看 ECC Errors 这一段。

一张状态正常的卡,ECC Errors 下面常见的 4 段统计都应该是 0N/A。如果这里已经出现非零值,就说明这张卡曾经出现过对应类型的 ECC 异常,需要继续判断是否适合继续使用。

参考输出如下:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
nvidia-smi -q
    ECC Mode
        Current                          : Enabled
        Pending                          : Enabled
    ECC Errors
        Volatile
            Single Bit
                Device Memory            : 0
                Register File            : 0
                L1 Cache                 : 0
                L2 Cache                 : 0
                Texture Memory           : N/A
                Texture Shared           : N/A
                CBU                      : N/A
                Total                    : 0
            Double Bit
                Device Memory            : 0
                Register File            : 0
                L1 Cache                 : 0
                L2 Cache                 : 0
                Texture Memory           : N/A
                Texture Shared           : N/A
                CBU                      : 0
                Total                    : 0
        Aggregate
            Single Bit
                Device Memory            : 0
                Register File            : 0
                L1 Cache                 : 0
                L2 Cache                 : 0
                Texture Memory           : N/A
                Texture Shared           : N/A
                CBU                      : N/A
                Total                    : 0
            Double Bit
                Device Memory            : 0
                Register File            : 0
                L1 Cache                 : 0
                L2 Cache                 : 0
                Texture Memory           : N/A
                Texture Shared           : N/A
                CBU                      : 0
                Total                    : 0
    Retired Pages

可以简单这样理解:

  • Volatile 是本次上电周期内的错误统计
  • Aggregate 是累计错误统计
  • Single Bit 是可纠正错误
  • Double Bit 是不可纠正错误,风险更高

如果你只是想做快速筛查,先记住一个实用标准:

  • 大部分项目应为 0
  • 某些不适用项目显示 N/A 也正常
  • 如果 Double Bit 或总数不是 0,就不要只看卖家口头描述,最好继续做更完整的压力测试和稳定性验证

这一步不能代替完整验卡,但足够作为 V100 到手后的第一轮排查。

记录并分享
使用 Hugo 构建
主题 StackJimmy 设计