如果你手上有一张 Tesla V100,想先做最基础的健康检查,ECC 状态是很值得优先看的项目。
最直接的方法就是用 nvidia-smi 查看显卡详细信息。
1
2
3
|
nvidia-smi -q
# 查询第 0 块 GPU
nvidia-smi -q -i 0
|
重点看 ECC Errors 这一段。
一张状态正常的卡,ECC Errors 下面常见的 4 段统计都应该是 0 或 N/A。如果这里已经出现非零值,就说明这张卡曾经出现过对应类型的 ECC 异常,需要继续判断是否适合继续使用。
参考输出如下:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
|
nvidia-smi -q
ECC Mode
Current : Enabled
Pending : Enabled
ECC Errors
Volatile
Single Bit
Device Memory : 0
Register File : 0
L1 Cache : 0
L2 Cache : 0
Texture Memory : N/A
Texture Shared : N/A
CBU : N/A
Total : 0
Double Bit
Device Memory : 0
Register File : 0
L1 Cache : 0
L2 Cache : 0
Texture Memory : N/A
Texture Shared : N/A
CBU : 0
Total : 0
Aggregate
Single Bit
Device Memory : 0
Register File : 0
L1 Cache : 0
L2 Cache : 0
Texture Memory : N/A
Texture Shared : N/A
CBU : N/A
Total : 0
Double Bit
Device Memory : 0
Register File : 0
L1 Cache : 0
L2 Cache : 0
Texture Memory : N/A
Texture Shared : N/A
CBU : 0
Total : 0
Retired Pages
|
可以简单这样理解:
Volatile 是本次上电周期内的错误统计
Aggregate 是累计错误统计
Single Bit 是可纠正错误
Double Bit 是不可纠正错误,风险更高
如果你只是想做快速筛查,先记住一个实用标准:
- 大部分项目应为
0
- 某些不适用项目显示
N/A 也正常
- 如果
Double Bit 或总数不是 0,就不要只看卖家口头描述,最好继续做更完整的压力测试和稳定性验证
这一步不能代替完整验卡,但足够作为 V100 到手后的第一轮排查。