如果你手上有一張 Tesla V100,想先做最基礎的健康檢查,ECC 狀態是很值得優先看的項目。
最直接的方法,就是用 nvidia-smi 查看顯卡詳細資訊。
1
2
3
|
nvidia-smi -q
# 查询第 0 块 GPU
nvidia-smi -q -i 0
|
重點看 ECC Errors 這一段。
一張狀態正常的卡,ECC Errors 下面常見的 4 段統計都應該是 0 或 N/A。如果這裡已經出現非零值,就代表這張卡曾經出現過對應類型的 ECC 異常,需要進一步判斷是否適合繼續使用。
參考輸出如下:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
|
nvidia-smi -q
ECC Mode
Current : Enabled
Pending : Enabled
ECC Errors
Volatile
Single Bit
Device Memory : 0
Register File : 0
L1 Cache : 0
L2 Cache : 0
Texture Memory : N/A
Texture Shared : N/A
CBU : N/A
Total : 0
Double Bit
Device Memory : 0
Register File : 0
L1 Cache : 0
L2 Cache : 0
Texture Memory : N/A
Texture Shared : N/A
CBU : 0
Total : 0
Aggregate
Single Bit
Device Memory : 0
Register File : 0
L1 Cache : 0
L2 Cache : 0
Texture Memory : N/A
Texture Shared : N/A
CBU : N/A
Total : 0
Double Bit
Device Memory : 0
Register File : 0
L1 Cache : 0
L2 Cache : 0
Texture Memory : N/A
Texture Shared : N/A
CBU : 0
Total : 0
Retired Pages
|
可以簡單這樣理解:
Volatile 是本次上電週期內的錯誤統計
Aggregate 是累計錯誤統計
Single Bit 是可糾正錯誤
Double Bit 是不可糾正錯誤,風險更高
如果你只是想做快速篩查,先記住一個實用標準:
- 大部分項目應為
0
- 某些不適用項目顯示
N/A 也正常
- 如果
Double Bit 或總數不是 0,就不要只看賣家口頭描述,最好繼續做更完整的壓力測試與穩定性驗證
這一步不能取代完整驗卡,但足夠作為 V100 到手後的第一輪排查。