如何檢查 Tesla V100 是否存在 ECC 錯誤

用 nvidia-smi 快速查看 Tesla V100 的 ECC 狀態,並判斷哪些錯誤計數應為 0 或 N/A。

如果你手上有一張 Tesla V100,想先做最基礎的健康檢查,ECC 狀態是很值得優先看的項目。

最直接的方法,就是用 nvidia-smi 查看顯卡詳細資訊。

1
2
3
nvidia-smi -q
# 查询第 0 块 GPU
nvidia-smi -q -i 0

重點看 ECC Errors 這一段。

一張狀態正常的卡,ECC Errors 下面常見的 4 段統計都應該是 0N/A。如果這裡已經出現非零值,就代表這張卡曾經出現過對應類型的 ECC 異常,需要進一步判斷是否適合繼續使用。

參考輸出如下:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
nvidia-smi -q
    ECC Mode
        Current                          : Enabled
        Pending                          : Enabled
    ECC Errors
        Volatile
            Single Bit
                Device Memory            : 0
                Register File            : 0
                L1 Cache                 : 0
                L2 Cache                 : 0
                Texture Memory           : N/A
                Texture Shared           : N/A
                CBU                      : N/A
                Total                    : 0
            Double Bit
                Device Memory            : 0
                Register File            : 0
                L1 Cache                 : 0
                L2 Cache                 : 0
                Texture Memory           : N/A
                Texture Shared           : N/A
                CBU                      : 0
                Total                    : 0
        Aggregate
            Single Bit
                Device Memory            : 0
                Register File            : 0
                L1 Cache                 : 0
                L2 Cache                 : 0
                Texture Memory           : N/A
                Texture Shared           : N/A
                CBU                      : N/A
                Total                    : 0
            Double Bit
                Device Memory            : 0
                Register File            : 0
                L1 Cache                 : 0
                L2 Cache                 : 0
                Texture Memory           : N/A
                Texture Shared           : N/A
                CBU                      : 0
                Total                    : 0
    Retired Pages

可以簡單這樣理解:

  • Volatile 是本次上電週期內的錯誤統計
  • Aggregate 是累計錯誤統計
  • Single Bit 是可糾正錯誤
  • Double Bit 是不可糾正錯誤,風險更高

如果你只是想做快速篩查,先記住一個實用標準:

  • 大部分項目應為 0
  • 某些不適用項目顯示 N/A 也正常
  • 如果 Double Bit 或總數不是 0,就不要只看賣家口頭描述,最好繼續做更完整的壓力測試與穩定性驗證

這一步不能取代完整驗卡,但足夠作為 V100 到手後的第一輪排查。

记录并分享
使用 Hugo 建立
主題 StackJimmy 設計