Tesla V100 に ECC エラーがあるか確認する方法

nvidia-smi を使って Tesla V100 の ECC 状態をすばやく確認し、どのエラーカウンタが 0 または N/A であるべきかを判断します。

手元に Tesla V100 があり、まず基本的なヘルスチェックをしたいなら、優先して確認したい項目のひとつが ECC の状態です。

最も手軽な方法は、nvidia-smi でカードの詳細情報を確認することです。

1
2
3
nvidia-smi -q
# 查询第 0 块 GPU
nvidia-smi -q -i 0

見るべきなのは ECC Errors のセクションです。

正常な状態のカードであれば、ECC Errors の下にある代表的な 4 つの統計グループは、いずれも 0 または N/A であるはずです。ここにすでに非ゼロの値がある場合、そのカードは過去に対応する種類の ECC 異常を起こしたことがあるため、引き続き使用してよいか追加で判断する必要があります。

参考出力は次のとおりです。

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
nvidia-smi -q
    ECC Mode
        Current                          : Enabled
        Pending                          : Enabled
    ECC Errors
        Volatile
            Single Bit
                Device Memory            : 0
                Register File            : 0
                L1 Cache                 : 0
                L2 Cache                 : 0
                Texture Memory           : N/A
                Texture Shared           : N/A
                CBU                      : N/A
                Total                    : 0
            Double Bit
                Device Memory            : 0
                Register File            : 0
                L1 Cache                 : 0
                L2 Cache                 : 0
                Texture Memory           : N/A
                Texture Shared           : N/A
                CBU                      : 0
                Total                    : 0
        Aggregate
            Single Bit
                Device Memory            : 0
                Register File            : 0
                L1 Cache                 : 0
                L2 Cache                 : 0
                Texture Memory           : N/A
                Texture Shared           : N/A
                CBU                      : N/A
                Total                    : 0
            Double Bit
                Device Memory            : 0
                Register File            : 0
                L1 Cache                 : 0
                L2 Cache                 : 0
                Texture Memory           : N/A
                Texture Shared           : N/A
                CBU                      : 0
                Total                    : 0
    Retired Pages

簡単に整理すると、次のように理解できます。

  • Volatile は今回の通電サイクル内でのエラー統計
  • Aggregate は累積エラー統計
  • Single Bit は訂正可能エラー
  • Double Bit は訂正不能エラーで、よりリスクが高い

素早くふるい分けしたいだけなら、まずは次の基準を覚えておけば十分です。

  • ほとんどの項目は 0 であるべき
  • 該当しない項目が N/A なのは正常
  • Double Bit や合計値が 0 でない場合は、売り手の説明だけを鵜呑みにせず、より十分なストレステストと安定性確認を続けるべき

この確認だけで完全な検品にはなりませんが、V100 を入手した直後の第一段階のチェックとしては十分に実用的です。

记录并分享
Hugo で構築されています。
テーマ StackJimmy によって設計されています。