手元に Tesla V100 があり、まず基本的なヘルスチェックをしたいなら、優先して確認したい項目のひとつが ECC の状態です。
最も手軽な方法は、nvidia-smi でカードの詳細情報を確認することです。
1
2
3
|
nvidia-smi -q
# 查询第 0 块 GPU
nvidia-smi -q -i 0
|
見るべきなのは ECC Errors のセクションです。
正常な状態のカードであれば、ECC Errors の下にある代表的な 4 つの統計グループは、いずれも 0 または N/A であるはずです。ここにすでに非ゼロの値がある場合、そのカードは過去に対応する種類の ECC 異常を起こしたことがあるため、引き続き使用してよいか追加で判断する必要があります。
参考出力は次のとおりです。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
|
nvidia-smi -q
ECC Mode
Current : Enabled
Pending : Enabled
ECC Errors
Volatile
Single Bit
Device Memory : 0
Register File : 0
L1 Cache : 0
L2 Cache : 0
Texture Memory : N/A
Texture Shared : N/A
CBU : N/A
Total : 0
Double Bit
Device Memory : 0
Register File : 0
L1 Cache : 0
L2 Cache : 0
Texture Memory : N/A
Texture Shared : N/A
CBU : 0
Total : 0
Aggregate
Single Bit
Device Memory : 0
Register File : 0
L1 Cache : 0
L2 Cache : 0
Texture Memory : N/A
Texture Shared : N/A
CBU : N/A
Total : 0
Double Bit
Device Memory : 0
Register File : 0
L1 Cache : 0
L2 Cache : 0
Texture Memory : N/A
Texture Shared : N/A
CBU : 0
Total : 0
Retired Pages
|
簡単に整理すると、次のように理解できます。
Volatile は今回の通電サイクル内でのエラー統計
Aggregate は累積エラー統計
Single Bit は訂正可能エラー
Double Bit は訂正不能エラーで、よりリスクが高い
素早くふるい分けしたいだけなら、まずは次の基準を覚えておけば十分です。
- ほとんどの項目は
0 であるべき
- 該当しない項目が
N/A なのは正常
Double Bit や合計値が 0 でない場合は、売り手の説明だけを鵜呑みにせず、より十分なストレステストと安定性確認を続けるべき
この確認だけで完全な検品にはなりませんが、V100 を入手した直後の第一段階のチェックとしては十分に実用的です。