NVIDIA nvbandwidth 是什麼：GPU 頻寬測試工具怎麼用

如果你最近在排查多張 NVIDIA GPU 之間的互連效能，或是想確認 PCIe、NVLink、主機記憶體到顯存之間的實際頻寬，NVIDIA/nvbandwidth 是一個很值得知道的小工具。

它不是通用跑分軟體，也不是大模型框架裡的隱藏命令，而是 NVIDIA 開源出來、專門用來測量 GPU 相關記憶體拷貝頻寬與延遲的工具。相比只看理論頻寬，nvbandwidth 更適合回答一個實際問題：這台機器目前這組 GPU 和互連鏈路，實際到底能跑出多少頻寬。

1. `nvbandwidth` 是做什麼的

從官方 README 的定位來看，nvbandwidth 是一個用來測量 NVIDIA GPU 頻寬的命令列工具。

它重點關注的是各種 memcpy 模式下的傳輸表現，例如：

GPU -> GPU
CPU -> GPU
GPU -> CPU
多節點 GPU 之間的傳輸

這類測試特別適合下面幾種場景：

排查多卡訓練或推理時的互連瓶頸
驗證 NVLink、PCIe、C2C 等鏈路的實際表現
比較不同伺服器、不同拓撲、不同驅動或 CUDA 版本下的傳輸差異
做叢集部署前的基礎硬體驗收

簡單說，nvbandwidth 看的不是模型吞吐，而是更底層的「資料搬運能力」。

2. 它測的不是單一分數

很多人會把「頻寬測試」理解成最後只得到一個分數，但 nvbandwidth 實際輸出的資訊會更細。

它會依照測試類型給出矩陣結果。比如在 device_to_device_memcpy_write_ce 這類測試裡，輸出會按 GPU 的行列展示每一對裝置之間的頻寬。這樣你不只知道「這台機器大概有多快」，還可以看出：

哪兩張卡之間速度特別高
哪些卡之間明顯受限於 PCIe
某些 GPU 配對之間是否存在異常低頻寬
多卡拓撲是否符合預期

如果你在看八卡伺服器、雙路平台或跨節點系統，這類矩陣結果通常會比單一平均值更有參考意義。

3. `CE` 和 `SM` 兩類拷貝怎麼理解

官方文件把測試分成兩類：

CE：基於 memcpy API 的 copy engine 拷貝
SM：基於 kernel 的拷貝

這兩類結果不一定會完全一樣，因為它們代表的是不同的拷貝路徑。
如果你只是想看裝置之間的一般資料搬運表現，通常會先關注 CE；如果你要研究更細的執行路徑，再繼續看 SM 會更合適。

另外，README 也說明帶寬結果預設取多次測試的中位數；新版又補上了統計波動資訊，這對判斷結果是否穩定會更有幫助。

4. 執行它需要什麼環境

nvbandwidth 不是那種「下載就能直接跑」的純二進位小工具，它需要標準的 CUDA 開發環境。

官方 README 目前列出的基本要求包括：

CUDA Toolkit 11.x 或更高版本
支援 C++17 的編譯器
CMake 3.20+，更推薦 3.24+
Boost program_options
可用的 CUDA 裝置與相容驅動

如果你要跑多節點版本，要求會更高。當前 README 明確寫到：

多節點建置需要 CUDA Toolkit 12.3
驅動需要 550 或更高
需要 MPI
需要設定 nvidia-imex 服務

所以它更像是面向 Linux GPU 伺服器與叢集環境的工程工具，而不是給一般桌面使用者隨手裝來玩的。

5. 單機版怎麼編譯和執行

單機版建置流程很直接：

1
2


cmake .
make

在 Ubuntu / Debian 上，官方還提供了一個 debian_install.sh 腳本，用來安裝通用依賴並建置專案。

編譯完成後，可以先看幫助：

1

./nvbandwidth -h

幾個比較常用的參數包括：

-l：列出可用測試
-t：按測試名稱或索引執行指定測試
-p：按前綴批次執行測試
-b：設定 memcpy buffer 大小，預設 512 MiB
-i：設定測試迭代次數
-j：輸出 JSON
-H：啟用 huge pages 的主機記憶體配置

如果只是想先跑一輪預設測試，直接執行：

1

./nvbandwidth

如果只想測一個具體項目，例如某個裝置到裝置的拷貝：

1

./nvbandwidth -t device_to_device_memcpy_read_ce

6. 多節點支援是它比較特別的地方

nvbandwidth 不只是單機多卡測試工具，它也支援多節點場景。

從 README 來看，多節點版本的建置方式是：

1
2


cmake -DMULTINODE=1 .
make

執行時通常要搭配 mpirun，並以「每張 GPU 一個進程」的方式啟動。
官方文件也要求所有參與測試的 rank 都處在同一個 multinode clique 內，並建議在 MPI 環境下主要執行帶 multinode 前綴的測試。

這一點說明它的定位明顯更偏向高效能運算與大型 GPU 系統，而不只是工作站自測。

如果你手上是 NVLink 多節點部署、GB200 / Grace Hopper 這類更複雜的平台，nvbandwidth 的價值會比一般消費級顯卡環境大得多。

7. 新版 `v0.9` 更新了什麼

截至 2026 年 4 月 24 日，GitHub Releases 頁面顯示 nvbandwidth 的最新版本是 v0.9，發布時間是 2026 年 4 月 8 日。

這一版比較值得注意的更新主要有：

為頻寬輸出增加波動統計資訊
增加 host memory huge pages 支援（Windows 不啟用）
為裝置到裝置測試增加 pair sampling 選項
補充 troubleshooting guide
統一單機與多節點執行路徑

另外還有兩點工程層面的變化也很實用：

改進 CUDA 架構檢測，降低對實際 GPU 存取的依賴
在 CUDA Toolkit 13.0+ 場景下棄用 Volta（sm_70 / sm_72）支援

如果你之前只看過舊版資料，現在再回來看，v0.9 已經不只是「測一下頻寬」的初始版本，而是朝著更適合自動化、排障和大型系統測試的方向繼續推進了。

8. 什麼時候適合用它

nvbandwidth 最適合下面這些情況：

你想確認多張 NVIDIA GPU 之間的真實互連頻寬
你懷疑某張卡被插在了受限的 PCIe 插槽
你想比較 NVLink 和非 NVLink 路徑的差異
你在做多節點 GPU 叢集部署，需要驗證鏈路是否正常
你想把測試結果接進自動化流程，輸出 JSON

但如果你的目標只是看「訓練快不快」或「推理 tokens/s 有多少」，那它不是直接答案。
這時你還需要搭配訓練框架、推理引擎或具體 workload 的實測一起看。

9. 可以怎麼理解它的價值

很多 GPU 效能問題，本質上都不是「算力不夠」，而是資料沒有搬好。

例如：

GPU 之間沒有走到預期的鏈路
跨 NUMA 節點存取導致速度下降
某些卡配對之間頻寬異常
跨節點通訊配置不完整

這類問題如果只看 nvidia-smi、只看模型吞吐，往往不容易定位。
而 nvbandwidth 這種更底層、矩陣化的測試工具，剛好能把「鏈路層實際發生了什麼」暴露出來。

所以你可以把它理解成：給 NVIDIA GPU 系統做頻寬體檢的命令列工具。