<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>Performance Testing on KnightLi Blog</title>
        <link>https://www.knightli.com/es/tags/performance-testing/</link>
        <description>Recent content in Performance Testing on KnightLi Blog</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>es</language>
        <lastBuildDate>Fri, 24 Apr 2026 14:41:35 +0800</lastBuildDate><atom:link href="https://www.knightli.com/es/tags/performance-testing/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>Qu茅 es NVIDIA nvbandwidth: c贸mo usar esta herramienta de prueba de ancho de banda de GPU</title>
        <link>https://www.knightli.com/es/2026/04/24/nvidia-nvbandwidth-guide/</link>
        <pubDate>Fri, 24 Apr 2026 14:41:35 +0800</pubDate>
        
        <guid>https://www.knightli.com/es/2026/04/24/nvidia-nvbandwidth-guide/</guid>
        <description>&lt;p&gt;Si recientemente has estado solucionando problemas del rendimiento de la interconexión entre múltiples &lt;code&gt;NVIDIA GPU&lt;/code&gt;s, o si deseas verificar el ancho de banda real entre &lt;code&gt;PCIe&lt;/code&gt;, &lt;code&gt;NVLink&lt;/code&gt;, la memoria host y la VRAM, &lt;code&gt;NVIDIA/nvbandwidth&lt;/code&gt; es una herramienta pequeña que vale la pena conocer.&lt;/p&gt;
&lt;p&gt;No es una utilidad de benchmark general, ni es un comando oculto dentro de un framework de modelo grande. Es una herramienta de código abierto de NVIDIA diseñada específicamente para medir el ancho de banda y la latencia para copias de memoria relacionadas con la GPU. En lugar de solo mirar el ancho de banda teórico, &lt;code&gt;nvbandwidth&lt;/code&gt; es mejor para responder a una pregunta práctica: &lt;strong&gt;¿cuánto ancho de banda puede entregar esta máquina y sus interconexiones GPU actuales en este momento?&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;false&lt;/p&gt;
&lt;h2 id=&#34;1-qué-hace-nvbandwidth&#34;&gt;1. ¿Qué hace &lt;code&gt;nvbandwidth&lt;/code&gt;
&lt;/h2&gt;&lt;p&gt;Según el README oficial, &lt;code&gt;nvbandwidth&lt;/code&gt; es una herramienta de línea de comandos para medir el ancho de banda en las &lt;code&gt;NVIDIA GPU&lt;/code&gt;.&lt;/p&gt;
&lt;p&gt;Se enfoca principalmente en el rendimiento de transferencia a través de diferentes patrones de &lt;code&gt;memcpy&lt;/code&gt;, tales como:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;GPU -&amp;gt; GPU&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;CPU -&amp;gt; GPU&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;GPU -&amp;gt; CPU&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;Transferencias entre GPUs a través de múltiples nodos&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Estas pruebas son especialmente útiles en escenarios como:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Solucionar problemas de cuellos de botella de interconexión en el entrenamiento o la inferencia multi-GPU&lt;/li&gt;
&lt;li&gt;Verificar el comportamiento real de enlaces como &lt;code&gt;NVLink&lt;/code&gt;, &lt;code&gt;PCIe&lt;/code&gt; y &lt;code&gt;C2C&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;Comparar diferencias de transferencia entre servidores, topologías, drivers o versiones de CUDA&lt;/li&gt;
&lt;li&gt;Realizar validación de hardware de referencia antes del despliegue del clúster&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;En resumen, &lt;code&gt;nvbandwidth&lt;/code&gt; no se trata del rendimiento del modelo (model throughput). Se trata de la capacidad de bajo nivel para mover datos.&lt;/p&gt;
&lt;p&gt;false&lt;/p&gt;
&lt;h2 id=&#34;2-no-produce-solo-una-puntuación-simple&#34;&gt;2. No produce solo una puntuación simple
&lt;/h2&gt;&lt;p&gt;Mucha gente considera una prueba de ancho de banda como algo que termina con un solo número, pero &lt;code&gt;nvbandwidth&lt;/code&gt; proporciona una salida más detallada que eso.&lt;/p&gt;
&lt;p&gt;Informa los resultados como matrices para cada tipo de prueba. Por ejemplo, en una prueba como &lt;code&gt;device_to_device_memcpy_write_ce&lt;/code&gt;, muestra el ancho de banda entre cada par de GPUs por fila y columna. Eso significa que puedes ver más que solo una estimación aproximada de la velocidad a nivel de todo el sistema. También puedes detectar:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Qué pares de GPUs son especialmente rápidos&lt;/li&gt;
&lt;li&gt;Qué rutas están claramente limitadas por &lt;code&gt;PCIe&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;Si ciertos pares de GPUs muestran un ancho de banda anormalmente bajo&lt;/li&gt;
&lt;li&gt;Si la topología multi-GPU coincide con tus expectativas&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Si estás trabajando con un servidor de 8 GPUs, una plataforma dual-socket o un sistema multinodo, esta salida de estilo matriz suele ser más útil que un único número promedio.&lt;/p&gt;
&lt;p&gt;false&lt;/p&gt;
&lt;h2 id=&#34;3-cómo-entender-las-copias-ce-y-sm&#34;&gt;3. Cómo entender las copias &lt;code&gt;CE&lt;/code&gt; y &lt;code&gt;SM&lt;/code&gt;
&lt;/h2&gt;&lt;p&gt;La documentación oficial divide las pruebas en dos categorías:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;CE&lt;/code&gt;: transferencias del motor de copia basadas en las APIs &lt;code&gt;memcpy&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;SM&lt;/code&gt;: transferencias basadas en el kernel&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Estos dos tipos de resultados no están garantizados a coincidir exactamente, porque representan diferentes rutas de copia. Si principalmente quieres entender el comportamiento regular de transferencia de dispositivo a dispositivo, generalmente mirarás &lt;code&gt;CE&lt;/code&gt; primero. Si quieres estudiar los detalles de ejecución más de cerca, entonces &lt;code&gt;SM&lt;/code&gt; también vale la pena revisar.&lt;/p&gt;
&lt;p&gt;El README también explica que los resultados de ancho de banda utilizan la mediana a través de múltiples ejecuciones de prueba por defecto. Las versiones más nuevas incluyen además estadísticas de variabilidad, lo que facilita juzgar cuán estables son los números.&lt;/p&gt;
&lt;p&gt;false&lt;/p&gt;
&lt;h2 id=&#34;4-qué-entorno-requiere&#34;&gt;4. ¿Qué entorno requiere
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;nvbandwidth&lt;/code&gt; no es una utilidad binaria pura que simplemente descargues y ejecutes. Espera un entorno de desarrollo CUDA estándar.&lt;/p&gt;
&lt;p&gt;El README actual enumera estos requisitos básicos:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;CUDA Toolkit 11.x&lt;/code&gt; o más reciente&lt;/li&gt;
&lt;li&gt;Un compilador con soporte para &lt;code&gt;C++17&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;CMake 3.20+&lt;/code&gt;, siendo &lt;code&gt;3.24+&lt;/code&gt; recomendado&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Boost program_options&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;Un dispositivo &lt;code&gt;CUDA&lt;/code&gt; utilizable y un controlador compatible&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Los requisitos son más altos si deseas la versión multinode. El README actual indica explícitamente:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Las compilaciones multinode requieren &lt;code&gt;CUDA Toolkit 12.3&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;El controlador debe ser &lt;code&gt;550&lt;/code&gt; o más reciente&lt;/li&gt;
&lt;li&gt;Se requiere &lt;code&gt;MPI&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;El servicio &lt;code&gt;nvidia-imex&lt;/code&gt; debe estar configurado&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Por lo tanto, esta es mucho más una herramienta de ingeniería para servidores y clusters de GPU en Linux que algo destinado a un uso de escritorio casual.&lt;/p&gt;
&lt;p&gt;false&lt;/p&gt;
&lt;h2 id=&#34;5-cómo-construir-y-ejecutar-la-versión-de-nodo-único&#34;&gt;5. Cómo construir y ejecutar la versión de nodo único
&lt;/h2&gt;&lt;p&gt;El proceso de construcción de nodo único es sencillo:&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;cmake .
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;make
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;En &lt;code&gt;Ubuntu&lt;/code&gt; / &lt;code&gt;Debian&lt;/code&gt;, el proyecto también proporciona un script &lt;code&gt;debian_install.sh&lt;/code&gt; que instala dependencias comunes y construye el proyecto.&lt;/p&gt;
&lt;p&gt;Después de construir, puedes verificar primero la salida de ayuda:&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;./nvbandwidth -h
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;Algunas opciones comúnmente utilizadas incluyen:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;-l&lt;/code&gt;: listar pruebas disponibles&lt;/li&gt;
&lt;li&gt;&lt;code&gt;-t&lt;/code&gt;: ejecutar una prueba específica por nombre o índice&lt;/li&gt;
&lt;li&gt;&lt;code&gt;-p&lt;/code&gt;: ejecutar pruebas por prefijo&lt;/li&gt;
&lt;li&gt;&lt;code&gt;-b&lt;/code&gt;: establecer el tamaño del búfer de memcpy, predeterminado &lt;code&gt;512 MiB&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;-i&lt;/code&gt;: establecer el número de iteraciones de benchmark&lt;/li&gt;
&lt;li&gt;&lt;code&gt;-j&lt;/code&gt;: salida &lt;code&gt;JSON&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;-H&lt;/code&gt;: habilitar huge pages para la asignación de memoria del host&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Si solo deseas ejecutar la suite de pruebas predeterminada una vez, usa:&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;./nvbandwidth
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;Si solo quieres probar un elemento específico, como una copia de dispositivo a dispositivo:&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;./nvbandwidth -t device_to_device_memcpy_read_ce
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;false&lt;/p&gt;
&lt;h2 id=&#34;6-el-soporte-multinodo-es-una-de-sus-características-más-destacadas&#34;&gt;6. El soporte multinodo es una de sus características más destacadas
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;nvbandwidth&lt;/code&gt; no es solo para pruebas multi-GPU en un solo nodo. También admite escenarios multinodo.&lt;/p&gt;
&lt;p&gt;Según el README, la compilación multinodo se realiza de esta manera:&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;cmake -DMULTINODE&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;m&#34;&gt;1&lt;/span&gt; .
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;make
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;En tiempo de ejecución, normalmente se utiliza junto con &lt;code&gt;mpirun&lt;/code&gt;, con un proceso lanzado por GPU. La documentación también requiere que todos los ranks participantes pertenezcan al mismo clúster multinodo, y recomienda ejecutar las pruebas principalmente con el prefijo &lt;code&gt;multinode&lt;/code&gt; bajo MPI.&lt;/p&gt;
&lt;p&gt;Esto acerca su posicionamiento a la informática de alto rendimiento (high-performance computing) y a los sistemas GPU grandes que a las comprobaciones básicas de una estación de trabajo.&lt;/p&gt;
&lt;p&gt;Si estás trabajando con implementaciones multinodo de &lt;code&gt;NVLink&lt;/code&gt; o plataformas más complejas como &lt;code&gt;GB200&lt;/code&gt; / &lt;code&gt;Grace Hopper&lt;/code&gt;, el valor de &lt;code&gt;nvbandwidth&lt;/code&gt; es mucho mayor de lo que sería en una configuración típica de GPU de consumo.&lt;/p&gt;
&lt;p&gt;false&lt;/p&gt;
&lt;h2 id=&#34;7-qué-cambió-en-v09&#34;&gt;7. Qué cambió en v0.9
&lt;/h2&gt;&lt;p&gt;A partir del &lt;strong&gt;24 de abril de 2026&lt;/strong&gt;, la página de GitHub Releases muestra que la última versión de &lt;code&gt;nvbandwidth&lt;/code&gt; es &lt;strong&gt;&lt;code&gt;v0.9&lt;/code&gt;&lt;/strong&gt;, lanzada el &lt;strong&gt;8 de abril de 2026&lt;/strong&gt;.&lt;/p&gt;
&lt;p&gt;Las actualizaciones más destacadas en este lanzamiento incluyen:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Se agregaron estadísticas de variabilidad a la salida de ancho de banda&lt;/li&gt;
&lt;li&gt;Se agregó soporte para páginas grandes (huge page) para la memoria anfitriona (excluyendo Windows)&lt;/li&gt;
&lt;li&gt;Se agregó muestreo de pares (pair sampling) para pruebas de dispositivo a dispositivo&lt;/li&gt;
&lt;li&gt;Se agregó una guía de solución de problemas&lt;/li&gt;
&lt;li&gt;Se unificaron los caminos de ejecución de nodo único y multinodo&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;También vale la pena señalar dos cambios orientados a la ingeniería:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Mejora en la detección de la arquitectura CUDA sin depender tanto del acceso directo a la GPU&lt;/li&gt;
&lt;li&gt;Se eliminó el soporte para Volta (&lt;code&gt;sm_70&lt;/code&gt; / &lt;code&gt;sm_72&lt;/code&gt;) en entornos de CUDA Toolkit 13.0+&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Por lo tanto, si solo mirabas las versiones anteriores, &lt;code&gt;v0.9&lt;/code&gt; ya no es solo un probador básico de ancho de banda. Claramente se está moviendo hacia una mejor automatización, solución de problemas y validación de sistemas a gran escala.&lt;/p&gt;
&lt;p&gt;false&lt;/p&gt;
&lt;h2 id=&#34;8-cuándo-es-una-buena-opción&#34;&gt;8. ¿Cuándo es una buena opción?
&lt;/h2&gt;&lt;p&gt;``nvbandwidth` es especialmente adecuado cuando:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Quieres verificar el ancho de banda de interconexión real entre múltiples &lt;code&gt;NVIDIA GPU&lt;/code&gt;s&lt;/li&gt;
&lt;li&gt;Sospechas que una GPU está instalada en una ranura &lt;code&gt;PCIe&lt;/code&gt; con ancho de banda limitado&lt;/li&gt;
&lt;li&gt;Quieres comparar rutas &lt;code&gt;NVLink&lt;/code&gt; frente a rutas no &lt;code&gt;NVLink&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;Estás desplegando un clúster de GPU multinode y necesitas validar los enlaces&lt;/li&gt;
&lt;li&gt;Quieres los resultados de las pruebas en &lt;code&gt;JSON&lt;/code&gt; para pipelines de automatización&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Pero si tu objetivo es solo responder preguntas como &amp;ldquo;¿qué tan rápido es el entrenamiento?&amp;rdquo; o &amp;ldquo;¿cuántos tokens por segundo puede alcanzar la inferencia?&amp;rdquo;, esta herramienta no es la respuesta completa.
En ese caso, todavía necesitas pruebas a nivel de carga de trabajo (workload-level testing) con tu framework de entrenamiento, motor de inferencia o aplicación real.&lt;/p&gt;
&lt;p&gt;false&lt;/p&gt;
&lt;h2 id=&#34;9-cómo-pensar-sobre-su-valor&#34;&gt;9. Cómo pensar sobre su valor
&lt;/h2&gt;&lt;p&gt;Muchos problemas de rendimiento de GPU no son causados realmente por una capacidad de cómputo insuficiente. Ocurren porque la ruta de datos no está funcionando como se espera.&lt;/p&gt;
&lt;p&gt;Por ejemplo:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Las GPUs no están utilizando la ruta de interconexión prevista&lt;/li&gt;
&lt;li&gt;El acceso Cross-NUMA está reduciendo la velocidad&lt;/li&gt;
&lt;li&gt;Ciertos pares de GPU tienen un ancho de banda anormal&lt;/li&gt;
&lt;li&gt;La comunicación multinode está solo parcialmente configurada&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Estos problemas a menudo son difíciles de diagnosticar si solo se observa &lt;code&gt;nvidia-smi&lt;/code&gt; o el rendimiento del modelo. Una herramienta de nivel más bajo y orientada a matrices, como &lt;code&gt;nvbandwidth&lt;/code&gt;, es útil precisamente porque expone lo que está sucediendo en la capa de interconexión.&lt;/p&gt;
&lt;p&gt;Así que una forma sencilla de pensarlo es: &lt;strong&gt;&lt;code&gt;nvbandwidth&lt;/code&gt; es una herramienta de verificación de salud en línea de comandos para el ancho de banda en sistemas NVIDIA GPU.&lt;/strong&gt;&lt;/p&gt;
&lt;h2 id=&#34;enlaces-relacionados&#34;&gt;Enlaces relacionados
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;Proyecto GitHub: &lt;a class=&#34;link&#34; href=&#34;https://github.com/NVIDIA/nvbandwidth&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://github.com/NVIDIA/nvbandwidth&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;Lanzamientos: &lt;a class=&#34;link&#34; href=&#34;https://github.com/NVIDIA/nvbandwidth/releases&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://github.com/NVIDIA/nvbandwidth/releases&lt;/a&gt;
false&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        
    </channel>
</rss>
