<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>Llama on KnightLi Blog</title>
        <link>https://www.knightli.com/es/tags/llama/</link>
        <description>Recent content in Llama on KnightLi Blog</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>es</language>
        <lastBuildDate>Sat, 11 Apr 2026 20:07:29 +0800</lastBuildDate><atom:link href="https://www.knightli.com/es/tags/llama/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>Elegir cuantización GGUF de Llama en Hugging Face: consejos prácticos de Q8 a Q2</title>
        <link>https://www.knightli.com/es/2026/04/11/llama-gguf-quantization-selection/</link>
        <pubDate>Sat, 11 Apr 2026 20:07:29 +0800</pubDate>
        
        <guid>https://www.knightli.com/es/2026/04/11/llama-gguf-quantization-selection/</guid>
        <description>&lt;p&gt;Al elegir un modelo Llama GGUF en Hugging Face, puedes pensar en los niveles de cuantización como si fueran resolución: los niveles más bajos usan menos VRAM/RAM, pero la calidad cae gradualmente.&lt;/p&gt;
&lt;h2 id=&#34;entiende-primero-32-16-y-los-niveles-q&#34;&gt;Entiende primero 32, 16 y los niveles Q
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;&lt;code&gt;32&lt;/code&gt;: lo más cercano a la calidad original o sin comprimir, pero con requisitos de hardware extremos.&lt;/li&gt;
&lt;li&gt;&lt;code&gt;16&lt;/code&gt;: todavía muy cerca de la calidad original, con alrededor de la mitad del tamaño de &lt;code&gt;32&lt;/code&gt;.&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q8&lt;/code&gt;: punto de entrada común para modelos cuantizados, escrito normalmente como &lt;code&gt;Q8_0&lt;/code&gt; o &lt;code&gt;Q8&lt;/code&gt;.&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q6&lt;/code&gt;, &lt;code&gt;Q5&lt;/code&gt;, &lt;code&gt;Q4&lt;/code&gt;, &lt;code&gt;Q3&lt;/code&gt;, &lt;code&gt;Q2&lt;/code&gt;: cuanto menor es el número, menor es el uso de recursos y mayor el riesgo de pérdida de calidad.&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;qué-significa-k_m--k_s&#34;&gt;Qué significa &lt;code&gt;K_M&lt;/code&gt; / &lt;code&gt;K_S&lt;/code&gt;
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;K_M&lt;/code&gt; y &lt;code&gt;K_S&lt;/code&gt; son variantes de cuantización mixta:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;la mayoría de pesos se mantienen en el nivel de cuantización objetivo&lt;/li&gt;
&lt;li&gt;algunas partes importantes conservan mayor precisión&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Por eso, al mismo nivel, &lt;code&gt;Qx_K_M&lt;/code&gt; o &lt;code&gt;Qx_K_S&lt;/code&gt; suele ser ligeramente mejor que &lt;code&gt;Qx&lt;/code&gt; puro.&lt;/p&gt;
&lt;h2 id=&#34;estrategia-práctica-de-selección&#34;&gt;Estrategia práctica de selección
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;Si el hardware lo permite, empieza con &lt;code&gt;Q8&lt;/code&gt;.&lt;/li&gt;
&lt;li&gt;Si la memoria está justa, baja progresivamente a &lt;code&gt;Q6&lt;/code&gt; / &lt;code&gt;Q5&lt;/code&gt; / &lt;code&gt;Q4&lt;/code&gt;.&lt;/li&gt;
&lt;li&gt;Intenta no bajar de &lt;code&gt;Q4&lt;/code&gt;; &lt;code&gt;Q4_K_M&lt;/code&gt; es un límite inferior habitual.&lt;/li&gt;
&lt;li&gt;Por debajo de &lt;code&gt;Q4&lt;/code&gt;, la degradación de calidad se vuelve cada vez más visible.&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;orden-de-calidad-de-mejor-a-peor&#34;&gt;Orden de calidad, de mejor a peor
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;&lt;code&gt;32&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;16&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&amp;ndash; Por encima de este punto, la calidad es prácticamente igual, pero los requisitos de hardware son extremos &amp;ndash;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;Q8&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q6_K_M&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q6_K_S&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q6&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q5_K_M&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q5_K_S&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q5&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&amp;ndash; Este es el punto dulce típico &amp;ndash;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;Q4_K_M&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q4_K_S&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q4&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&amp;ndash; Por debajo de este punto, la pérdida de calidad empieza a verse &amp;ndash;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;Q3_K_M&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q3_K_S&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q3&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q2_K_M&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q2_K_S&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q2&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Si quieres una regla corta: empieza con &lt;code&gt;Q8&lt;/code&gt; o &lt;code&gt;Q6_K_M&lt;/code&gt;; baja a &lt;code&gt;Q5&lt;/code&gt; o &lt;code&gt;Q4_K_M&lt;/code&gt; solo cuando sea necesario.&lt;/p&gt;
</description>
        </item>
        
    </channel>
</rss>
