<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>VLLM on KnightLi Blog</title>
        <link>https://www.knightli.com/es/tags/vllm/</link>
        <description>Recent content in VLLM on KnightLi Blog</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>es</language>
        <lastBuildDate>Fri, 10 Apr 2026 22:54:17 +0800</lastBuildDate><atom:link href="https://www.knightli.com/es/tags/vllm/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>Guía local de Gemma 4: de ejecutarlo con un comando a integrarlo en desarrollo</title>
        <link>https://www.knightli.com/es/2026/04/10/gemma4-local-runtime-options/</link>
        <pubDate>Fri, 10 Apr 2026 22:54:17 +0800</pubDate>
        
        <guid>https://www.knightli.com/es/2026/04/10/gemma4-local-runtime-options/</guid>
        <description>&lt;p&gt;Si quieres ejecutar Gemma 4 en local, puedes elegir entre cuatro rutas prácticas según tu objetivo y tu hardware.&lt;/p&gt;
&lt;h2 id=&#34;1-inicio-más-rápido-ollama-recomendado&#34;&gt;1) Inicio más rápido: Ollama (recomendado)
&lt;/h2&gt;&lt;p&gt;Es la opción con menos fricción para pruebas rápidas, chat diario y uso de API local.&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;ollama run gemma4
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;Puntos clave:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Funciona en Windows, macOS y Linux&lt;/li&gt;
&lt;li&gt;Gestiona automáticamente la aceleración por hardware&lt;/li&gt;
&lt;li&gt;Ofrece una API local compatible con el estilo de OpenAI&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;2-flujo-con-interfaz-gráfica-lm-studio--unsloth-studio&#34;&gt;2) Flujo con interfaz gráfica: LM Studio / Unsloth Studio
&lt;/h2&gt;&lt;p&gt;Si prefieres una UI de escritorio en lugar de comandos de terminal:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;LM Studio: permite buscar y ejecutar variantes cuantizadas de Gemma 4 desde Hugging Face, por ejemplo 4-bit u 8-bit, con visibilidad del uso de recursos.&lt;/li&gt;
&lt;li&gt;Unsloth Studio: soporta inferencia y fine-tuning con poca VRAM, a menudo más cómodo para GPUs de 6GB-8GB.&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;3-equipos-modestos-y-máximo-control-llamacpp&#34;&gt;3) Equipos modestos y máximo control: llama.cpp
&lt;/h2&gt;&lt;p&gt;Buena opción para hardware antiguo, escenarios centrados en CPU o usuarios que quieren controlar más parámetros de inferencia.&lt;/p&gt;
&lt;p&gt;Con archivos de modelo &lt;code&gt;.gguf&lt;/code&gt; y cuantización, Gemma 4 puede funcionar con presupuestos de hardware mucho más bajos.&lt;/p&gt;
&lt;h2 id=&#34;4-integración-de-desarrollo-transformers--vllm&#34;&gt;4) Integración de desarrollo: Transformers / vLLM
&lt;/h2&gt;&lt;p&gt;Si necesitas integrar Gemma 4 en tu propia aplicación:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Transformers: integración directa en proyectos Python&lt;/li&gt;
&lt;li&gt;vLLM: inferencia de alto rendimiento para entornos GPU más potentes&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;selección-rápida&#34;&gt;Selección rápida
&lt;/h2&gt;&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;Necesidad&lt;/th&gt;
          &lt;th&gt;Herramientas recomendadas&lt;/th&gt;
          &lt;th&gt;Requisito de hardware&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;Solo quiero ejecutarlo ya&lt;/td&gt;
          &lt;td&gt;Ollama&lt;/td&gt;
          &lt;td&gt;Bajo&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Prefiero una interfaz tipo ChatGPT&lt;/td&gt;
          &lt;td&gt;LM Studio&lt;/td&gt;
          &lt;td&gt;Medio&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Tengo VRAM limitada (6GB-8GB)&lt;/td&gt;
          &lt;td&gt;Unsloth / llama.cpp&lt;/td&gt;
          &lt;td&gt;Bajo&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Estoy creando aplicaciones locales de AI&lt;/td&gt;
          &lt;td&gt;Ollama / Transformers / vLLM&lt;/td&gt;
          &lt;td&gt;Medio a alto&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Necesito fine-tuning&lt;/td&gt;
          &lt;td&gt;Unsloth Studio&lt;/td&gt;
          &lt;td&gt;Medio a alto&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;h2 id=&#34;sugerencia-de-tamaño-de-modelo&#34;&gt;Sugerencia de tamaño de modelo
&lt;/h2&gt;&lt;p&gt;Gemma 4 llega en varios tamaños, por ejemplo E2B, E4B y 31B.&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;En portátiles comunes, empieza por E2B/E4B cuantizados&lt;/li&gt;
&lt;li&gt;Prueba variantes más grandes solo cuando tu flujo base ya sea estable&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        
    </channel>
</rss>
