<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>API on KnightLi Blog</title>
        <link>https://www.knightli.com/es/tags/api/</link>
        <description>Recent content in API on KnightLi Blog</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>es</language>
        <lastBuildDate>Sat, 25 Apr 2026 08:44:32 +0800</lastBuildDate><atom:link href="https://www.knightli.com/es/tags/api/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>Por qué las API de LLM cobran por tokens: una guía clara sobre los costos de entrada, salida y contexto</title>
        <link>https://www.knightli.com/es/2026/04/25/llm-token-pricing-principles/</link>
        <pubDate>Sat, 25 Apr 2026 08:44:32 +0800</pubDate>
        
        <guid>https://www.knightli.com/es/2026/04/25/llm-token-pricing-principles/</guid>
        <description>&lt;p&gt;Una de las cosas más fáciles de confundir acerca de la facturación API de LLM es por qué casi todas las plataformas eventualmente se reducen a una unidad: &amp;ldquo;token&amp;rdquo;. La verdadera pregunta es simple: &lt;strong&gt;¿por qué los LLM cobran por token y por qué diferentes tokens pueden tener precios diferentes?&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;Para muchas personas que recién comienzan a usar API modelo, la parte más confusa no es la capacidad del modelo sino la factura. ¿Por qué el costo aumenta tan rápidamente incluso cuando solo hace unas pocas preguntas? ¿Por qué los insumos son más baratos que los productos? ¿Por qué la factura empieza a crecer mucho más rápido una vez que el contexto se alarga?&lt;/p&gt;
&lt;p&gt;Una forma sencilla de pensarlo es la siguiente: &lt;strong&gt;no estás pagando por &amp;ldquo;una respuesta&amp;rdquo;. Usted paga por la computación y el ancho de banda consumidos durante todo el proceso de inferencia.&lt;/strong&gt;&lt;/p&gt;
&lt;h2 id=&#34;1-qué-es-una-ficha&#34;&gt;1. ¿Qué es una ficha?
&lt;/h2&gt;&lt;p&gt;En la facturación de LLM, un &amp;ldquo;token&amp;rdquo; no es un recuento de caracteres ni de palabras. Es la unidad que utiliza un modelo al procesar texto.&lt;/p&gt;
&lt;p&gt;Un token podría ser:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Un solo carácter chino&lt;/li&gt;
&lt;li&gt;Parte de una palabra inglesa.&lt;/li&gt;
&lt;li&gt;Un signo de puntuación&lt;/li&gt;
&lt;li&gt;Un breve fragmento de texto visto con frecuencia.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Es por eso que las plataformas API no suelen cobrar por frase ni por solicitud. Cobran según la cantidad de tokens que realmente lee y genera el modelo.&lt;br&gt;
Esto es mucho más razonable que cobrar por recuento de solicitudes, porque una solicitud puede contener 20 caracteres, mientras que otra puede incluir 200.000 tokens de contexto. El consumo de recursos no es ni de lejos el mismo.&lt;/p&gt;
&lt;h2 id=&#34;2-por-qué-los-insumos-y-los-productos-se-cotizan-por-separado&#34;&gt;2. ¿Por qué los insumos y los productos se cotizan por separado?
&lt;/h2&gt;&lt;p&gt;La mayoría de las API de modelos actuales dividen los precios en dos partes:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Precio del token de entrada&lt;/li&gt;
&lt;li&gt;Precio del token de salida&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Y en muchos casos, &lt;strong&gt;los tokens de salida cuestan más que los tokens de entrada&lt;/strong&gt;.&lt;/p&gt;
&lt;p&gt;La razón no es difícil de entender.&lt;/p&gt;
&lt;p&gt;Cuando un modelo procesa entradas, principalmente lee y codifica contenido existente. Pero cuando genera resultados, tiene que predecir el siguiente token, luego el siguiente, luego el siguiente. Esto no es sólo leer. Es un proceso continuo de inferencia y muestreo, que normalmente cuesta más cálculo.&lt;/p&gt;
&lt;p&gt;Puedes pensar en ello más o menos así:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Entrada: entrega de materiales al modelo.&lt;/li&gt;
&lt;li&gt;Resultado: pedirle al modelo que escriba la respuesta en el acto.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Escribir sobre el terreno suele costar más que leer los materiales una vez, por lo que es muy común que el precio de salida sea más alto.&lt;/p&gt;
&lt;h2 id=&#34;3-por-qué-el-contexto-prolongado-hace-que-sea-más-fácil-perder-el-control-de-los-costos&#34;&gt;3. Por qué el contexto prolongado hace que sea más fácil perder el control de los costos
&lt;/h2&gt;&lt;p&gt;Mucha gente piensa que sólo están añadiendo un poco más de información general, pero desde la perspectiva de la facturación modelo, el impacto suele ser mucho mayor de lo esperado.&lt;/p&gt;
&lt;p&gt;La razón es que &lt;strong&gt;cada llamada de modelo generalmente tiene que procesar nuevamente el contexto completo incluido en esa solicitud.&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;Eso significa que si su solicitud contiene actualmente:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Un mensaje del sistema&lt;/li&gt;
&lt;li&gt;Historial de conversaciones&lt;/li&gt;
&lt;li&gt;Valores de retorno de la herramienta&lt;/li&gt;
&lt;li&gt;trozos de documentos largos&lt;/li&gt;
&lt;li&gt;Archivos de código fuente&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;todo eso se destina a la facturación del token de entrada.&lt;/p&gt;
&lt;p&gt;Entonces, lo que realmente hace crecer los proyectos de ley no es a menudo la pregunta final en sí misma, sino la larga cadena de contexto que se le presenta.&lt;br&gt;
A medida que aumenta el número de turnos de conversación, se acumulan las llamadas a herramientas y se siguen enviando mensajes anteriores, el coste del token crece ronda tras ronda.&lt;/p&gt;
&lt;h2 id=&#34;4-por-qué-es-especialmente-probable-que-las-llamadas-a-herramientas-inflen-el-uso-de-tokens&#34;&gt;4. Por qué es especialmente probable que las llamadas a herramientas inflen el uso de tokens
&lt;/h2&gt;&lt;p&gt;En escenarios como agentes, asistentes de codificación y automatización del flujo de trabajo, el uso de tokens suele ser mucho mayor que en el chat normal.
La cuestión no es sólo que la modelo haya escrito un párrafo. Es que el flujo de trabajo sigue produciendo contenido como:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Leer archivos&lt;/li&gt;
&lt;li&gt;Inspeccionar registros&lt;/li&gt;
&lt;li&gt;Llamadas a API&lt;/li&gt;
&lt;li&gt;Volviendo JSON&lt;/li&gt;
&lt;li&gt;Introducir los resultados de la herramienta en el modelo.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Siempre que el resultado de cada llamada a la herramienta se inserte en la siguiente ronda de contexto, se convierte en una nueva fuente de tokens de entrada.&lt;/p&gt;
&lt;p&gt;Es por eso que muchos desarrolladores finalmente se dan cuenta de:&lt;br&gt;
&lt;strong&gt;El precio unitario del modelo no siempre es el verdadero problema. El flujo de trabajo en sí puede acumular el costo de los tokens capa por capa.&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;Por ejemplo, imagine un agente codificador haciendo lo siguiente:&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;Leer la estructura del proyecto.&lt;/li&gt;
&lt;li&gt;Abra varios archivos fuente.&lt;/li&gt;
&lt;li&gt;Ejecute un conjunto de pruebas&lt;/li&gt;
&lt;li&gt;Vuelva a introducir los registros de errores en el modelo.&lt;/li&gt;
&lt;li&gt;Leer más archivos relacionados&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;Cada paso puede hacer que las solicitudes posteriores tengan aún más contexto. Incluso si el precio unitario no cambia, la factura total puede aumentar rápidamente.&lt;/p&gt;
&lt;h2 id=&#34;5-por-qué-un-mismo-tipo-de-modelo-puede-tener-precios-muy-diferentes&#34;&gt;5. Por qué un mismo tipo de modelo puede tener precios muy diferentes
&lt;/h2&gt;&lt;p&gt;Las diferencias en los precios de los tokens entre modelos no se deben solo a que los proveedores quieran cobrar más. Suelen estar directamente relacionados con varios factores:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Tamaño del modelo&lt;/li&gt;
&lt;li&gt;Eficiencia de inferencia&lt;/li&gt;
&lt;li&gt;Longitud del contexto&lt;/li&gt;
&lt;li&gt;Costo de implementación&lt;/li&gt;
&lt;li&gt;Mercado objetivo&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Cuanto más grande es el modelo, más parámetros activos utiliza y más compleja es su ruta de inferencia, mayor suele ser el costo de generar un token.&lt;br&gt;
Si el modelo también admite un contexto ultralargo, un razonamiento más complejo o un mejor uso de las herramientas, la presión sobre la infraestructura aumenta aún más.&lt;/p&gt;
&lt;p&gt;Entonces, el precio en realidad cubre varios tipos de costos:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Recursos de GPU o acelerador&lt;/li&gt;
&lt;li&gt;Uso de VRAM&lt;/li&gt;
&lt;li&gt;Latencia de inferencia&lt;/li&gt;
&lt;li&gt;Estabilidad de la red y del servicio.&lt;/li&gt;
&lt;li&gt;Capacidad máxima de concurrencia&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Un modelo más barato no es necesariamente malo y un modelo más caro no es necesariamente la elección correcta para cada tarea. En muchos casos, la brecha de precios refleja cuánto costo de infraestructura requiere un cierto nivel de capacidad.&lt;/p&gt;
&lt;h2 id=&#34;6-por-qué-la-entrada-en-caché-es-más-barata&#34;&gt;6. Por qué la entrada en caché es más barata
&lt;/h2&gt;&lt;p&gt;Muchas plataformas de modelos ahora ofrecen características como:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;entrada en caché&lt;/li&gt;
&lt;li&gt;almacenamiento en caché rápido&lt;/li&gt;
&lt;li&gt;almacenamiento en caché de prefijos&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;La idea compartida detrás de ellos es simple: si una gran cantidad de insumos ya ha sido procesada una vez, no sigan calculándolos desde cero al precio completo.&lt;/p&gt;
&lt;p&gt;Por ejemplo, si envía repetidamente el mismo mensaje del sistema, las mismas instrucciones de herramienta o el mismo prefijo de documento largo, es posible que la plataforma pueda almacenar en caché parte de ese cálculo. Luego, aunque todavía se utilice el token de entrada, la parte almacenada en caché se puede facturar a una tarifa más baja.&lt;/p&gt;
&lt;p&gt;Esto también explica por qué muchas páginas de precios de API muestran tres o más niveles de precios:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Entrada estándar&lt;/li&gt;
&lt;li&gt;Entrada en caché&lt;/li&gt;
&lt;li&gt;Salida&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;La diferencia no es que el texto signifique cosas diferentes. Es que el cálculo subyacente puede ser reutilizable o no.&lt;/p&gt;
&lt;h2 id=&#34;7-por-qué-los-tokens-baratos-no-significan-automáticamente-un-costo-total-más-bajo&#34;&gt;7. Por qué los &amp;ldquo;tokens baratos&amp;rdquo; no significan automáticamente un costo total más bajo
&lt;/h2&gt;&lt;p&gt;Cuando la gente ve un modelo anunciado como &amp;ldquo;muy barato por millón de tokens&amp;rdquo;, el primer instinto suele ser que el coste total también debe ser menor. En realidad, no siempre.&lt;/p&gt;
&lt;p&gt;Esto se debe a que el costo total es aproximadamente:&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;precio unitario del token × volumen real del token&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;Y el volumen real de tokens puede verse amplificado por muchas cosas:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;
&lt;p&gt;Avisos demasiado largos.&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;Historial de conversaciones que nunca se recorta&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;Demasiada salida de herramienta retroalimentada&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;Salida del modelo demasiado detallada&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;Reintentos repetidos para la misma tarea
Por tanto, la factura real no está determinada únicamente por el precio. Suele estar determinado por:&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;Precio unitario del modelo&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;Longitud de entrada por ronda&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;Longitud de salida por ronda&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;Número de llamadas&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;Diseño de flujo de trabajo&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Esta es también la razón por la que un &amp;ldquo;modelo de bajo costo&amp;rdquo; aún puede resultar costoso en los flujos de trabajo de algunos agentes. Es posible que necesite más rondas, más contexto suplementario y más ciclos de reintento.&lt;/p&gt;
&lt;h2 id=&#34;8-cómo-los-desarrolladores-deberían-estimar-el-costo-del-token&#34;&gt;8. Cómo los desarrolladores deberían estimar el costo del token
&lt;/h2&gt;&lt;p&gt;Si desea un mejor control presupuestario en un proyecto real, una forma sencilla de estimar el costo es:&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;Mida el promedio de tokens de entrada por solicitud&lt;/li&gt;
&lt;li&gt;Mida los tokens de producción promedio por solicitud&lt;/li&gt;
&lt;li&gt;Calcule cuántas rondas requiere una tarea completa&lt;/li&gt;
&lt;li&gt;Multiplica por el precio del modelo.&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;Por ejemplo:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;8k tokens&lt;/code&gt; de entrada por ronda&lt;/li&gt;
&lt;li&gt;&lt;code&gt;1k tokens&lt;/code&gt; de producción por ronda&lt;/li&gt;
&lt;li&gt;&lt;code&gt;10&lt;/code&gt; rondas para una tarea&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Entonces lo que realmente estás consumiendo no es &amp;ldquo;un intercambio de preguntas y respuestas&amp;rdquo;, sino:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Aproximadamente &amp;ldquo;80.000 tokens&amp;rdquo; de entrada&lt;/li&gt;
&lt;li&gt;Aproximadamente &amp;ldquo;10.000 tokens&amp;rdquo; de producción&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Y si se siguen agregando registros, resultados de herramientas y contenidos de archivos a lo largo del camino, el total crece aún más.&lt;/p&gt;
&lt;p&gt;Por eso la planificación presupuestaria no debería centrarse únicamente en una única ronda. Debería observar &lt;strong&gt;cuántos tokens consumirá un ciclo de tarea completo de principio a fin.&lt;/strong&gt;&lt;/p&gt;
&lt;h2 id=&#34;9-cómo-controlar-la-factura-en-la-práctica&#34;&gt;9. Cómo controlar la factura en la práctica.
&lt;/h2&gt;&lt;p&gt;Si ya utiliza API o agentes, los siguientes métodos suelen ser los más eficaces:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Acorte el mensaje del sistema y elimine las palabras repetidas&lt;/li&gt;
&lt;li&gt;Recortar el historial de conversaciones antiguas con regularidad&lt;/li&gt;
&lt;li&gt;Mantenga solo los campos necesarios de los resultados de la herramienta&lt;/li&gt;
&lt;li&gt;Recuperar primero y luego enviar solo las partes relevantes de documentos extensos&lt;/li&gt;
&lt;li&gt;Limite la longitud de salida y evite la expansión ilimitada&lt;/li&gt;
&lt;li&gt;Utilice modelos caros para tareas de alto valor y modelos más baratos para tareas de menor valor&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;En muchos casos, la mejor manera de ahorrar dinero es no cambiar a ciegas a un modelo más económico. Primero se trata de eliminar el consumo innecesario de tokens del flujo de trabajo.&lt;/p&gt;
&lt;h2 id=&#34;10-cómo-pensar-en-todo-esto&#34;&gt;10. Cómo pensar en todo esto
&lt;/h2&gt;&lt;p&gt;Al final del día, el precio de los tokens es una forma de cobrar por cuánto tuvo que leer, inferir y escribir el modelo.&lt;/p&gt;
&lt;p&gt;No es como los precios de software tradicionales, donde la facturación por cuenta, por solicitud o mensual es suficiente para describir el uso de recursos. Una llamada de modelo es un proceso de cálculo dinámico. La cantidad de contexto que envía, las herramientas que invoca y la longitud del resultado que solicita afectan directamente el costo.&lt;/p&gt;
&lt;p&gt;Entonces lo más importante es no memorizar tablas de precios. Está construyendo la intuición correcta:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;El contexto prolongado aumenta el costo de los insumos&lt;/li&gt;
&lt;li&gt;La producción prolongada aumenta el costo de generación.&lt;/li&gt;
&lt;li&gt;Las cadenas de herramientas amplifican el uso total de tokens&lt;/li&gt;
&lt;li&gt;El almacenamiento en caché y el diseño del flujo de trabajo pueden cambiar significativamente la factura.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Una vez que esos puntos estén claros, la estructura de precios de la mayoría de las API de LLM se vuelve mucho más fácil de entender.&lt;/p&gt;
</description>
        </item>
        <item>
        <title>Lanzamiento de la vista previa de DeepSeek-V4: contexto de 1M, dos modelos y notas de migración de API</title>
        <link>https://www.knightli.com/es/2026/04/24/deepseek-v4-preview-release/</link>
        <pubDate>Fri, 24 Apr 2026 22:39:46 +0800</pubDate>
        
        <guid>https://www.knightli.com/es/2026/04/24/deepseek-v4-preview-release/</guid>
        <description>&lt;p&gt;DeepSeek lanzó &lt;a class=&#34;link&#34; href=&#34;https://api-docs.deepseek.com/news/news260424&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Lanzamiento preliminar de DeepSeek V4&lt;/a&gt; el &lt;code&gt;2026-04-24&lt;/code&gt;. Según la página de anuncio oficial, la actualización se centra en algunos temas muy claros: &amp;ldquo;1M context&amp;rdquo;, una línea de dos modelos con &amp;ldquo;V4-Pro&amp;rdquo; y &amp;ldquo;V4-Flash&amp;rdquo;, optimización dedicada para escenarios de agentes y migración de modelos del lado API.&lt;/p&gt;
&lt;p&gt;Si reducimos el comunicado a una frase, la señal principal es la siguiente: DeepSeek no sólo está intentando crear un modelo más potente. Está impulsando el contexto ultralargo y las capacidades de los agentes hacia algo que esté listo para su implementación práctica.&lt;/p&gt;
&lt;h2 id=&#34;1-lo-que-se-lanzó-esta-vez&#34;&gt;1. Lo que se lanzó esta vez
&lt;/h2&gt;&lt;p&gt;Según la página oficial, &lt;code&gt;DeepSeek-V4 Preview&lt;/code&gt; incluye principalmente dos líneas de productos:&lt;/p&gt;
&lt;p&gt;-&lt;code&gt;DeepSeek-V4-Pro&lt;/code&gt;
-&lt;code&gt;DeepSeek-V4-Flash&lt;/code&gt;&lt;/p&gt;
&lt;p&gt;Las descripciones oficiales también son muy directas:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;DeepSeek-V4-Pro&lt;/code&gt;: &lt;code&gt;1.6T total / 49B parámetros activos&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;DeepSeek-V4-Flash&lt;/code&gt;: &lt;code&gt;284B en total / 13B de parámetros activos&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;El nombre ya deja clara la estrategia. Esta no es una actualización de un solo modelo. DeepSeek está lanzando un modelo de gama alta y un modelo más rentable al mismo tiempo.&lt;/p&gt;
&lt;p&gt;&amp;ldquo;V4-Pro&amp;rdquo; está posicionado alrededor del techo de rendimiento, y DeepSeek dice que puede competir con los mejores modelos de código cerrado del mundo. &lt;code&gt;V4-Flash&lt;/code&gt;, por el contrario, se posiciona en torno a la velocidad, la eficiencia y el menor costo, lo que lo hace más adecuado para cargas de trabajo que se preocupan más por la latencia y el precio de API.&lt;/p&gt;
&lt;h2 id=&#34;2-1m-contexto-es-el-título-más-visible&#34;&gt;2. &lt;code&gt;1M contexto&lt;/code&gt; es el título más visible
&lt;/h2&gt;&lt;p&gt;Una de las líneas más destacadas de la página oficial es: &lt;strong&gt;&amp;ldquo;Bienvenido a la era del contexto rentable de 1 millón de longitud&amp;rdquo;.&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;DeepSeek no se limita a decir que el modelo admite un contexto prolongado. Presenta &amp;ldquo;contexto 1M&amp;rdquo; como una capacidad predeterminada de esta generación. La página es explícita que:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;1M context&lt;/code&gt; es ahora el estándar predeterminado en todos los servicios oficiales de DeepSeek&lt;/li&gt;
&lt;li&gt;Tanto &lt;code&gt;V4-Pro&lt;/code&gt; como &lt;code&gt;V4-Flash&lt;/code&gt; admiten &lt;code&gt;contexto 1M&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;La importancia de esto no es sólo que puedas colocar más tokens. Afecta directamente a tareas como:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Comprender grandes bases de código&lt;/li&gt;
&lt;li&gt;Preguntas y respuestas de documentos extensos y síntesis de información.&lt;/li&gt;
&lt;li&gt;Flujos de trabajo de agentes de múltiples turnos&lt;/li&gt;
&lt;li&gt;Tareas complejas que abarcan múltiples archivos, herramientas y etapas.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Cuando la ventana de contexto es lo suficientemente grande, es menos probable que el modelo pierda el contexto a mitad del camino y vuelva a leer el material repetidamente. Esto es muy importante para la codificación agente y el trabajo de conocimiento complejo.&lt;/p&gt;
&lt;h2 id=&#34;3-qué-enfatiza-principalmente-v4-pro&#34;&gt;3. Qué enfatiza principalmente &lt;code&gt;V4-Pro&lt;/code&gt;
&lt;/h2&gt;&lt;p&gt;Según el texto de la página oficial, &amp;ldquo;DeepSeek-V4-Pro&amp;rdquo; se centra en tres cosas:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Capacidad de codificación agente&lt;/li&gt;
&lt;li&gt;conocimiento mundial&lt;/li&gt;
&lt;li&gt;Capacidad de razonamiento&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;La página dice que &amp;ldquo;V4-Pro&amp;rdquo; alcanza SOTA de código abierto en puntos de referencia de codificación agente. También afirma ser líder entre los modelos abiertos actuales en el conocimiento mundial, sólo por detrás de &amp;ldquo;Gemini-3.1-Pro&amp;rdquo;, y afirma que su rendimiento en matemáticas, &amp;ldquo;STEM&amp;rdquo; y codificación supera a los modelos abiertos actuales y rivaliza con los mejores modelos de código cerrado.&lt;/p&gt;
&lt;p&gt;En otras palabras, &amp;ldquo;V4-Pro&amp;rdquo; no se posiciona como un simple modelo de preguntas y respuestas. Está dirigido mucho más al razonamiento de alta dificultad, la codificación compleja y la ejecución de tareas a largo plazo.&lt;/p&gt;
&lt;h2 id=&#34;4-v4-flash-no-es-solo-una-versión-reducida&#34;&gt;4. &lt;code&gt;V4-Flash&lt;/code&gt; no es solo una versión reducida
&lt;/h2&gt;&lt;p&gt;Otro punto destacable es que DeepSeek no presenta &lt;code&gt;V4-Flash&lt;/code&gt; como modelo de gama baja. Más bien, subraya que el modelo ya es lo suficientemente sólido para muchas tareas prácticas.&lt;/p&gt;
&lt;p&gt;Según el anuncio, &lt;code&gt;V4-Flash&lt;/code&gt;:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Tiene una capacidad de razonamiento cercana a &amp;ldquo;V4-Pro&amp;rdquo;.&lt;/li&gt;
&lt;li&gt;Funciona a la par con &lt;code&gt;V4-Pro&lt;/code&gt; en tareas simples de agente&lt;/li&gt;
&lt;li&gt;Utiliza menos parámetros, responde más rápido y es más económico para el uso de API&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Eso significa que la alineación no es una estructura muy dividida de &amp;ldquo;un buque insignia, un nivel de entrada&amp;rdquo;. Está más cerca de:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;V4-Pro&lt;/code&gt;: optimización para un mayor rendimiento y un techo más resistente&lt;/li&gt;
&lt;li&gt;&lt;code&gt;V4-Flash&lt;/code&gt;: optimización para una menor latencia y una mejor rentabilidad&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Para los desarrolladores, esta suele ser una combinación más práctica, porque muchas tareas de producción no necesitan el modelo más sólido en teoría. Necesitan algo lo suficientemente fuerte, lo suficientemente rápido y lo suficientemente asequible.&lt;/p&gt;
&lt;h2 id=&#34;5-el-lanzamiento-pone-un-claro-énfasis-en-la-optimización-de-los-agentes&#34;&gt;5. El lanzamiento pone un claro énfasis en la optimización de los agentes.
&lt;/h2&gt;&lt;p&gt;Otra señal fuerte de la página de anuncios es que DeepSeek está impulsando activamente &amp;ldquo;V4&amp;rdquo; hacia casos de uso de agentes.&lt;/p&gt;
&lt;p&gt;La página dice que &amp;ldquo;DeepSeek-V4&amp;rdquo; se ha integrado perfectamente con varios agentes líderes de IA, incluidos:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;Código Claude&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;OpenClaw&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Código Abierto&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;DeepSeek también dice que &amp;ldquo;V4&amp;rdquo; ya se está utilizando en sus flujos de trabajo de codificación agentes internos.&lt;/p&gt;
&lt;p&gt;Eso significa que el objetivo ya no se limita al chat o a la finalización ordinaria. El modelo se está posicionando para flujos de trabajo más largos: leer código, comprender la estructura, llamar a herramientas, generar resultados y conectar todo el proceso.&lt;/p&gt;
&lt;p&gt;Si ha estado prestando atención a los agentes de codificación recientemente, vale la pena señalarlo. Los proveedores de modelos ya no compiten sólo en base a puntos de referencia. También compiten sobre si el modelo realmente puede integrarse en flujos de trabajo reales.&lt;/p&gt;
&lt;h2 id=&#34;6-la-innovación-estructural-está-al-servicio-de-la-eficiencia-en-el-contexto-a-largo-plazo&#34;&gt;6. La innovación estructural está al servicio de la eficiencia en el contexto a largo plazo.
&lt;/h2&gt;&lt;p&gt;En el aspecto técnico, la página resume el trabajo estructural de este lanzamiento como:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;compresión por token&lt;/li&gt;
&lt;li&gt;&lt;code&gt;DSA (Atención escasa de DeepSeek)&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;La dirección es clara: hacer que el contexto largo sea más barato y más eficiente, al mismo tiempo que se reducen los costos de computación y memoria tanto como sea posible.&lt;/p&gt;
&lt;p&gt;La página del anuncio no entra en detalles técnicos completos, pero al menos sugiere que DeepSeek no depende únicamente del escalamiento por fuerza bruta para admitir ventanas más largas. También está realizando optimizaciones a nivel de arquitectura específicamente para la eficiencia en contextos prolongados.&lt;/p&gt;
&lt;p&gt;Para los usuarios reales, eso a menudo es más importante que simplemente ver un número de contexto mayor, porque la usabilidad real depende de algo más que si &amp;ldquo;1M&amp;rdquo; está técnicamente disponible. También depende de:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Si la velocidad sigue siendo aceptable&lt;/li&gt;
&lt;li&gt;Si el costo sigue siendo aceptable&lt;/li&gt;
&lt;li&gt;Si las tareas de contexto largo permanecen estables en la práctica&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;7-la-api-ya-está-disponible-pero-la-migración-del-modelo-es-importante&#34;&gt;7. La API ya está disponible, pero la migración del modelo es importante
&lt;/h2&gt;&lt;p&gt;La página oficial indica claramente que la API está disponible hoy.&lt;/p&gt;
&lt;p&gt;La ruta de migración también es relativamente sencilla:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Mantener la misma &lt;code&gt;base_url&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;Cambie el nombre del modelo a &lt;code&gt;deepseek-v4-pro&lt;/code&gt; o &lt;code&gt;deepseek-v4-flash&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;La página también dice que ambos modelos admiten:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;Contexto 1M&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;Modos duales &amp;ldquo;Pensamiento / No pensamiento&amp;rdquo;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Compleciones de Chat OpenAI&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;API antrópicas&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Eso significa que si ya utiliza la API de DeepSeek, la ruta de actualización no es especialmente difícil. El trabajo principal es actualizar los nombres de los modelos y validar el comportamiento.&lt;/p&gt;
&lt;h2 id=&#34;8-el-calendario-de-jubilación-para-modelos-antiguos-es-explícito&#34;&gt;8. El calendario de jubilación para modelos antiguos es explícito.
&lt;/h2&gt;&lt;p&gt;Para los desarrolladores, uno de los detalles más importantes de la página es en realidad el aviso de retirada de modelos más antiguos.&lt;/p&gt;
&lt;p&gt;DeepSeek dice explícitamente:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;chat de búsqueda profunda&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;razonador de búsqueda profunda&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;quedará completamente retirado y será inaccesible después del &lt;strong&gt;24 de julio de 2026 a las 15:59 UTC&lt;/strong&gt;.
La página también señala que estos dos modelos están siendo encaminados actualmente a los modos de pensamiento y no pensamiento de &amp;ldquo;deepseek-v4-flash&amp;rdquo;.&lt;/p&gt;
&lt;p&gt;Eso significa que si su proyecto todavía hace referencia directa a &lt;code&gt;deepseek-chat&lt;/code&gt; o &lt;code&gt;deepseek-reasoner&lt;/code&gt;, ahora es el momento de planificar la migración en lugar de esperar hasta que se acerque la fecha de cierre formal.&lt;/p&gt;
&lt;h2 id=&#34;9-por-qué-vale-la-pena-leer-este-comunicado&#34;&gt;9. Por qué vale la pena leer este comunicado
&lt;/h2&gt;&lt;p&gt;Si comprimimos la actualización en algunas conclusiones principales, se ven así:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;DeepSeek está convirtiendo el &amp;ldquo;contexto 1M&amp;rdquo; de una característica premium a un estándar predeterminado&lt;/li&gt;
&lt;li&gt;La estrategia de dos modelos es más clara: uno apunta al techo de rendimiento, el otro apunta a la velocidad y la rentabilidad.&lt;/li&gt;
&lt;li&gt;La capacidad del agente se ha trasladado a un papel muy central.&lt;/li&gt;
&lt;li&gt;La ruta de actualización de API es relativamente directa, pero el cronograma de retiro del modelo antiguo necesita atención pronto.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Para los usuarios generales, el cambio más visible puede ser que los documentos largos, los contextos de código largos y los flujos de trabajo largos sean más fáciles de encajar en una sola sesión.&lt;br&gt;
Para los desarrolladores, el punto más importante es que si ya están creando agentes, asistentes de codificación, flujos de trabajo de conocimiento o canales de automatización complejos, esta generación está muy claramente diseñada para esos escenarios.&lt;/p&gt;
&lt;p&gt;Esta no es sólo una actualización rutinaria del modelo de DeepSeek. Se lee más como una declaración más clara de la próxima dirección de su producto: &lt;strong&gt;contexto ultralargo, optimización de agentes y preparación de API más práctica.&lt;/strong&gt;&lt;/p&gt;
&lt;h2 id=&#34;enlaces-relacionados&#34;&gt;Enlaces relacionados
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;Página oficial de noticias de DeepSeek: &lt;a class=&#34;link&#34; href=&#34;https://api-docs.deepseek.com/news/news260424&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://api-docs.deepseek.com/news/news260424&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;Informe técnico: &lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;Pesos abiertos: &lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/collections/deepseek-ai/deepseek-v4&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://huggingface.co/collections/deepseek-ai/deepseek-v4&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        <item>
        <title>Qué son los modelos en la nube de Ollama y cómo usarlos</title>
        <link>https://www.knightli.com/es/2026/04/09/ollama-cloud-models-guide/</link>
        <pubDate>Thu, 09 Apr 2026 18:42:32 +0800</pubDate>
        
        <guid>https://www.knightli.com/es/2026/04/09/ollama-cloud-models-guide/</guid>
        <description>&lt;p&gt;Si usas normalmente &lt;code&gt;Ollama&lt;/code&gt; para ejecutar modelos locales, entender los modelos en la nube será sencillo.&lt;/p&gt;
&lt;p&gt;La diferencia central es solo una:&lt;br&gt;
los modelos locales hacen inferencia en tu ordenador; los modelos en la nube hacen inferencia en la nube de Ollama y devuelven el resultado.&lt;/p&gt;
&lt;h2 id=&#34;qué-es-un-modelo-en-la-nube&#34;&gt;Qué es un modelo en la nube
&lt;/h2&gt;&lt;p&gt;Los modelos en la nube de Ollama conservan la forma de llamada de Ollama, pero cambian la ubicación del cálculo de local a la nube.&lt;/p&gt;
&lt;p&gt;Las ventajas son:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Menor presión sobre el hardware local&lt;/li&gt;
&lt;li&gt;Más fácil usar modelos grandes que tu máquina local no puede mover&lt;/li&gt;
&lt;li&gt;Se mantiene el flujo de trabajo familiar de Ollama&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;diferencia-frente-a-modelos-locales&#34;&gt;Diferencia frente a modelos locales
&lt;/h2&gt;&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;Comparación&lt;/th&gt;
          &lt;th&gt;Modelo local&lt;/th&gt;
          &lt;th&gt;Modelo en la nube&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;Ubicación de ejecución&lt;/td&gt;
          &lt;td&gt;Máquina local&lt;/td&gt;
          &lt;td&gt;Nube&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Requisitos de hardware&lt;/td&gt;
          &lt;td&gt;Altos&lt;/td&gt;
          &lt;td&gt;Bajos&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Latencia&lt;/td&gt;
          &lt;td&gt;Más baja&lt;/td&gt;
          &lt;td&gt;Depende de la red&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Privacidad&lt;/td&gt;
          &lt;td&gt;Más fuerte&lt;/td&gt;
          &lt;td&gt;La solicitud se envía a la nube&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;Si te importa más la privacidad, baja latencia y uso offline, el modelo local es más adecuado.&lt;br&gt;
Si tu hardware local no alcanza pero quieres probar modelos más grandes, el modelo en la nube es más cómodo.&lt;/p&gt;
&lt;h2 id=&#34;cómo-reconocer-modelos-en-la-nube&#34;&gt;Cómo reconocer modelos en la nube
&lt;/h2&gt;&lt;p&gt;Actualmente, los modelos en la nube de Ollama suelen llevar el sufijo &lt;code&gt;-cloud&lt;/code&gt;, por ejemplo:&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;gpt-oss:120b-cloud
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;La lista de modelos disponibles puede cambiar; toma la página oficial de Ollama como referencia final.&lt;/p&gt;
&lt;h2 id=&#34;cómo-usarlos&#34;&gt;Cómo usarlos
&lt;/h2&gt;&lt;p&gt;Primero inicia sesión:&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;ollama signin
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;Después ejecuta directamente el modelo en la nube:&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;ollama run gpt-oss:120b-cloud
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;Si lo llamas desde código, también puedes configurar API Key:&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nb&#34;&gt;export&lt;/span&gt; &lt;span class=&#34;nv&#34;&gt;OLLAMA_API_KEY&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;your_api_key
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;Ejemplo en Python:&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt; 1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 4
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 5
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 6
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 7
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 8
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 9
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;10
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;11
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;12
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;13
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;14
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;kn&#34;&gt;import&lt;/span&gt; &lt;span class=&#34;nn&#34;&gt;os&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;kn&#34;&gt;from&lt;/span&gt; &lt;span class=&#34;nn&#34;&gt;ollama&lt;/span&gt; &lt;span class=&#34;kn&#34;&gt;import&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;Client&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;n&#34;&gt;client&lt;/span&gt; &lt;span class=&#34;o&#34;&gt;=&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;Client&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;(&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    &lt;span class=&#34;n&#34;&gt;host&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;s2&#34;&gt;&amp;#34;https://ollama.com&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    &lt;span class=&#34;n&#34;&gt;headers&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;{&lt;/span&gt;&lt;span class=&#34;s2&#34;&gt;&amp;#34;Authorization&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;:&lt;/span&gt; &lt;span class=&#34;s2&#34;&gt;&amp;#34;Bearer &amp;#34;&lt;/span&gt; &lt;span class=&#34;o&#34;&gt;+&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;os&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;.&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;environ&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;[&lt;/span&gt;&lt;span class=&#34;s2&#34;&gt;&amp;#34;OLLAMA_API_KEY&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;]},&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;p&#34;&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;n&#34;&gt;messages&lt;/span&gt; &lt;span class=&#34;o&#34;&gt;=&lt;/span&gt; &lt;span class=&#34;p&#34;&gt;[&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    &lt;span class=&#34;p&#34;&gt;{&lt;/span&gt;&lt;span class=&#34;s2&#34;&gt;&amp;#34;role&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;:&lt;/span&gt; &lt;span class=&#34;s2&#34;&gt;&amp;#34;user&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;s2&#34;&gt;&amp;#34;content&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;:&lt;/span&gt; &lt;span class=&#34;s2&#34;&gt;&amp;#34;为什么天空是蓝色的？&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;}&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;p&#34;&gt;]&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;k&#34;&gt;for&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;part&lt;/span&gt; &lt;span class=&#34;ow&#34;&gt;in&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;client&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;.&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;chat&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;(&lt;/span&gt;&lt;span class=&#34;s2&#34;&gt;&amp;#34;gpt-oss:120b-cloud&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;messages&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;messages&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;stream&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;kc&#34;&gt;True&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;):&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    &lt;span class=&#34;nb&#34;&gt;print&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;(&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;part&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;[&lt;/span&gt;&lt;span class=&#34;s2&#34;&gt;&amp;#34;message&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;][&lt;/span&gt;&lt;span class=&#34;s2&#34;&gt;&amp;#34;content&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;],&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;end&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;s2&#34;&gt;&amp;#34;&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;flush&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;kc&#34;&gt;True&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;h2 id=&#34;resumen&#34;&gt;Resumen
&lt;/h2&gt;&lt;p&gt;Los modelos en la nube de Ollama pueden entenderse en una frase:&lt;/p&gt;
&lt;p&gt;el comando casi no cambia; solo que el modelo ya no corre en tu máquina local.&lt;/p&gt;
&lt;p&gt;Si tu ordenador no puede mover modelos grandes pero quieres seguir llamando modelos al estilo Ollama, los modelos en la nube son una opción directa.&lt;/p&gt;
</description>
        </item>
        
    </channel>
</rss>
