Evolución de la arquitectura de los LLM entre 2023 y 2026: tokenizadores, codificación posicional, atención, MoE, normalización y funciones de activación

Sun, 17 May 2026 08:53:29 +0800

Entre 2023 y 2026, la arquitectura de los LLM pareció cambiar en muchas direcciones: los tokenizadores se hicieron más grandes, la codificación posicional se desplazó hacia RoPE, la atención pasó de MHA a GQA, ventanas deslizantes y MLA, MoE volvió a ser una opción dominante, y la normalización y las funciones de activación se movieron hacia combinaciones como RMSNorm y SwiGLU.

Pero la idea principal no es que Transformer haya sido reemplazado. La idea central es que el núcleo Transformer siguió vigente, mientras casi todos sus componentes se optimizaron para contextos más largos, menor coste de inferencia, mayor eficiencia de entrenamiento y mejor capacidad multilingüe.

Primero, la vista general

Un LLM puede dividirse aproximadamente en varias partes:

Tokenizador: convierte texto en tokens que el modelo puede entender.
Codificación posicional: indica al modelo dónde está cada token en la secuencia.
Mecanismo de atención: decide qué contexto debe mirar cada token.
Red feed-forward: aplica transformaciones no lineales más complejas en cada posición.
Normalización: estabiliza el entrenamiento.
Función de activación: da capacidad no lineal a la red.
MoE: divide parte de la red feed-forward en varios expertos y activa solo algunos cada vez.

La evolución de 2023 a 2026 puede entenderse como la optimización sucesiva de estas piezas.

Tokenizadores: de “dividir texto” a “ahorrar tokens”

El tokenizador convierte lenguaje natural en secuencias de tokens. El modelo no ve el texto directamente; ve IDs de tokens.

Los tokenizadores anteriores solían ser más eficientes en inglés y menos eficientes para chino, código y texto multilingüe. Si una misma frase se divide en demasiadas piezas pequeñas, consume más ventana de contexto y aumenta tanto el coste de entrenamiento como el de inferencia.

Una tendencia clara de los últimos años es tener vocabularios más grandes y mejor soporte multilingüe. Llama 3 usa un vocabulario de 128K tokens, y Meta explicó que esto codifica el lenguaje de forma más eficiente y mejora el rendimiento del modelo. Qwen, DeepSeek y otros modelos también prestan mucha atención a la eficiencia de tokens en chino, código y escenarios multilingües.

Para principiantes: cuanto mejor es el tokenizador, menos fragmentado queda el mismo texto y más información útil cabe en la misma longitud de contexto.

Codificación posicional: RoPE se volvió dominante

El lenguaje tiene orden. Las mismas palabras pueden cambiar por completo de significado si se reordenan. La codificación posicional introduce esa información de orden en el modelo.

Los primeros Transformers usaban codificación posicional absoluta, donde la posición 1, la posición 2 y la posición 3 tenían vectores propios. Los LLM posteriores adoptaron con frecuencia RoPE, o Rotary Positional Embedding. RoPE integra la información de posición dentro del cálculo de atención y es más amigable para extender el contexto.

Desde la familia Llama hasta muchos modelos abiertos, RoPE se ha convertido en un estándar de facto. Para soportar contextos más largos, los modelos también pueden ajustar la base frequency de RoPE, aplicar RoPE scaling o combinarlo con atención de ventana deslizante o atención por bloques.

En pocas palabras, RoPE no hace que un modelo sea “mágicamente más inteligente”; ayuda a que el modelo maneje mejor relaciones de posición relativa en textos largos.

Atención: de MHA a GQA, ventanas deslizantes y MLA

La atención es el núcleo de Transformer. Permite que cada token mire los tokens más relevantes del contexto para la tarea actual.

La versión clásica es MHA, o Multi-Head Attention. Tiene múltiples cabezas de atención, cada una aprendiendo una forma distinta de enfocar. El problema es que, a medida que crecen el modelo y el contexto, el KV cache se vuelve costoso y sube el coste de inferencia.

Después de 2023, la principal dirección de optimización de la atención fue reducir el coste de inferencia.

GQA, o Grouped-Query Attention, fue un paso importante. Permite que varias query heads compartan menos key/value heads, reduciendo la presión del KV cache. Meta adoptó explícitamente GQA en Llama 3 para mejorar la eficiencia de inferencia.

Mistral 7B representa otra dirección: atención de ventana deslizante. En lugar de hacer que cada token mire todo el historial, se centra principalmente en una ventana cercana, reduciendo la presión computacional de secuencias largas. Para muchas tareas, el contexto local ya es muy útil.

DeepSeek-V2/V3 llevó esta optimización más lejos con MLA, o Multi-head Latent Attention. Su objetivo es comprimir el KV cache y reducir la presión de memoria durante la inferencia. El informe técnico de DeepSeek-V3 lista MLA y DeepSeekMoE como elementos centrales de su arquitectura.

Estas técnicas pueden resumirse así:

MHA: enfoque clásico, fuerte pero caro.
GQA: reduce mucho el coste de KV cache con poca pérdida de expresividad.
Atención de ventana deslizante: reduce el coste de atención global en contextos largos.
MLA: comprime aún más la caché de atención para una inferencia eficiente.

MoE: muchos parámetros, pero solo algunos se usan cada vez

MoE significa Mixture of Experts.

Un modelo denso activa todos sus parámetros para cada token. MoE coloca muchos expertos dentro del modelo, pero enruta cada token solo a unos pocos. Así, el número total de parámetros puede ser muy grande, mientras que los parámetros activos por paso de inferencia siguen siendo más reducidos.

Mixtral 8x7B, lanzado a finales de 2023, fue un momento importante para que MoE volviera al centro de la conversación. El artículo de Mistral explica que Mixtral 8x7B sigue en gran parte la arquitectura de Mistral 7B, pero reemplaza cada bloque feed-forward por 8 expertos y usa enrutamiento disperso para seleccionar parte de ellos durante el cálculo.

Después, DeepSeek-V3 convirtió MoE en una ruta central. Tiene una cantidad total de parámetros muy grande, pero cada token activa solo una parte, usando DeepSeekMoE para reducir coste de entrenamiento e inferencia. Qwen3 y otras familias también ofrecen variantes densas y MoE, lo que muestra que MoE pasó de ser una técnica de investigación a una opción de ingeniería dominante.

Para principiantes: un modelo denso es como una empresa donde todos asisten a cada reunión. MoE es como dividir la empresa en equipos expertos y llamar solo a los equipos relevantes para cada problema.

MoE también tiene dificultades claras:

El router debe aprender a enviar tokens a expertos adecuados.
La carga debe equilibrarse para que no todos los tokens caigan en pocos expertos.
El entrenamiento y la inferencia distribuidos son más complejos.
Tener muchos parámetros totales no hace automáticamente barato el despliegue.

Normalización: RMSNorm se volvió común

La normalización estabiliza la distribución de valores intermedios dentro de la red neuronal. Al entrenar modelos grandes, valores inestables dificultan la convergencia y pueden volver el entrenamiento menos fiable.

Los primeros Transformers solían usar LayerNorm. Muchos modelos de estilo Llama pasaron después a RMSNorm. RMSNorm es más simple que LayerNorm: no calcula la media y se centra en la escala de raíz cuadrática media. Es más ligero y suficientemente estable en la práctica.

No hace falta memorizar la fórmula. Basta con recordar que RMSNorm es un estabilizador más ligero. No determina por sí solo la capacidad del modelo, pero afecta a la estabilidad, la velocidad y la implementación.

Funciones de activación: de ReLU/GELU a SwiGLU

Las funciones de activación añaden capacidad no lineal a las redes neuronales. Sin ellas, una red profunda se parecería demasiado a una transformación lineal.

Los Transformers anteriores usaban a menudo GELU. En Llama, Mistral, Qwen, DeepSeek y otros LLM modernos, es más común ver SwiGLU o variantes similares de GLU. SwiGLU suele aparecer dentro de la red feed-forward y controla el flujo de información mediante compuertas.

Una analogía sencilla: una función de activación normal es como un interruptor fijo, mientras que SwiGLU se parece más a una válvula aprendible. No solo decide si pasa información; también aprende qué información debe amplificarse.

SwiGLU hace que la capa feed-forward sea algo más compleja, pero en la práctica de modelos grandes se ha vuelto un componente común de alto rendimiento.

Tendencia general de 2023 a 2026

La línea temporal puede resumirse así:

2023: Llama, Mistral 7B, Mixtral y otros modelos abiertos popularizaron combinaciones como RoPE, RMSNorm, SwiGLU, GQA, atención de ventana deslizante y MoE.
2024: Llama 3, Qwen2.5, DeepSeek-V2/V3 y otros ampliaron vocabularios, mejoraron contexto largo, reforzaron la eficiencia de inferencia y pusieron MoE y atención eficiente en el centro.
2025: DeepSeek-V3/R1 hizo que más personas prestaran atención a MLA, DeepSeekMoE, FP8, MTP y a la conexión profunda entre optimización arquitectónica e ingeniería de sistemas.
2026: la tendencia sigue siendo eficiencia y madurez de ingeniería: los modelos densos buscan capacidad general estable, los MoE amplían capacidad y la atención eficiente reduce el coste del contexto largo.

El cambio más importante no fue que una pieza reemplazara a Transformer. Fue entender que sumar parámetros no basta: arquitectura, datos, sistema de entrenamiento y servicio de inferencia deben optimizarse juntos.

Cómo debería aprenderlo un principiante

Si empiezas desde cero, no conviene intentar leer todos los papers de entrada. Un mejor orden sería:

Entender la estructura básica de Transformer: token, embedding, attention y FFN.
Entender por qué RoPE, RMSNorm y SwiGLU se volvieron comunes.
Estudiar GQA y KV cache para comprender por qué la inferencia consume tanta memoria.
Aprender MoE, especialmente la diferencia entre parámetros totales y parámetros activos.
Finalmente, leer informes de modelos como DeepSeek-V3, Mixtral y Llama 3 para ubicar cada componente en modelos reales.

No trates estos términos como conceptos aislados. La mayoría responden a la misma pregunta: cómo hacer modelos más fuertes que todavía puedan entrenarse, desplegarse y servir respuestas con rapidez.

Resumen

La evolución de la arquitectura de LLM entre 2023 y 2026 puede verse como la maduración de ingeniería de Transformer. Los tokenizadores reducen desperdicio de tokens, RoPE representa mejor la posición, GQA, la atención de ventana deslizante y MLA reducen el coste de atención, MoE amplía capacidad controlando la computación activa, y RMSNorm junto con SwiGLU hacen que el entrenamiento y la representación sean más estables y eficientes.

Para principiantes, lo importante no es memorizar términos. Lo importante es captar la línea principal: casi todos los cambios modernos en arquitectura LLM tratan de equilibrar coste, eficiencia, longitud de contexto y escalabilidad.

Referencias:

Transformer on KnightLi Blog