Evolución de la arquitectura de los LLM entre 2023 y 2026: tokenizadores, codificación posicional, atención, MoE, normalización y funciones de activación