Tags
1 个页面
Transformer
2023-2026 大模型架构演进全复盘:分词器、位置编码、注意力机制、MoE、归一化与激活函数