2023-2026 大模型架構演進全復盤：分詞器、位置編碼、注意力機制、MoE、歸一化與激活函數

2023 到 2026 年，大模型架構看起來變化很多：分詞器變大，位置編碼換成 RoPE，注意力機制從 MHA 走向 GQA、滑動視窗和 MLA，MoE 重新成為主流，歸一化和激活函數也從傳統寫法變成 RMSNorm、SwiGLU 這類組合。

但如果用一句話概括，這幾年的主線並不是「Transformer 被推翻了」，而是：在 Transformer 主體不變的前提下，圍繞更長上下文、更低推理成本、更高訓練效率和更強多語言能力做工程優化。

先理解一張大圖

大模型可以先粗略拆成幾層：

分詞器：把文字切成模型能理解的 token。
位置編碼：告訴模型每個 token 在句子裡的位置。
注意力機制：決定每個 token 要看哪些上下文。
前饋網路：對每個位置做更複雜的非線性變換。
歸一化：讓訓練過程更穩定。
激活函數：決定網路如何表達非線性關係。
MoE：把一部分前饋網路拆成多個專家，每次只呼叫少數幾個。

2023-2026 年的演進，基本就是這些部件輪流被優化。

分詞器：從「能切詞」到「更省 token」

分詞器的任務，是把自然語言變成 token 序列。模型看到的不是「你好世界」四個字，而是一串 token ID。

早期模型的分詞器常常對英文更友好，對中文、程式碼、多語言文本不夠省 token。同樣一段中文或程式碼，如果被切得很碎，就會占用更多上下文視窗，也會增加訓練和推理成本。

這幾年一個明顯趨勢是詞表變大、多語言支援變強。Llama 3 使用 128K token 詞表，Meta 明確提到這樣可以更高效地編碼語言，提高模型表現。Qwen、DeepSeek 等模型也很重視中文、程式碼和多語言場景下的 token 效率。

零基礎可以這樣理解：分詞器越合適，同樣一句話越不容易被切得支離破碎，模型能在同樣上下文長度裡裝下更多有效資訊。

位置編碼：RoPE 成為主流

語言是有順序的。「狗咬人」和「人咬狗」詞差不多，但位置不同，意思完全不一樣。位置編碼就是把順序資訊注入模型。

早期 Transformer 使用絕對位置編碼，位置 1、位置 2、位置 3 各有自己的向量。後來大模型更常用 RoPE，也就是 Rotary Positional Embedding。RoPE 的特點是把位置資訊融合進注意力計算中，對長上下文擴展更友好。

從 Llama 系列到很多開源模型，RoPE 已經成為事實標準之一。後來為了支援更長上下文，模型還會調整 RoPE 的 base frequency、做 RoPE scaling，或者配合滑動視窗、分塊注意力等方案。

簡單說，RoPE 不是讓模型「突然變聰明」，而是讓模型在更長文本裡更好地理解相對位置關係。

注意力機制：從 MHA 到 GQA、滑動視窗和 MLA

注意力機制是 Transformer 的核心。它讓每個 token 可以根據目前任務，去關注上下文裡最相關的 token。

最經典的是 MHA，也就是 Multi-Head Attention。它會有多個注意力頭，每個頭學習不同的關注方式。問題是，模型越大、上下文越長，KV cache 占用越高，推理成本也越高。

所以 2023 之後，注意力機制的主要優化方向是降低推理成本。

GQA，也就是 Grouped-Query Attention，是非常重要的一步。它讓多個 query head 共享較少的 key/value head，從而降低 KV cache 壓力。Meta 在 Llama 3 中明確採用了 GQA，以提高推理效率。

Mistral 7B 代表了另一個方向：滑動視窗注意力。它不讓每個 token 都看完整歷史，而是主要看附近視窗裡的上下文，從而降低長序列計算壓力。對於很多任務來說，局部上下文已經足夠有用。

DeepSeek-V2/V3 則把注意力優化推到更激進的方向：MLA，也就是 Multi-head Latent Attention。它的重點是壓縮 KV cache，把推理時的顯存壓力降下來。DeepSeek-V3 技術報告把 MLA 和 DeepSeekMoE 列為架構核心。

可以把這幾種方法放在一起理解：

MHA：經典做法，效果好但成本高。
GQA：犧牲很少表達能力，明顯降低 KV cache 成本。
滑動視窗注意力：減少長上下文中全域注意力的計算壓力。
MLA：進一步壓縮注意力快取，面向高效推理。

MoE：讓模型「參數很多，但每次只用一部分」

MoE 是 Mixture of Experts，中文常叫混合專家模型。

普通 Dense 模型會在每個 token 上激活全部參數。MoE 的思路是：模型裡放很多專家，但每個 token 只路由到少數幾個專家。這樣總參數量可以很大，但單次推理激活的參數量相對小。

2023 年底的 Mixtral 8x7B 是 MoE 重新進入大眾視野的重要節點。Mistral 的論文說明，Mixtral 8x7B 基本沿用 Mistral 7B 架構，但把每層前饋網路換成 8 個專家，並透過稀疏路由選擇部分專家參與計算。

後來的 DeepSeek-V3 進一步把 MoE 做成核心路線。它總參數量很大，但每個 token 只激活其中一部分參數，透過 DeepSeekMoE 降低訓練和推理成本。Qwen3 等模型也同時提供 Dense 和 MoE 路線，說明 MoE 已經從「研究技巧」變成了主流工程選項。

零基礎可以這樣理解：Dense 模型像一個全員開會的公司，任何問題都讓所有人參與；MoE 像把公司分成多個專家小組，每次只叫最相關的小組來處理。

MoE 的難點也很明顯：

路由器要學會把 token 分給合適專家。
專家負載要均衡，不能所有 token 都擠到少數專家。
分散式訓練和推理會更複雜。
總參數大，不等於每次推理都便宜，部署仍然有門檻。

歸一化：RMSNorm 成為常見選擇

歸一化的作用，是讓神經網路中間層的數值分布更穩定。訓練大模型時，如果數值波動太大，訓練會更難收斂，也更容易不穩定。

早期 Transformer 常用 LayerNorm。後來很多 Llama 系模型改用 RMSNorm。RMSNorm 相比 LayerNorm 更簡化，不計算均值，只關注均方根尺度，計算更輕，也足夠穩定。

對普通讀者來說，不需要記公式，只要知道：RMSNorm 是一種更輕量的穩定器。它不能單獨決定模型能力，但會影響訓練穩定性、速度和工程實現。

激活函數：從 ReLU/GELU 到 SwiGLU

激活函數負責給神經網路加入非線性能力。沒有激活函數，多層網路很容易退化成線性變換。

早期很多 Transformer 使用 GELU。Llama 系列、Mistral、Qwen、DeepSeek 等現代大模型中，更常見的是 SwiGLU 或類似 GLU 變體。SwiGLU 通常出現在前饋網路裡，透過「門控」方式控制資訊流。

可以粗略理解為：普通激活函數像一個固定開關，而 SwiGLU 更像一個可學習的閥門。它不只是決定資訊過不過，還能學習哪些資訊更應該被放大。

SwiGLU 的代價是前饋層結構稍複雜，參數和計算形式也不同，但在大模型實踐中，它已經成為高性能架構的常見組件。

2023-2026 的整體趨勢

如果按時間線看，可以這樣總結：

2023：Llama、Mistral 7B、Mixtral 等開源模型讓 RoPE、RMSNorm、SwiGLU、GQA、滑動視窗、MoE 等組合走向普及。
2024：Llama 3、Qwen2.5、DeepSeek-V2/V3 等模型繼續擴大詞表、改進長上下文、強化推理效率，MoE 和高效注意力成為重點。
2025：DeepSeek-V3/R1 引發更多人關注 MLA、DeepSeekMoE、FP8、MTP 等訓練和推理效率設計，架構優化和系統工程深度綁定。
2026：趨勢仍然是高效化和工程化：Dense 模型繼續追求穩定通用，MoE 模型負責擴大容量，高效注意力負責降低長上下文成本。

這幾年最重要的變化，不是某個單點組件取代了 Transformer，而是大家越來越清楚：只堆參數不夠，架構、資料、訓練系統、推理服務必須一起優化。

新手應該怎麼學

如果你是零基礎，不建議一開始就硬啃所有論文。更好的順序是：

先理解 Transformer 的基本結構：token、embedding、attention、FFN。
再理解 RoPE、RMSNorm、SwiGLU 為什麼會成為常見組合。
接著看 GQA 和 KV cache，理解推理為什麼會吃顯存。
再學 MoE，重點理解「總參數」和「激活參數」的區別。
最後看 DeepSeek-V3、Mixtral、Llama 3 這類模型報告，把組件放回真實模型裡理解。

不要把這些名詞當成孤立知識點。它們大多是在回答同一個問題：如何讓模型更強，同時還能訓練得起、部署得動、推理得快。

總結

2023-2026 年的大模型架構演進，可以看成 Transformer 的工程成熟期。分詞器負責減少 token 浪費，RoPE 負責更好表達位置，GQA、滑動視窗和 MLA 負責降低注意力成本，MoE 負責擴大容量但控制激活計算，RMSNorm 和 SwiGLU 則讓訓練和表達更穩定高效。

對新手來說，最重要的不是背名詞，而是抓住主線：現代大模型架構的每一次改動，幾乎都在圍繞成本、效率、上下文長度和可擴展性做權衡。

參考連結：