2023-2026 大模型架構演進全復盤:分詞器、位置編碼、注意力機制、MoE、歸一化與激活函數

面向零基礎讀者復盤 2023-2026 年大模型架構演進:分詞器、位置編碼、注意力機制、MoE、歸一化和激活函數分別解決什麼問題,以及為什麼這些變化主要圍繞效率、長上下文和推理成本展開。

2023 到 2026 年,大模型架構看起來變化很多:分詞器變大,位置編碼換成 RoPE,注意力機制從 MHA 走向 GQA、滑動視窗和 MLA,MoE 重新成為主流,歸一化和激活函數也從傳統寫法變成 RMSNorm、SwiGLU 這類組合。

但如果用一句話概括,這幾年的主線並不是「Transformer 被推翻了」,而是:在 Transformer 主體不變的前提下,圍繞更長上下文、更低推理成本、更高訓練效率和更強多語言能力做工程優化。

先理解一張大圖

大模型可以先粗略拆成幾層:

  • 分詞器:把文字切成模型能理解的 token。
  • 位置編碼:告訴模型每個 token 在句子裡的位置。
  • 注意力機制:決定每個 token 要看哪些上下文。
  • 前饋網路:對每個位置做更複雜的非線性變換。
  • 歸一化:讓訓練過程更穩定。
  • 激活函數:決定網路如何表達非線性關係。
  • MoE:把一部分前饋網路拆成多個專家,每次只呼叫少數幾個。

2023-2026 年的演進,基本就是這些部件輪流被優化。

分詞器:從「能切詞」到「更省 token」

分詞器的任務,是把自然語言變成 token 序列。模型看到的不是「你好世界」四個字,而是一串 token ID。

早期模型的分詞器常常對英文更友好,對中文、程式碼、多語言文本不夠省 token。同樣一段中文或程式碼,如果被切得很碎,就會占用更多上下文視窗,也會增加訓練和推理成本。

這幾年一個明顯趨勢是詞表變大、多語言支援變強。Llama 3 使用 128K token 詞表,Meta 明確提到這樣可以更高效地編碼語言,提高模型表現。Qwen、DeepSeek 等模型也很重視中文、程式碼和多語言場景下的 token 效率。

零基礎可以這樣理解:分詞器越合適,同樣一句話越不容易被切得支離破碎,模型能在同樣上下文長度裡裝下更多有效資訊。

位置編碼:RoPE 成為主流

語言是有順序的。「狗咬人」和「人咬狗」詞差不多,但位置不同,意思完全不一樣。位置編碼就是把順序資訊注入模型。

早期 Transformer 使用絕對位置編碼,位置 1、位置 2、位置 3 各有自己的向量。後來大模型更常用 RoPE,也就是 Rotary Positional Embedding。RoPE 的特點是把位置資訊融合進注意力計算中,對長上下文擴展更友好。

從 Llama 系列到很多開源模型,RoPE 已經成為事實標準之一。後來為了支援更長上下文,模型還會調整 RoPE 的 base frequency、做 RoPE scaling,或者配合滑動視窗、分塊注意力等方案。

簡單說,RoPE 不是讓模型「突然變聰明」,而是讓模型在更長文本裡更好地理解相對位置關係。

注意力機制:從 MHA 到 GQA、滑動視窗和 MLA

注意力機制是 Transformer 的核心。它讓每個 token 可以根據目前任務,去關注上下文裡最相關的 token。

最經典的是 MHA,也就是 Multi-Head Attention。它會有多個注意力頭,每個頭學習不同的關注方式。問題是,模型越大、上下文越長,KV cache 占用越高,推理成本也越高。

所以 2023 之後,注意力機制的主要優化方向是降低推理成本。

GQA,也就是 Grouped-Query Attention,是非常重要的一步。它讓多個 query head 共享較少的 key/value head,從而降低 KV cache 壓力。Meta 在 Llama 3 中明確採用了 GQA,以提高推理效率。

Mistral 7B 代表了另一個方向:滑動視窗注意力。它不讓每個 token 都看完整歷史,而是主要看附近視窗裡的上下文,從而降低長序列計算壓力。對於很多任務來說,局部上下文已經足夠有用。

DeepSeek-V2/V3 則把注意力優化推到更激進的方向:MLA,也就是 Multi-head Latent Attention。它的重點是壓縮 KV cache,把推理時的顯存壓力降下來。DeepSeek-V3 技術報告把 MLA 和 DeepSeekMoE 列為架構核心。

可以把這幾種方法放在一起理解:

  • MHA:經典做法,效果好但成本高。
  • GQA:犧牲很少表達能力,明顯降低 KV cache 成本。
  • 滑動視窗注意力:減少長上下文中全域注意力的計算壓力。
  • MLA:進一步壓縮注意力快取,面向高效推理。

MoE:讓模型「參數很多,但每次只用一部分」

MoE 是 Mixture of Experts,中文常叫混合專家模型。

普通 Dense 模型會在每個 token 上激活全部參數。MoE 的思路是:模型裡放很多專家,但每個 token 只路由到少數幾個專家。這樣總參數量可以很大,但單次推理激活的參數量相對小。

2023 年底的 Mixtral 8x7B 是 MoE 重新進入大眾視野的重要節點。Mistral 的論文說明,Mixtral 8x7B 基本沿用 Mistral 7B 架構,但把每層前饋網路換成 8 個專家,並透過稀疏路由選擇部分專家參與計算。

後來的 DeepSeek-V3 進一步把 MoE 做成核心路線。它總參數量很大,但每個 token 只激活其中一部分參數,透過 DeepSeekMoE 降低訓練和推理成本。Qwen3 等模型也同時提供 Dense 和 MoE 路線,說明 MoE 已經從「研究技巧」變成了主流工程選項。

零基礎可以這樣理解:Dense 模型像一個全員開會的公司,任何問題都讓所有人參與;MoE 像把公司分成多個專家小組,每次只叫最相關的小組來處理。

MoE 的難點也很明顯:

  • 路由器要學會把 token 分給合適專家。
  • 專家負載要均衡,不能所有 token 都擠到少數專家。
  • 分散式訓練和推理會更複雜。
  • 總參數大,不等於每次推理都便宜,部署仍然有門檻。

歸一化:RMSNorm 成為常見選擇

歸一化的作用,是讓神經網路中間層的數值分布更穩定。訓練大模型時,如果數值波動太大,訓練會更難收斂,也更容易不穩定。

早期 Transformer 常用 LayerNorm。後來很多 Llama 系模型改用 RMSNorm。RMSNorm 相比 LayerNorm 更簡化,不計算均值,只關注均方根尺度,計算更輕,也足夠穩定。

對普通讀者來說,不需要記公式,只要知道:RMSNorm 是一種更輕量的穩定器。它不能單獨決定模型能力,但會影響訓練穩定性、速度和工程實現。

激活函數:從 ReLU/GELU 到 SwiGLU

激活函數負責給神經網路加入非線性能力。沒有激活函數,多層網路很容易退化成線性變換。

早期很多 Transformer 使用 GELU。Llama 系列、Mistral、Qwen、DeepSeek 等現代大模型中,更常見的是 SwiGLU 或類似 GLU 變體。SwiGLU 通常出現在前饋網路裡,透過「門控」方式控制資訊流。

可以粗略理解為:普通激活函數像一個固定開關,而 SwiGLU 更像一個可學習的閥門。它不只是決定資訊過不過,還能學習哪些資訊更應該被放大。

SwiGLU 的代價是前饋層結構稍複雜,參數和計算形式也不同,但在大模型實踐中,它已經成為高性能架構的常見組件。

2023-2026 的整體趨勢

如果按時間線看,可以這樣總結:

  • 2023:Llama、Mistral 7B、Mixtral 等開源模型讓 RoPE、RMSNorm、SwiGLU、GQA、滑動視窗、MoE 等組合走向普及。
  • 2024:Llama 3、Qwen2.5、DeepSeek-V2/V3 等模型繼續擴大詞表、改進長上下文、強化推理效率,MoE 和高效注意力成為重點。
  • 2025:DeepSeek-V3/R1 引發更多人關注 MLA、DeepSeekMoE、FP8、MTP 等訓練和推理效率設計,架構優化和系統工程深度綁定。
  • 2026:趨勢仍然是高效化和工程化:Dense 模型繼續追求穩定通用,MoE 模型負責擴大容量,高效注意力負責降低長上下文成本。

這幾年最重要的變化,不是某個單點組件取代了 Transformer,而是大家越來越清楚:只堆參數不夠,架構、資料、訓練系統、推理服務必須一起優化。

新手應該怎麼學

如果你是零基礎,不建議一開始就硬啃所有論文。更好的順序是:

  1. 先理解 Transformer 的基本結構:token、embedding、attention、FFN。
  2. 再理解 RoPE、RMSNorm、SwiGLU 為什麼會成為常見組合。
  3. 接著看 GQA 和 KV cache,理解推理為什麼會吃顯存。
  4. 再學 MoE,重點理解「總參數」和「激活參數」的區別。
  5. 最後看 DeepSeek-V3、Mixtral、Llama 3 這類模型報告,把組件放回真實模型裡理解。

不要把這些名詞當成孤立知識點。它們大多是在回答同一個問題:如何讓模型更強,同時還能訓練得起、部署得動、推理得快。

總結

2023-2026 年的大模型架構演進,可以看成 Transformer 的工程成熟期。分詞器負責減少 token 浪費,RoPE 負責更好表達位置,GQA、滑動視窗和 MLA 負責降低注意力成本,MoE 負責擴大容量但控制激活計算,RMSNorm 和 SwiGLU 則讓訓練和表達更穩定高效。

對新手來說,最重要的不是背名詞,而是抓住主線:現代大模型架構的每一次改動,幾乎都在圍繞成本、效率、上下文長度和可擴展性做權衡。

參考連結:

记录并分享
使用 Hugo 建立
主題 StackJimmy 設計