<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>大模型 on KnightLi的博客</title>
        <link>https://www.knightli.com/zh-tw/tags/%E5%A4%A7%E6%A8%A1%E5%9E%8B/</link>
        <description>Recent content in 大模型 on KnightLi的博客</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>zh-tw</language>
        <lastBuildDate>Sun, 17 May 2026 08:53:29 +0800</lastBuildDate><atom:link href="https://www.knightli.com/zh-tw/tags/%E5%A4%A7%E6%A8%A1%E5%9E%8B/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>2023-2026 大模型架構演進全復盤：分詞器、位置編碼、注意力機制、MoE、歸一化與激活函數</title>
        <link>https://www.knightli.com/zh-tw/2026/05/17/llm-architecture-evolution-2023-2026/</link>
        <pubDate>Sun, 17 May 2026 08:53:29 +0800</pubDate>
        
        <guid>https://www.knightli.com/zh-tw/2026/05/17/llm-architecture-evolution-2023-2026/</guid>
        <description>&lt;p&gt;2023 到 2026 年，大模型架構看起來變化很多：分詞器變大，位置編碼換成 RoPE，注意力機制從 MHA 走向 GQA、滑動視窗和 MLA，MoE 重新成為主流，歸一化和激活函數也從傳統寫法變成 RMSNorm、SwiGLU 這類組合。&lt;/p&gt;
&lt;p&gt;但如果用一句話概括，這幾年的主線並不是「Transformer 被推翻了」，而是：在 Transformer 主體不變的前提下，圍繞更長上下文、更低推理成本、更高訓練效率和更強多語言能力做工程優化。&lt;/p&gt;
&lt;h2 id=&#34;先理解一張大圖&#34;&gt;先理解一張大圖
&lt;/h2&gt;&lt;p&gt;大模型可以先粗略拆成幾層：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;分詞器：把文字切成模型能理解的 token。&lt;/li&gt;
&lt;li&gt;位置編碼：告訴模型每個 token 在句子裡的位置。&lt;/li&gt;
&lt;li&gt;注意力機制：決定每個 token 要看哪些上下文。&lt;/li&gt;
&lt;li&gt;前饋網路：對每個位置做更複雜的非線性變換。&lt;/li&gt;
&lt;li&gt;歸一化：讓訓練過程更穩定。&lt;/li&gt;
&lt;li&gt;激活函數：決定網路如何表達非線性關係。&lt;/li&gt;
&lt;li&gt;MoE：把一部分前饋網路拆成多個專家，每次只呼叫少數幾個。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;2023-2026 年的演進，基本就是這些部件輪流被優化。&lt;/p&gt;
&lt;h2 id=&#34;分詞器從能切詞到更省-token&#34;&gt;分詞器：從「能切詞」到「更省 token」
&lt;/h2&gt;&lt;p&gt;分詞器的任務，是把自然語言變成 token 序列。模型看到的不是「你好世界」四個字，而是一串 token ID。&lt;/p&gt;
&lt;p&gt;早期模型的分詞器常常對英文更友好，對中文、程式碼、多語言文本不夠省 token。同樣一段中文或程式碼，如果被切得很碎，就會占用更多上下文視窗，也會增加訓練和推理成本。&lt;/p&gt;
&lt;p&gt;這幾年一個明顯趨勢是詞表變大、多語言支援變強。Llama 3 使用 128K token 詞表，Meta 明確提到這樣可以更高效地編碼語言，提高模型表現。Qwen、DeepSeek 等模型也很重視中文、程式碼和多語言場景下的 token 效率。&lt;/p&gt;
&lt;p&gt;零基礎可以這樣理解：分詞器越合適，同樣一句話越不容易被切得支離破碎，模型能在同樣上下文長度裡裝下更多有效資訊。&lt;/p&gt;
&lt;h2 id=&#34;位置編碼rope-成為主流&#34;&gt;位置編碼：RoPE 成為主流
&lt;/h2&gt;&lt;p&gt;語言是有順序的。「狗咬人」和「人咬狗」詞差不多，但位置不同，意思完全不一樣。位置編碼就是把順序資訊注入模型。&lt;/p&gt;
&lt;p&gt;早期 Transformer 使用絕對位置編碼，位置 1、位置 2、位置 3 各有自己的向量。後來大模型更常用 RoPE，也就是 Rotary Positional Embedding。RoPE 的特點是把位置資訊融合進注意力計算中，對長上下文擴展更友好。&lt;/p&gt;
&lt;p&gt;從 Llama 系列到很多開源模型，RoPE 已經成為事實標準之一。後來為了支援更長上下文，模型還會調整 RoPE 的 base frequency、做 RoPE scaling，或者配合滑動視窗、分塊注意力等方案。&lt;/p&gt;
&lt;p&gt;簡單說，RoPE 不是讓模型「突然變聰明」，而是讓模型在更長文本裡更好地理解相對位置關係。&lt;/p&gt;
&lt;h2 id=&#34;注意力機制從-mha-到-gqa滑動視窗和-mla&#34;&gt;注意力機制：從 MHA 到 GQA、滑動視窗和 MLA
&lt;/h2&gt;&lt;p&gt;注意力機制是 Transformer 的核心。它讓每個 token 可以根據目前任務，去關注上下文裡最相關的 token。&lt;/p&gt;
&lt;p&gt;最經典的是 MHA，也就是 Multi-Head Attention。它會有多個注意力頭，每個頭學習不同的關注方式。問題是，模型越大、上下文越長，KV cache 占用越高，推理成本也越高。&lt;/p&gt;
&lt;p&gt;所以 2023 之後，注意力機制的主要優化方向是降低推理成本。&lt;/p&gt;
&lt;p&gt;GQA，也就是 Grouped-Query Attention，是非常重要的一步。它讓多個 query head 共享較少的 key/value head，從而降低 KV cache 壓力。Meta 在 Llama 3 中明確採用了 GQA，以提高推理效率。&lt;/p&gt;
&lt;p&gt;Mistral 7B 代表了另一個方向：滑動視窗注意力。它不讓每個 token 都看完整歷史，而是主要看附近視窗裡的上下文，從而降低長序列計算壓力。對於很多任務來說，局部上下文已經足夠有用。&lt;/p&gt;
&lt;p&gt;DeepSeek-V2/V3 則把注意力優化推到更激進的方向：MLA，也就是 Multi-head Latent Attention。它的重點是壓縮 KV cache，把推理時的顯存壓力降下來。DeepSeek-V3 技術報告把 MLA 和 DeepSeekMoE 列為架構核心。&lt;/p&gt;
&lt;p&gt;可以把這幾種方法放在一起理解：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;MHA：經典做法，效果好但成本高。&lt;/li&gt;
&lt;li&gt;GQA：犧牲很少表達能力，明顯降低 KV cache 成本。&lt;/li&gt;
&lt;li&gt;滑動視窗注意力：減少長上下文中全域注意力的計算壓力。&lt;/li&gt;
&lt;li&gt;MLA：進一步壓縮注意力快取，面向高效推理。&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;moe讓模型參數很多但每次只用一部分&#34;&gt;MoE：讓模型「參數很多，但每次只用一部分」
&lt;/h2&gt;&lt;p&gt;MoE 是 Mixture of Experts，中文常叫混合專家模型。&lt;/p&gt;
&lt;p&gt;普通 Dense 模型會在每個 token 上激活全部參數。MoE 的思路是：模型裡放很多專家，但每個 token 只路由到少數幾個專家。這樣總參數量可以很大，但單次推理激活的參數量相對小。&lt;/p&gt;
&lt;p&gt;2023 年底的 Mixtral 8x7B 是 MoE 重新進入大眾視野的重要節點。Mistral 的論文說明，Mixtral 8x7B 基本沿用 Mistral 7B 架構，但把每層前饋網路換成 8 個專家，並透過稀疏路由選擇部分專家參與計算。&lt;/p&gt;
&lt;p&gt;後來的 DeepSeek-V3 進一步把 MoE 做成核心路線。它總參數量很大，但每個 token 只激活其中一部分參數，透過 DeepSeekMoE 降低訓練和推理成本。Qwen3 等模型也同時提供 Dense 和 MoE 路線，說明 MoE 已經從「研究技巧」變成了主流工程選項。&lt;/p&gt;
&lt;p&gt;零基礎可以這樣理解：Dense 模型像一個全員開會的公司，任何問題都讓所有人參與；MoE 像把公司分成多個專家小組，每次只叫最相關的小組來處理。&lt;/p&gt;
&lt;p&gt;MoE 的難點也很明顯：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;路由器要學會把 token 分給合適專家。&lt;/li&gt;
&lt;li&gt;專家負載要均衡，不能所有 token 都擠到少數專家。&lt;/li&gt;
&lt;li&gt;分散式訓練和推理會更複雜。&lt;/li&gt;
&lt;li&gt;總參數大，不等於每次推理都便宜，部署仍然有門檻。&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;歸一化rmsnorm-成為常見選擇&#34;&gt;歸一化：RMSNorm 成為常見選擇
&lt;/h2&gt;&lt;p&gt;歸一化的作用，是讓神經網路中間層的數值分布更穩定。訓練大模型時，如果數值波動太大，訓練會更難收斂，也更容易不穩定。&lt;/p&gt;
&lt;p&gt;早期 Transformer 常用 LayerNorm。後來很多 Llama 系模型改用 RMSNorm。RMSNorm 相比 LayerNorm 更簡化，不計算均值，只關注均方根尺度，計算更輕，也足夠穩定。&lt;/p&gt;
&lt;p&gt;對普通讀者來說，不需要記公式，只要知道：RMSNorm 是一種更輕量的穩定器。它不能單獨決定模型能力，但會影響訓練穩定性、速度和工程實現。&lt;/p&gt;
&lt;h2 id=&#34;激活函數從-relugelu-到-swiglu&#34;&gt;激活函數：從 ReLU/GELU 到 SwiGLU
&lt;/h2&gt;&lt;p&gt;激活函數負責給神經網路加入非線性能力。沒有激活函數，多層網路很容易退化成線性變換。&lt;/p&gt;
&lt;p&gt;早期很多 Transformer 使用 GELU。Llama 系列、Mistral、Qwen、DeepSeek 等現代大模型中，更常見的是 SwiGLU 或類似 GLU 變體。SwiGLU 通常出現在前饋網路裡，透過「門控」方式控制資訊流。&lt;/p&gt;
&lt;p&gt;可以粗略理解為：普通激活函數像一個固定開關，而 SwiGLU 更像一個可學習的閥門。它不只是決定資訊過不過，還能學習哪些資訊更應該被放大。&lt;/p&gt;
&lt;p&gt;SwiGLU 的代價是前饋層結構稍複雜，參數和計算形式也不同，但在大模型實踐中，它已經成為高性能架構的常見組件。&lt;/p&gt;
&lt;h2 id=&#34;2023-2026-的整體趨勢&#34;&gt;2023-2026 的整體趨勢
&lt;/h2&gt;&lt;p&gt;如果按時間線看，可以這樣總結：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;2023：Llama、Mistral 7B、Mixtral 等開源模型讓 RoPE、RMSNorm、SwiGLU、GQA、滑動視窗、MoE 等組合走向普及。&lt;/li&gt;
&lt;li&gt;2024：Llama 3、Qwen2.5、DeepSeek-V2/V3 等模型繼續擴大詞表、改進長上下文、強化推理效率，MoE 和高效注意力成為重點。&lt;/li&gt;
&lt;li&gt;2025：DeepSeek-V3/R1 引發更多人關注 MLA、DeepSeekMoE、FP8、MTP 等訓練和推理效率設計，架構優化和系統工程深度綁定。&lt;/li&gt;
&lt;li&gt;2026：趨勢仍然是高效化和工程化：Dense 模型繼續追求穩定通用，MoE 模型負責擴大容量，高效注意力負責降低長上下文成本。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;這幾年最重要的變化，不是某個單點組件取代了 Transformer，而是大家越來越清楚：只堆參數不夠，架構、資料、訓練系統、推理服務必須一起優化。&lt;/p&gt;
&lt;h2 id=&#34;新手應該怎麼學&#34;&gt;新手應該怎麼學
&lt;/h2&gt;&lt;p&gt;如果你是零基礎，不建議一開始就硬啃所有論文。更好的順序是：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;先理解 Transformer 的基本結構：token、embedding、attention、FFN。&lt;/li&gt;
&lt;li&gt;再理解 RoPE、RMSNorm、SwiGLU 為什麼會成為常見組合。&lt;/li&gt;
&lt;li&gt;接著看 GQA 和 KV cache，理解推理為什麼會吃顯存。&lt;/li&gt;
&lt;li&gt;再學 MoE，重點理解「總參數」和「激活參數」的區別。&lt;/li&gt;
&lt;li&gt;最後看 DeepSeek-V3、Mixtral、Llama 3 這類模型報告，把組件放回真實模型裡理解。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;不要把這些名詞當成孤立知識點。它們大多是在回答同一個問題：如何讓模型更強，同時還能訓練得起、部署得動、推理得快。&lt;/p&gt;
&lt;h2 id=&#34;總結&#34;&gt;總結
&lt;/h2&gt;&lt;p&gt;2023-2026 年的大模型架構演進，可以看成 Transformer 的工程成熟期。分詞器負責減少 token 浪費，RoPE 負責更好表達位置，GQA、滑動視窗和 MLA 負責降低注意力成本，MoE 負責擴大容量但控制激活計算，RMSNorm 和 SwiGLU 則讓訓練和表達更穩定高效。&lt;/p&gt;
&lt;p&gt;對新手來說，最重要的不是背名詞，而是抓住主線：現代大模型架構的每一次改動，幾乎都在圍繞成本、效率、上下文長度和可擴展性做權衡。&lt;/p&gt;
&lt;p&gt;參考連結：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://ai.meta.com/blog/meta-llama-3/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Meta：Introducing Meta Llama 3&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://mistral.ai/en/news/mixtral-of-experts&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Mistral AI：Mixtral of experts&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://arxiv.org/abs/2401.04088&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;arXiv：Mixtral of Experts&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://arxiv.org/abs/2412.19437&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;arXiv：DeepSeek-V3 Technical Report&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/deepseek-ai/DeepSeek-V3&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Hugging Face：DeepSeek-V3&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        
    </channel>
</rss>
