2023-2026年の大規模モデルアーキテクチャ総復習：トークナイザ、位置エンコーディング、注意機構、MoE、正規化、活性化関数

2023 年から 2026 年にかけて、大規模モデルのアーキテクチャは多くの面で変化しました。トークナイザは大きくなり、位置エンコーディングは RoPE が主流になり、注意機構は MHA から GQA、スライディングウィンドウ、MLA へ広がりました。MoE も再び主流となり、正規化や活性化関数も RMSNorm や SwiGLU のような組み合わせへ移っています。

ただし一言でまとめるなら、この数年の主役は「Transformer が置き換えられた」ことではありません。Transformer の中核は残ったまま、より長いコンテキスト、低い推論コスト、高い訓練効率、強い多言語対応のために周辺部品が最適化された、という流れです。

まず全体像をつかむ

大規模モデルは、おおまかに次の部品に分けられます。

トークナイザ：文字列をモデルが理解できる token に分ける。
位置エンコーディング：各 token が文のどこにあるかを伝える。
注意機構：各 token がどの文脈を見るべきかを決める。
フィードフォワードネットワーク：各位置でより複雑な非線形変換を行う。
正規化：訓練を安定させる。
活性化関数：ネットワークに非線形表現力を与える。
MoE：フィードフォワード部分を複数の専門家に分け、毎回一部だけを使う。

2023-2026 年の進化は、これらの部品が順番に最適化されてきたものだと考えると分かりやすいです。

トークナイザ：「分けられる」から「token を節約する」へ

トークナイザの役割は、自然言語を token 列に変換することです。モデルは文章そのものではなく、token ID の列を見ています。

初期のトークナイザは英語に強く、中国語、コード、多言語テキストでは token 効率が悪いことがありました。同じ文章でも細かく分かれすぎると、コンテキストウィンドウを余計に消費し、訓練と推論のコストも増えます。

近年の明確な傾向は、語彙サイズの拡大と多言語対応の強化です。Llama 3 は 128K token の語彙を使い、Meta はそれによって言語をより効率よくエンコードし、性能向上につながると説明しています。Qwen や DeepSeek も、中国語、コード、多言語の token 効率を重視しています。

初心者向けに言えば、良いトークナイザほど同じ文章を無駄に細かく分けず、同じコンテキスト長により多くの有用な情報を入れられます。

位置エンコーディング：RoPE が主流に

言語には順序があります。同じ単語でも、並びが変われば意味も変わります。位置エンコーディングは、その順序情報をモデルに入れる仕組みです。

初期の Transformer は絶対位置エンコーディングを使い、位置 1、位置 2、位置 3 にそれぞれ専用のベクトルを持っていました。その後、多くの大規模モデルは RoPE、つまり Rotary Positional Embedding を使うようになりました。RoPE は位置情報を注意計算の中に組み込み、長いコンテキストへの拡張に向いています。

Llama 系列から多くのオープンモデルまで、RoPE は事実上の標準の一つになっています。さらに長いコンテキストを扱うために、RoPE の base frequency を調整したり、RoPE scaling を使ったり、スライディングウィンドウやチャンク化された注意機構と組み合わせることもあります。

簡単に言えば、RoPE はモデルを急に賢くする魔法ではありません。長い文章の中で相対的な位置関係を扱いやすくするための重要な部品です。

注意機構：MHA から GQA、スライディングウィンドウ、MLA へ

注意機構は Transformer の中核です。各 token が、現在のタスクに必要な文脈中の token に注目できるようにします。

古典的なのは MHA、つまり Multi-Head Attention です。複数の attention head があり、それぞれ異なる注目の仕方を学びます。問題は、モデルが大きくなり、コンテキストが長くなるほど KV cache の消費が増え、推論コストが高くなることです。

そのため 2023 年以降、注意機構の主な最適化方向は推論コストの削減になりました。

GQA、つまり Grouped-Query Attention は重要な一歩です。複数の query head が少数の key/value head を共有することで、KV cache の負担を減らします。Meta は Llama 3 で GQA を採用し、推論効率を高めたと説明しています。

Mistral 7B は別の方向を示しました。スライディングウィンドウ注意です。すべての token が全履歴を見るのではなく、主に近くのウィンドウを見ることで、長い系列の計算負荷を減らします。多くのタスクでは、局所的な文脈だけでも十分に有用です。

DeepSeek-V2/V3 はさらに踏み込んで、MLA、つまり Multi-head Latent Attention を採用しました。重点は KV cache を圧縮し、推論時のメモリ負担を下げることです。DeepSeek-V3 技術報告では、MLA と DeepSeekMoE が中核アーキテクチャとして示されています。

まとめると、次のように理解できます。

MHA：古典的で強力だがコストが高い。
GQA：表現力を大きく落とさず、KV cache コストを下げる。
スライディングウィンドウ注意：長文での全域注意の計算負荷を減らす。
MLA：注意キャッシュをさらに圧縮し、高効率推論を狙う。

MoE：「パラメータは多いが、毎回使うのは一部」

MoE は Mixture of Experts の略です。

通常の Dense モデルは、各 token に対してすべてのパラメータを活性化します。MoE はモデル内に多くの専門家を置き、各 token を少数の専門家だけにルーティングします。これにより、総パラメータ数を大きくしながら、1 回の推論で活性化されるパラメータ数を抑えられます。

2023 年末の Mixtral 8x7B は、MoE が再び広く注目される重要なきっかけでした。Mistral の論文では、Mixtral 8x7B は基本的に Mistral 7B のアーキテクチャを踏襲しつつ、各層のフィードフォワードブロックを 8 個の専門家に置き換え、疎なルーティングで一部の専門家だけを計算に使うと説明されています。

その後、DeepSeek-V3 は MoE を中核路線にしました。総パラメータ数は非常に大きい一方、各 token では一部のパラメータだけを活性化し、DeepSeekMoE によって訓練と推論のコストを抑えます。Qwen3 なども Dense と MoE の両方の系統を用意しており、MoE が研究上の技巧から主流のエンジニアリング選択肢になったことが分かります。

初心者向けに言えば、Dense モデルはどんな問題でも全社員が会議に出る会社のようなものです。MoE は専門チームに分かれ、問題ごとに関連するチームだけを呼ぶ会社に近いです。

MoE には難しさもあります。

ルーターが token を適切な専門家に送る必要がある。
一部の専門家に負荷が集中しないようにする必要がある。
分散訓練と推論がより複雑になる。
総パラメータが大きいことは、毎回の推論が安いことを意味しない。

正規化：RMSNorm が一般的に

正規化は、ニューラルネットワークの中間値の分布を安定させるための仕組みです。大規模モデルの訓練では、値の揺れが大きいと収束が難しくなり、不安定にもなります。

初期の Transformer では LayerNorm がよく使われました。その後、多くの Llama 系モデルは RMSNorm を採用しました。RMSNorm は LayerNorm より簡潔で、平均を計算せず、二乗平均平方根のスケールに注目します。計算が軽く、実用上は十分安定です。

式を覚える必要はありません。RMSNorm は軽量な安定化装置だと理解すれば十分です。単独でモデル能力を決めるものではありませんが、訓練の安定性、速度、実装に影響します。

活性化関数：ReLU/GELU から SwiGLU へ

活性化関数は、ニューラルネットワークに非線形性を与えます。活性化関数がなければ、多層ネットワークは線形変換に近づいてしまいます。

以前の Transformer では GELU がよく使われていました。Llama、Mistral、Qwen、DeepSeek などの現代的な大規模モデルでは、SwiGLU や類似の GLU 変種がより一般的です。SwiGLU は通常フィードフォワードネットワーク内にあり、ゲート機構で情報の流れを制御します。

ざっくり言うと、普通の活性化関数は固定スイッチに近く、SwiGLU は学習可能なバルブに近いです。情報を通すかどうかだけでなく、どの情報を強めるべきかも学習できます。

SwiGLU はフィードフォワード層を少し複雑にしますが、大規模モデルでは高性能アーキテクチャの一般的な部品になっています。

2023-2026 年の全体傾向

時系列で見ると、次のように整理できます。

2023：Llama、Mistral 7B、Mixtral などのオープンモデルによって、RoPE、RMSNorm、SwiGLU、GQA、スライディングウィンドウ、MoE の組み合わせが普及した。
2024：Llama 3、Qwen2.5、DeepSeek-V2/V3 などが語彙を拡大し、長文コンテキストと推論効率を改善し、MoE と高効率注意を重要テーマにした。
2025：DeepSeek-V3/R1 によって、MLA、DeepSeekMoE、FP8、MTP などの訓練・推論効率設計が注目され、アーキテクチャ最適化とシステム工学の結びつきが強くなった。
2026：傾向は引き続き効率化とエンジニアリング成熟。Dense モデルは安定した汎用性を追求し、MoE は容量拡大を担い、高効率注意が長文コストを下げる。

重要なのは、Transformer を置き換える単一部品が登場したことではありません。パラメータを増やすだけでは足りず、アーキテクチャ、データ、訓練システム、推論サービスを一緒に最適化する必要がある、という理解が広がったことです。

初心者はどう学ぶべきか

ゼロから学ぶなら、最初からすべての論文を読む必要はありません。おすすめの順序は次の通りです。

Transformer の基本構造を理解する：token、embedding、attention、FFN。
RoPE、RMSNorm、SwiGLU がなぜ一般的になったかを理解する。
GQA と KV cache を見て、推論がなぜメモリを多く使うかを理解する。
MoE を学び、「総パラメータ」と「活性化パラメータ」の違いを押さえる。
最後に DeepSeek-V3、Mixtral、Llama 3 などのモデル報告を読み、部品を実際のモデルの中で理解する。

これらの用語を孤立した知識として覚える必要はありません。ほとんどは同じ問いに答えています。つまり、どうすればモデルを強くしつつ、訓練可能で、デプロイ可能で、高速に動かせるか、という問いです。

まとめ

2023-2026 年の大規模モデルアーキテクチャの進化は、Transformer のエンジニアリング成熟期と見ることができます。トークナイザは token の無駄を減らし、RoPE は位置をよりよく表現し、GQA、スライディングウィンドウ、MLA は注意コストを下げ、MoE は容量を広げながら活性化計算を抑え、RMSNorm と SwiGLU は訓練と表現をより安定かつ効率的にします。

初心者にとって大切なのは、用語を暗記することではありません。現代の大規模モデルの変更は、ほとんどがコスト、効率、コンテキスト長、スケーラビリティのトレードオフをめぐるものだと理解することです。

参考リンク：