LLM on KnightLiブログ

GPU 推論速度テストでよく見る指標の意味: FA、pp512、tg128、Q4_0 とは何か

Thu, 23 Apr 2026 00:15:00 +0800

ローカル LLM や GPU 推論速度テストを見始めると、すぐに FA、pp512、tg128、Q4_0 といった略称に出会います。どれも性能指標のように見えますが、文脈がないとかなりわかりにくいです。

たとえば、次のような行を見かけることがあります。

`1`	`CUDA Scoreboard for Llama 2 7B, Q4_0 (no FA)`

さらにその下には、

1
2

pp512 t/s
tg128 t/s

のような表示が並びます。

これらを分解して理解しないままだと、この種の速度テストが何を測っているのか、また異なる GPU の結果をどう比較すべきかが見えてきません。

この記事では、どの GPU を買うべきかではなく、GPU 推論速度テストでよく出てくる指標そのものを整理します。

まずタイトル行全体が何を言っているのか

CUDA Scoreboard for Llama 2 7B, Q4_0 (no FA) のような一行には、すでにかなり多くの前提が含まれています。

少なくとも次の四つの情報があります。

CUDA: NVIDIA GPU の CUDA 経路で測っている
Llama 2 7B: テスト対象は Llama 2 の 7B モデル
Q4_0: モデルは 4-bit 量子化形式
no FA: Flash Attention を有効にしていない

つまりこれは要するに、

「NVIDIA GPU 上で、ある量子化済み LLM を、特定の推論経路で動かしたときの速度テスト」

という意味になります。

FA とは何か: Flash Attention

ここでいう FA は Flash Attention の略です。

これは大規模モデルの学習や推論で非常に重要な最適化のひとつで、主に Attention 計算の実装を高速化するための技術です。Transformer 系モデルでは、Attention 部分が最も重い処理のひとつだからです。

従来の Attention 実装には次のような問題があります。

グローバルメモリの読み書きが多い
中間結果が増えやすい
メモリと演算コアの間でデータ移動が多い
コンテキストが長いほど負担が重くなる

Flash Attention は計算順序を工夫し、より多くの処理を高速なメモリ階層の中で完結させることで、この負担を減らします。

その典型的な効果は次の三つです。

速くなる
メモリ使用量が減る
数学的には通常の Attention と等価で、精度を落とす近道ではない

そのため、現在の推論・学習系フレームワークでは重要な最適化として扱われています。

no FA とは何か

FA が Flash Attention なら、no FA は単純に Flash Attention を使っていないという意味です。

つまり、そのベンチマークはより伝統的な Attention 実装で測られています。

なぜわざわざ no FA と書くのかというと、主に次の理由があります。

比較用の基準として残したい
ハードウェアやソフトウェアの都合で FA を使えないケースがある
条件の違うスコアを混ぜて読まれないようにしたい

したがって no FA は「GPU が弱い」という意味ではありません。より正確には、

「このスコアは Flash Attention を使わない条件で測られた」

という意味です。

Q4_0 とは何か: 量子化形式

Q4_0 は 4-bit 量子化形式のひとつです。

LLM の元の重みは通常、こんな低精度では保存されていません。そのままではサイズが大きすぎるため、量子化によって重みをより少ない bit 数で表現し、一般的な GPU でも動かしやすくします。

ざっくり言えば、

Q: Quantization
4: 4-bit
_0: 具体的な量子化方式の識別

という理解で十分です。

重要なのは、量子化によって

モデルサイズが縮む
VRAM 要求が下がる
そのままでは載らないモデルも動かしやすくなる

という点です。

つまり Llama 2 7B, Q4_0 は、「7B モデル」ではあるものの、「4-bit 量子化された 7B モデル」を意味しています。

pp512 t/s とは何か

pp512 は通常、

Prompt Processing 512 tokens

を意味します。

これは入力プロンプトを処理する速度の指標で、単位は t/s、つまり tokens per second です。

ここでの 512 は、テスト時の入力長が 512 token だったことを表しています。

この指標が測っているのは「しゃべる速さ」ではなく、モデルが回答を始める前に、入力内容を読み込んで計算する速さです。言い換えると、「まずこちらの入力を読む段階」のスループットです。

この段階の大きな特徴は、並列性が高いことです。

入力系列はまとめて処理しやすいので、GPU はこの場面では高い並列度を活かせます。そのため pp512 の値は非常に大きくなることが多く、初めて見ると少し不自然に感じるほどです。

たとえば

`1`	`pp512 ≈ 14000 t/s`

のような値が出ても不思議ではありません。これは「入力処理の吞吐量」を測っているのであって、逐次生成の速さを測っているわけではないからです。

tg128 t/s とは何か

tg128 は通常、

Text Generation 128 tokens

を意味します。

これは 128 token を連続生成したときの平均生成速度で、同じく単位は t/s です。

この指標は、私たちが普段感じる「モデルの返答速度」により近いです。実際に出力フェーズを測っているからです。

ただし pp512 との最大の違いは、テキスト生成が一般に自己回帰的であることです。

つまり、

まず 1 個目の token を出す
それが決まってから 2 個目を出す
さらにその後に 3 個目を出す

という順番になります。

そのため、入力処理のような大規模並列はかけにくく、速度はずっと低くなります。

だからこそ、

pp512 は数万 t/s
tg128 は数百 t/s

といった差が普通に起こります。

これは測定ミスではなく、そもそも別の性質の処理を測っているためです。

なぜ pp512 と tg128 の差がこんなに大きいのか

ここは多くの人が最初に引っかかるポイントです。

一言で言えば、

pp512 は並列吞吐、tg128 は逐次生成性能を見ているからです。

もう少し丁寧に言うと、

入力処理は並列化しやすい
出力生成はトークンごとの逐次性が強い
生成側はメモリ帯域やキャッシュ効率の影響を受けやすい
そのため生成速度は入力処理よりかなり低くなりやすい

これにより、GPU 間比較でも面白い現象が起きます。

pp512 では一方が勝つ
tg128 では別の GPU が少し速い

ということがあり得るのです。

これは矛盾ではなく、一方がピーク算力寄り、他方が実際の生成経路での帯域・遅延特性に左右されているからです。

t/s はどう読むべきか

t/s は tokens per second の略です。

つまり、モデルが 1 秒あたりに何 token を処理または生成できるかを表しています。

ただし注意したいのは、token は「文字」でも「単語」でもなく、モデルのトークナイザが切る単位だということです。モデルや言語によって、1 token が表すテキスト量はかなり変わります。

そのため t/s は主に次の用途に向いています。

同一モデル内で GPU を比べる
同じ環境で設定違いを比べる
同一フレームワークで最適化の有無を比べる

逆に、モデルもフレームワークもトークナイザも違う条件をまたいで、絶対値だけで単純比較するのにはあまり向いていません。

Scoreboard を読むときにまず押さえるべき点

毎回略称に埋もれたくないなら、まず次のポイントから見れば十分です。

1. テスト対象モデルは何か

たとえば Llama 2 7B なのか、量子化形式は Q4_0 なのか。同じモデル・同じ量子化でなければ、結果の横比較はあまり意味を持ちません。

2. 重要な最適化が有効かどうか

もっとも典型的なのが FA です。一方は Flash Attention を有効にしていて、もう一方は無効なら、そのスコアは単純には比較できません。

3. 入力速度を見ているのか、出力速度を見ているのか

pp512 と tg128 は別物です。前者は「読み込みの速さ」、後者は「しゃべる速さ」に近いです。

4. 吞吐を見たいのか、体感を見たいのか

長いプロンプトの立ち上がりを重視するなら pp512 が参考になります。実際の返答の滑らかさを気にするなら、tg128 の方が体感に近いことが多いです。

もっとも実用的な覚え方

これらを一番短く覚えるなら、次のように整理すると実用的です。

Q4_0: モデルは 4-bit 量子化されている
FA: Flash Attention を使っているかどうか
pp512: 512 token の入力処理速度
tg128: 128 token の出力生成速度
t/s: 1 秒あたり何 token か

この五つだけ分かっていれば、似たような CUDA Scoreboard を見たときに、単に「どちらの数字が大きいか」ではなく、「その数字は何を測っているのか」を理解しやすくなります。

結び

GPU ベンチマーク表が難しく見えるのは、指標そのものが神秘的だからではありません。モデル名、量子化、最適化の有無、入力処理と出力生成という別々の吞吐が、短い略称に圧縮されているからです。

FA、Q4_0、pp512、tg128 を順に解きほぐしていけば、こうした Scoreboard は実はそれほど難しくありません。

本当に大事なのは、GPU 名だけを見て終わらないことです。つまり、

どのモデル条件で測ったのか
最適化は有効か無効か
入力を測っているのか、出力を測っているのか
算力寄りなのか、実際の生成体感に近いのか

を一緒に見ることです。

そうすれば、似たようなベンチマーク表を見ても、その結果がどんな条件と意味を持っているのかを判断しやすくなります。

大規模モデルでよく使われるテンソル型入門: FP32、FP16、BF16、TF32、FP8

Wed, 22 Apr 2026 22:40:00 +0800

大規模モデルの学習、推論、デプロイに触れ始めると、すぐに FP32、FP16、BF16、TF32、FP8 という略称を見かけるようになります。これらはモデルの説明欄に添えられた小さなラベルのように見えますが、実際の意味はそれ以上に大きいです。

これらの型は、数値をメモリ上にどう保持し、計算中にどう表現するかを決めます。そしてそれは、学習の安定性、推論速度、さらには 1 枚の GPU でどれだけ大きなモデルを扱えるかにまで影響します。

そのため、大規模モデルの精度トレードオフを本当に理解したいなら、特定モデルのベンチマークを見る前に、まずこれらのテンソル型が何であり、なぜそのように設計されているのかを押さえるのが近道です。

テンソル型は何を決めているのか

大規模モデルの本質は、膨大なパラメータを使った行列演算です。そしてテンソル型とは、その数値をメモリ上でどう保持し、計算中にどう表現するかという形式です。

このトレードオフは、たいてい次の三つの軸に集約されます。

精度
VRAM 使用量
計算速度

これは画像フォーマットに少し似ています。可逆形式は細部を多く保てますが、容量が大きく、読み込みも遅くなります。圧縮形式は人間に見えにくい情報を一部捨てる代わりに、サイズを小さくし処理を速くします。大規模モデルが同じような折衷を受け入れられるのは、非常に多くのパラメータの中では、ごく小さな数値の違いが最終出力に大きく影響しないことが多いからです。

そのため、モデルの世界にはさまざまな精度フォーマットが存在します。

数値はどう表現されるのか

各フォーマットを見る前に、まず浮動小数点数の基本構造を押さえておくと理解しやすくなります。浮動小数点数は通常、次の三つの部分からできています。

符号ビット: 正負を決める
指数ビット: 数値の表現範囲を決める
仮数ビット: 数値の細かさを決める

大規模モデルでは仮数精度も重要ですが、多くの場合それ以上に問題になりやすいのが、指数ビット不足による表現範囲の狭さです。これがオーバーフローや学習不安定性につながります。多くのテンソル型設計は、限られた bit 数を「範囲」と「細かさ」の間でどう配分するか、という問題だと考えるとわかりやすいです。

まずは次の図で全体像をつかむと理解しやすいです。

FP32: 最も安定するが高価

FP32 は最も伝統的な単精度浮動小数点形式で、合計 32 bit、つまり 4 バイトです。

長所はわかりやすいです。

数値範囲が広い
精度が高い
学習が最も安定しやすい

その一方で、欠点も明確です。VRAM を大きく消費します。

非常に大ざっぱに見積もるなら、

`1`	`VRAM 使用量 ≈ パラメータ数 × 1 パラメータあたりのバイト数`

となります。

もし 27B モデルの重みをすべて FP32 で持つなら、重みだけでおよそ

`1`	`27B × 4 bytes ≈ 108GB`

が必要です。

しかも、ここには活性値、KV Cache、オプティマイザ状態、そのほかの実行時オーバーヘッドは含まれていません。つまり、現代の大規模モデル推論や学習において、FP32 はもはや標準というより、「最も安定な基準形式」に近い存在です。

FP16: サイズは半分、ただし安定性はやや弱い

FP16 は各パラメータを 2 バイトに圧縮し、FP32 と比べてメモリ使用量をほぼ半分にします。

同じ 27B モデルで重みサイズだけを見ると、

`1`	`27B × 2 bytes ≈ 54GB`

になります。

これだけでも、なぜ多くのデプロイ手順で 27B モデルの VRAM 要件が 50GB 前後になるのかを説明できます。

FP16 の利点は明快です。

VRAM 圧力が大きく下がる
スループットが高い
初期の mixed precision 学習で広く使われた

ただし弱点は、指数ビットが少なく、動的範囲が狭いことです。大規模モデル学習ではこれがオーバーフローを起こしやすくし、loss scaling のような補助技法を必要とするため、運用がやや面倒になります。

そのため FP16 は今も一般的ですが、多くの場面では最も扱いやすい選択肢ではなくなっています。

BF16: 大規模モデル時代により実用的な半精度

BF16 も 2 バイトですが、FP16 とは設計思想が異なります。

指数範囲を大きく確保することで、動的範囲を FP32 に近づけ、その代わり仮数精度を一部削っています。この折衷は大規模モデルに特に向いています。というのも、多くのモデルは仮数の数 bit より、まず範囲不足に敏感だからです。

そのため、現在では多くの学習フレームワーク、大規模モデルの論文、実際のデプロイ環境が BF16 を好む傾向にあります。

感覚的には次のように捉えるとわかりやすいです。

VRAM コストは FP16 に近い
安定性は FP32 に近い

ある 27B のデプロイ手順が 50GB 前後の VRAM を要求し、別の最適化された手順が 30GB 近くまで下がるなら、前者はまだ FP16/BF16 の層に留まり、後者はより低精度や量子化に踏み込んでいることが多いです。

TF32: VRAM 削減ではなく FP32 ワークフローの高速化

TF32 は「また別の省メモリ形式」と誤解されやすいですが、役割はかなり違います。

一般的には、指数範囲を大きく保ちつつ、仮数精度を短くした計算形式として捉えるとわかりやすいです。

ただし重要なのは、TF32 は FP16/BF16 のように重み保存のための形式というより、Tensor Core 上で使われる内部計算形式に近いという点です。

これは主に NVIDIA が新しい GPU 世代で提供している計算モードであり、目的は VRAM 使用量を下げることではなく、もともと FP32 ベースだった学習ワークフローを、大きくコード変更せずに高速化することです。

要点を一言で言えば、

表向きは FP32 ワークフローのまま
行列演算の内部でより高速な近似計算を行う

ということです。

したがって TF32 が解決するのは「FP32 が遅い」という問題であり、「FP32 が VRAM を食いすぎる」という問題ではありません。同じモデルで VRAM 要件が大きく変わる理由を考えるとき、TF32 は主因ではありません。

FP8: さらに圧縮するが、より高度な工学が必要

さらに先へ進むと FP8 があります。1 つの数値をさらに少ない bit 数で表現し、メモリ帯域と保存コストをさらに下げます。

これは単一の形式というより、代表的には E4M3 と E5M2 という二つの変種として現れます。

ただし FP8 の代償も明確です。bit 数がここまで少なくなると、範囲と精度を同時に保つのが難しくなります。そのため実際の工学では、順伝播、逆伝播、勾配など段階ごとに異なる変種を使ってバランスを取ることがよくあります。

この系統は、より攻めた方針を表しています。

さらなる精度低下を受け入れる
その代わり保存コストとスループットを改善する
より成熟したハードウェアとフレームワークが必要になる

将来性は高いですが、一般ユーザーが日常的に意識する分岐点としては、依然として FP32、FP16、BF16 が中心です。

なぜこれらの型を理解することが重要なのか

最初はこれらの略称を、ダウンロードページに書かれた実装上の細部だと捉えがちです。ですが実際には、学習やデプロイをどう理解するかそのものに関わってきます。

たとえば、同じ GPU を見ていても、

なぜ学習では数値安定性がそれほど重視されるのか
なぜ推論では量子化や低精度がすぐ話題になるのか
なぜパラメータ数が近いモデルでもデプロイ難易度が大きく違うのか
なぜある形式は重み保存向きで、別の形式は計算経路向きなのか

といった疑問が出てきます。

こうした問いを突き詰めていくと、結局は「精度、範囲、メモリ、速度をどう交換するか」という一点に戻ってきます。

だから FP32、FP16、BF16、TF32、FP8 を理解することは、単に用語集を読めるようになるためではありません。学習設定、推論エンジン、デプロイ要件を見たときに、その数字の裏で何が交換されているのかを理解するためです。

実用的な覚え方

最初から細かな仕様を全部覚えたくないなら、まずは次の順で捉えると実用的です。

FP32: 最も安定、最も高価
FP16: VRAM は減るが、範囲は狭い
BF16: FP16 に近い VRAM で、より大規模モデル向きの安定性
TF32: 主に FP32 の遅さを改善し、VRAM 削減は主目的ではない
FP8: さらに攻めた圧縮と高速化の路線

こうしておけば、モデル配布ページに fp16、bf16、fp8 と書かれていても、あるいはデプロイ手順ごとに VRAM 要件が大きく違っていても、それが単なる表記の違いではなく、精度予算と工学的な選択の違いだとわかるようになります。

結び

大規模モデルにおけるテンソル型の話は、表面上は bit 数の話に見えても、本質的には工学的なトレードオフの話です。

FP32、FP16、BF16、TF32、FP8 に絶対的な優劣はありません。それぞれが、安定性、範囲、精度、メモリ、速度のどこに重みを置くかが違うだけです。

この層が見えるようになると、学習論文を読むときも、推論設定を調整するときも、異なるデプロイ戦略を比べるときも、ずっと要点をつかみやすくなります。