ノート PC の RTX 4060 8GB でもローカル AI は十分試せます。ただし境界は明確で、重要なのは「起動できるか」ではなく「VRAM から溢れないか」です。モバイル版 RTX 4060 は電力、冷却、メモリ帯域、メーカー設定の影響を強く受けます。
2026 年時点でも 8GB VRAM はローカル AI の入門ラインです。適切な量子化モデルとツールを選べば、3B-8B LLM、SDXL、SD 1.5、一部の FLUX 量子化 workflow、Whisper 文字起こし、画像特徴抽出を動かせます。14B 以上、未量子化大モデル、高負荷画像 workflow を無理に使うと、システムメモリへ溢れて大きく遅くなります。
要点は、大きいモデルを追わず、小型モデル、量子化、低 VRAM workflow を使うことです。
VRAM 予算
Windows 11、ブラウザ、ドライバ、常駐アプリが先に VRAM を使います。AI に使える量は 8GB 全部ではなく、6.5GB-7.2GB 程度と考える方が安全です。
- LLM:3B-8B、4-bit 量子化。
- 画像生成:SDXL、SD 1.5、FLUX GGUF/NF4 低 VRAM workflow。
- マルチモーダル:4B 前後の軽量モデル。
- 音声:Whisper large-v3 は可能だが長時間処理は発熱に注意。
- 画像索引:CLIP、ViT、SigLIP は相性がよい。
小さなモデルを GPU 内に収める方が、大きなモデルを CPU offload するより快適です。
LLM:3B-8B 量子化
ローカルチャットやテキスト推論には Ollama、LM Studio、koboldcpp、llama.cpp など GGUF 対応フロントエンドが便利です。8GB VRAM の快適域は 3B-8B の 4-bit 量子化です。
軽量汎用:Gemma 4 E4B
Gemma 4 E4B は Google の 2026 年 Gemma 4 系列の小型モデルです。ローカルや edge 用途に向き、日常 Q&A、要約、軽いマルチモーダル、低コスト推論に使いやすいモデルです。
RTX 4060 ノートでは、まず公式またはコミュニティの量子化版から試します。最初から最高精度の重い重みを選ぶ必要はありません。
推論と長文:DeepSeek R1 Distill 7B/8B、Qwen 3 8B
論理、数学、複雑な分析、長い中国語テキストには DeepSeek R1 distill 7B/8B や Qwen 3 8B の量子化版が候補です。
Q4_K_M なら 8B クラスは 8GB VRAM に収まりやすいです。実際の速度は context 長、backend、driver、電源モードに左右されます。
14B、32B 以上から始めるのはおすすめしません。CPU offload で起動できても、体験は小型 full-GPU モデルに劣りがちです。
コード:Qwen 2.5 Coder 3B/7B
コード用途では Qwen 2.5 Coder 3B/7B が扱いやすいです。3B は補完、説明、小さな生成に向き、7B は理解力が上がる代わりに重くなります。
- リアルタイム補完:3B。
- Q&A と説明:3B または 7B。
- 小規模リファクタ:7B 量子化。
- 大規模設計分析:8GB 単体では期待しすぎない。
画像生成
SD 1.5 は 8GB にとても優しく、高速で成熟しています。SDXL は重めですが実用範囲です。
おすすめ:
- ComfyUI
- Stable Diffusion WebUI Forge
- Fooocus
FLUX は画質と prompt 理解が強い一方、元モデルは重いです。8GB では GGUF、NF4、FP8 など低 VRAM 経路と ComfyUI-GGUF を使います。
実用策:
- FLUX.1 schnell GGUF Q4/Q5。
- 解像度や batch size を下げる。
- ComfyUI の
--lowvramを使う。 - LoRA、ControlNet、高解像度修復を同時に盛りすぎない。
- workflow 変更後に VRAM 解放を確認する。
1024px は試せますが、16GB/24GB GPU 用 workflow をそのまま使わないでください。
ユーティリティ用途
Whisper large-v3 は音声文字起こしに使えます。長い音声を連続処理する場合は性能モードと冷却に注意します。
写真検索システムなら RTX 4060 8GB はかなり向いています。CLIP、ViT、SigLIP は VRAM 要求が大きすぎず、数千枚の画像特徴抽出を高速に処理できます。
典型的な流れ:
- CLIP/ViT/SigLIP で embedding を抽出する。
- SQLite や vector DB に保存する。
- テキストまたは類似画像で検索する。
- 小型 LLM でタグ、説明、アルバム要約を作る。
推奨構成
|
|
|
|
|
|
|
|
注意点
| 場面 | 対策 |
|---|---|
| 大型モデル | 14B+ は大幅な低速化を覚悟 |
| 量子化 | まず Q4_K_M、必要なら Q5 |
| VRAM | タスクマネージャーや nvidia-smi で監視 |
| 冷却 | 生成や batch 処理では性能モード |
| 解像度 | 768px または 1024px 単枚から開始 |
| ブラウザ | GPU を使うタブを閉じる |
| ドライバ | NVIDIA driver を新しめに保つ |
| workflow | 16GB/24GB 用 ComfyUI workflow を直コピーしない |
まとめ
ノート PC の RTX 4060 8GB は、コスパのよいローカル AI 入門機です。3B-8B LLM、小型コードモデル、SDXL、SD 1.5、量子化 FLUX、Whisper、画像ベクトル検索、写真管理に向いています。
一方で、14B/32B の長期運用、未量子化大モデル、高解像度 batch FLUX、大規模動画生成、複数モデル常駐には向きません。
写真検索なら、GPU を CLIP/SigLIP 特徴抽出と小型モデルのタグ生成に使い、SQLite、FAISS、LanceDB で索引する構成が現実的です。