ノート PC の RTX 4060 8GB で動かしやすいローカル AI モデル

Fri, 08 May 2026 13:41:15 +0800

ノート PC の RTX 4060 8GB でもローカル AI は十分試せます。ただし境界は明確で、重要なのは「起動できるか」ではなく「VRAM から溢れないか」です。モバイル版 RTX 4060 は電力、冷却、メモリ帯域、メーカー設定の影響を強く受けます。

2026 年時点でも 8GB VRAM はローカル AI の入門ラインです。適切な量子化モデルとツールを選べば、3B-8B LLM、SDXL、SD 1.5、一部の FLUX 量子化 workflow、Whisper 文字起こし、画像特徴抽出を動かせます。14B 以上、未量子化大モデル、高負荷画像 workflow を無理に使うと、システムメモリへ溢れて大きく遅くなります。

要点は、大きいモデルを追わず、小型モデル、量子化、低 VRAM workflow を使うことです。

VRAM 予算

Windows 11、ブラウザ、ドライバ、常駐アプリが先に VRAM を使います。AI に使える量は 8GB 全部ではなく、6.5GB-7.2GB 程度と考える方が安全です。

LLM：3B-8B、4-bit 量子化。
画像生成：SDXL、SD 1.5、FLUX GGUF/NF4 低 VRAM workflow。
マルチモーダル：4B 前後の軽量モデル。
音声：Whisper large-v3 は可能だが長時間処理は発熱に注意。
画像索引：CLIP、ViT、SigLIP は相性がよい。

小さなモデルを GPU 内に収める方が、大きなモデルを CPU offload するより快適です。

LLM：3B-8B 量子化

ローカルチャットやテキスト推論には Ollama、LM Studio、koboldcpp、llama.cpp など GGUF 対応フロントエンドが便利です。8GB VRAM の快適域は 3B-8B の 4-bit 量子化です。

軽量汎用：Gemma 4 E4B

Gemma 4 E4B は Google の 2026 年 Gemma 4 系列の小型モデルです。ローカルや edge 用途に向き、日常 Q&A、要約、軽いマルチモーダル、低コスト推論に使いやすいモデルです。

RTX 4060 ノートでは、まず公式またはコミュニティの量子化版から試します。最初から最高精度の重い重みを選ぶ必要はありません。

推論と長文：DeepSeek R1 Distill 7B/8B、Qwen 3 8B

論理、数学、複雑な分析、長い中国語テキストには DeepSeek R1 distill 7B/8B や Qwen 3 8B の量子化版が候補です。

Q4_K_M なら 8B クラスは 8GB VRAM に収まりやすいです。実際の速度は context 長、backend、driver、電源モードに左右されます。

14B、32B 以上から始めるのはおすすめしません。CPU offload で起動できても、体験は小型 full-GPU モデルに劣りがちです。

コード：Qwen 2.5 Coder 3B/7B

コード用途では Qwen 2.5 Coder 3B/7B が扱いやすいです。3B は補完、説明、小さな生成に向き、7B は理解力が上がる代わりに重くなります。

リアルタイム補完：3B。
Q&A と説明：3B または 7B。
小規模リファクタ：7B 量子化。
大規模設計分析：8GB 単体では期待しすぎない。

画像生成

SD 1.5 は 8GB にとても優しく、高速で成熟しています。SDXL は重めですが実用範囲です。

ユーティリティ用途

Whisper large-v3 は音声文字起こしに使えます。長い音声を連続処理する場合は性能モードと冷却に注意します。

写真検索システムなら RTX 4060 8GB はかなり向いています。CLIP、ViT、SigLIP は VRAM 要求が大きすぎず、数千枚の画像特徴抽出を高速に処理できます。

典型的な流れ：

CLIP/ViT/SigLIP で embedding を抽出する。
SQLite や vector DB に保存する。
テキストまたは類似画像で検索する。
小型 LLM でタグ、説明、アルバム要約を作る。

推奨構成

Ollama / LM Studio
+ Gemma 4 E4B 量子化版
+ DeepSeek R1 Distill 7B/8B Q4
+ Qwen 3 8B Q4

1
2
3

Qwen 2.5 Coder 3B
+ Qwen 2.5 Coder 7B Q4
+ Continue / Cline / ローカル OpenAI-compatible server

ComfyUI / Forge
+ SDXL
+ SD 1.5
+ FLUX.1 schnell GGUF Q4/Q5

1
2
3

CLIP / SigLIP / ViT
+ SQLite / FAISS / LanceDB
+ Gemma 4 E4B または Phi-4 Mini

注意点

場面	対策
大型モデル	14B+ は大幅な低速化を覚悟
量子化	まず `Q4_K_M`、必要なら Q5
VRAM	タスクマネージャーや `nvidia-smi` で監視
冷却	生成や batch 処理では性能モード
解像度	768px または 1024px 単枚から開始
ブラウザ	GPU を使うタブを閉じる
ドライバ	NVIDIA driver を新しめに保つ
workflow	16GB/24GB 用 ComfyUI workflow を直コピーしない

まとめ

ノート PC の RTX 4060 8GB は、コスパのよいローカル AI 入門機です。3B-8B LLM、小型コードモデル、SDXL、SD 1.5、量子化 FLUX、Whisper、画像ベクトル検索、写真管理に向いています。

一方で、14B/32B の長期運用、未量子化大モデル、高解像度 batch FLUX、大規模動画生成、複数モデル常駐には向きません。

写真検索なら、GPU を CLIP/SigLIP 特徴抽出と小型モデルのタグ生成に使い、SQLite、FAISS、LanceDB で索引する構成が現実的です。

Local AI on KnightLiブログ