RTX 3060 で動かしやすいローカル LLM モデルおすすめ

RTX 3060 12GB でローカル実行しやすい LLM モデルを整理する。Qwen3 8B、Llama 3.1 8B、Gemma 3 12B、DeepSeek R1 Distill 8B、GGUF量子化、VRAMの選び方、実行ツールを扱う。

RTX 3060 で最もよく見かけるのは 12GB VRAM 版だ。最上位の AI GPU ではないが、ローカル LLM を動かすにはかなり実用的で、特に 7B、8B、9B、12B クラスのモデルに向いている。

すぐ選びたいなら、まず次の一文を覚えておくとよい。

RTX 3060 12GB では、8B 前後のモデルを Q4_K_M または Q5_K_M 量子化で選ぶ。安定重視なら Q4、品質を少し上げたいなら Q5 を試す。

最初から 32B や 70B を追う必要はない。低ビット量子化や CPU offload で動かせる場合もあるが、速度と体験は日常利用向きではないことが多い。

まず VRAM の上限を見る

RTX 3060 12GB でローカル LLM を動かすとき、本当の制約は VRAM だ。

モデル規模 推奨量子化 3060 12GB の体験
3B / 4B Q4、Q5、Q8 とても軽く、速い
7B / 8B / 9B Q4_K_M、Q5_K_M 最もおすすめ。品質と速度のバランスがよい
12B / 14B Q4_K_M 試せるが、コンテキストを大きくしすぎない
30B 以上 Q2 / Q3 または一部 offload 試せるが、日常利用には非推奨
70B 以上 極低量子化または大量の CPU/RAM 実験に近い

ローカル LLM はモデルファイルだけが VRAM を使うわけではない。コンテキスト長、KV cache、バッチサイズ、推論フレームワーク、GPU ドライバもリソースを使う。

そのため、12GB VRAM があるからといって、12GB のモデルファイルをそのまま安全に読み込めるわけではない。システムとコンテキスト用に余裕を残すほうが安定する。

おすすめ1:Qwen3 8B

主に中国語を使うなら、Qwen3 8B は RTX 3060 で最初に試す価値が高い。

向いている用途:

  • 中国語の質問応答。
  • 要約とリライト。
  • 日常的な知識アシスタント。
  • 簡単なコード解説。
  • ローカル RAG。
  • 軽量 Agent フロー。

おすすめ:

1
2
3
Qwen3 8B GGUF
Q4_K_M:最初のおすすめ
Q5_K_M:品質は上がるが、VRAM負荷も上がる

Qwen 系列は中国語に強く、日常の文章作成、資料整理、中国語指示の理解が比較的安定している。最初の中国語ローカルモデルに迷うなら、ここから始めるとよい。

おすすめ2:Llama 3.1 8B Instruct

Llama 3.1 8B Instruct は安定した汎用モデルで、英語能力とツールエコシステムが成熟している。

向いている用途:

  • 英語の質問応答。
  • 軽量なコード支援。
  • 一般チャット。
  • 文書要約。
  • プロンプトテスト。
  • 推論ツールの比較。

おすすめ:

1
2
3
Llama 3.1 8B Instruct GGUF
Q4_K_M:速度とVRAMの安定性重視
Q5_K_M:回答品質重視

英語資料を主に扱う場合や、チュートリアルが多く互換性の高いモデルが欲しい場合、Llama 3.1 8B は今もよい基準モデルになる。

おすすめ3:Gemma 3 12B

Gemma 3 12B は RTX 3060 12GB の実用上限に近い選択肢だ。

8B モデルより VRAM を使うが、Q4 量子化なら 3060 12GB でも動かせる可能性がある。単一 GPU でもう少し大きいモデルを試したい人に向いている。

向いている用途:

  • より高品質な一般質問応答。
  • 英語コンテンツ処理。
  • やや複雑な要約と分析。
  • 8B モデルに物足りなさを感じたときの試行。

おすすめ:

1
2
3
Gemma 3 12B GGUF
Q4_K_M または公式 QAT Q4
コンテキストを大きくしすぎない

VRAM 不足になる場合は、まずコンテキスト長を下げるか、8B モデルに戻す。3060 にとって 12B は「試せる」選択肢であり、常に最初に選ぶモデルではない。

おすすめ4:DeepSeek R1 Distill Qwen 8B

ローカルで推論系モデルの雰囲気を試したいなら、DeepSeek R1 Distill Qwen 8B のような 8B 蒸留モデルが候補になる。

向いている用途:

  • 簡単な推論問題。
  • 段階的な分析。
  • 推論モデルの出力スタイル学習。
  • 低コストなローカル実験。

おすすめ:

1
2
DeepSeek R1 Distill Qwen 8B GGUF
Q4_K_M

この種のモデルは推論過程を長く出力することがあり、普通の指示モデルより速度やコンテキスト使用量が重く感じられる場合がある。日常チャットでは Qwen3 8B のほうが使いやすいこともあるが、推論実験には向いている。

おすすめ5:Phi / MiniCPM / 小型モデル

RTX 3060 が 8GB 版だったり、PC のメモリが少なかったりする場合は、3B、4B クラスのモデルから試すとよい。

向いている用途:

  • 高速な質問応答。
  • 簡単な要約。
  • ローカル小型ツールへの組み込み。
  • 低遅延チャット。
  • 古い PC でのテスト。

これらのモデルは 8B や 12B ほどの品質ではない場合もあるが、軽く、速く、導入しやすい。

量子化の選び方

ローカルモデルでは GGUF 形式がよく使われ、Q4、Q5、Q6、Q8 などの量子化がある。

量子化 特徴 向いている人
Q4_K_M 小さく速い。品質も十分 3060 の第一候補
Q5_K_M 品質が上がるが、使用量も増える 8B モデルで試す
Q6 / Q8 元品質に近いが大きい 小型モデルや VRAM に余裕があるとき
Q2 / Q3 VRAM を節約するが品質低下が大きい 大型モデルの実験

RTX 3060 12GB では、実用的には次の選び方になる。

1
2
3
8B モデル:Q4_K_M または Q5_K_M
12B モデル:Q4_K_M 優先
それ以上:日常主力には非推奨

どのツールで動かすか

初心者は Ollama から始めるとよい。インストールと実行が簡単だからだ。

よく使うコマンド例:

1
2
ollama run qwen3:8b
ollama run llama3.1:8b

GGUF ファイル、GPU layers、コンテキスト長を細かく制御したい場合は、llama.cpp や llama.cpp ベースの GUI ツールを使う。

主な選択肢:

  • Ollama:最も簡単。初心者向け。
  • LM Studio:GUI が使いやすく、モデルのダウンロードと切り替えが簡単。
  • llama.cpp:細かい制御ができ、性能調整向け。
  • text-generation-webui:機能が多く、バックエンド比較向け。

ローカルチャットと簡単な質問応答だけなら、Ollama か LM Studio で十分だ。

コンテキストを大きくしすぎない

多くのモデルは長いコンテキスト対応をうたっているが、RTX 3060 では最大値まで上げないほうがよい。

コンテキストが長いほど KV cache の使用量が増え、VRAM 負荷も高くなる。モデルが読み込めても、長いコンテキストでは生成速度が落ちることがある。

目安:

1
2
3
普通のチャット:4K から 8K
文書要約:8K から 16K
長文書 RAG:まず分割し、全文を一度に詰め込まない

3060 は「中程度のコンテキスト + 良いモデル + 良い検索」に向いており、数十万 token を一度に入れる用途には向かない。

用途別の選び方

主に中国語を書く場合:

1
2
優先:Qwen3 8B Q4_K_M
候補:DeepSeek R1 Distill Qwen 8B

主に英語を書く場合:

1
2
優先:Llama 3.1 8B Instruct Q4_K_M
候補:Gemma 3 12B Q4_K_M

速度重視の場合:

1
2
3
3B / 4B モデル
8B Q4_K_M
コンテキストは 4K から 8K

品質重視の場合:

1
2
3
8B Q5_K_M
12B Q4_K_M
速度低下は受け入れる

コード用途の場合:

1
2
8B コードモデルは解説や小さな修正に使える
複雑なエンジニアリング作業はクラウドの強いモデルを使う

ローカル 3060 モデルは、コード解説、関数補完、小さなスクリプト生成、オフライン支援に向いている。大規模リファクタリング、難しい bug、ファイル横断の Agent タスクでは、Claude Sonnet や GPT-5 レベルを期待しないほうがよい。

RTX 3060 ローカル LLM への現実的な期待

RTX 3060 12GB は、ローカル LLM を「おもちゃ」から「日常的に使える道具」に近づけるカードだ。ただし、自宅で最上位クラウドモデルを再現するものではない。

強み:

  • コストが低い。
  • 8GB カードより VRAM に余裕がある。
  • 8B モデルの体験がよい。
  • オフライン利用できる。
  • プライバシーに敏感な資料をローカル処理できる。

制約:

  • 大型モデルは滑らかに動かしにくい。
  • 長いコンテキストは VRAM を消費する。
  • 推論速度は上位 GPU に劣る。
  • 小型ローカルモデルの複雑推論は限界がある。
  • マルチモーダルや Agent ワークフローはさらに重い。

安定した使い方は、8B モデルを日常ローカル助手にし、12B モデルを品質確認用に試し、複雑な作業はクラウドモデルへ任せることだ。

まとめ

RTX 3060 12GB でおすすめのローカル LLM は次の通り。

  • 中国語汎用:Qwen3 8B Q4_K_M
  • 英語汎用:Llama 3.1 8B Instruct Q4_K_M
  • 高品質の試行:Gemma 3 12B Q4_K_M
  • 推論実験:DeepSeek R1 Distill Qwen 8B Q4_K_M
  • 低 VRAM 高速体験:3B / 4B 小型モデル

量子化はまず Q4_K_M を選び、8B モデルなら Q5_K_M も試せる。ツールは Ollama または LM Studio から始めるのがよい。

3060 を大規模モデルサーバーとして扱わないほうがいい。ローカル知識助手、プライバシー文書処理、軽量コード支援、モデル実験用カードとして使うほうが、実際の能力に合っている。

参考リンク

记录并分享
Hugo で構築されています。
テーマ StackJimmy によって設計されています。