Gemma 4 をラップトップ上でローカルに実行したい場合、現時点では Ollama が最も手間のかからない方法の 1 つです。複雑な環境をいじらなくても、通常は 5 分程度で実行できます。
ステップ 1: Ollama をインストールする
https://ollama.comを開き、対応するシステムのインストール パッケージをダウンロードします。- システムごとにインストールを完了します。
- macOS:
Applicationsにドラッグします。 - Windows:
.exeインストーラーを実行します。 - Linux: 公式 Web サイトで提供されているインストール スクリプトを使用します。
インストールすると、Ollama はバックグラウンド サービスとして実行されます。初期インストールを除き、毎日簡単なコマンドのみを使用できます。
ステップ 2: Gemma 4 モデルをダウンロードする
ターミナルを開いて次を実行します。
|
|
マシンのパフォーマンスが高い場合は、12b または 27b に変更できます。ダウンロードが完了すると、モデルはローカルに保存されます。
ダウンロードしたモデルを表示します。
|
|
ステップ 3: モデルを起動する
|
|
これにより、ターミナルで対話型セッションが開きます。質問を入力して Enter キーを押すだけです。セッションを終了するには、次のように入力します。
|
|
Web チャット インターフェイスを希望する場合は、Open WebUI とともに使用できます。 Ollama をブラウザ側 UI にラップできます。これは通常、Docker を通じて数分で構成できます。
ラップトップのパフォーマンス最適化に関する提案
- Apple Silicon (M2/M3/M4): デフォルトでは金属が使用されており、通常、加速効果は非常に優れています。
12Bも良い経験をしています。 - NVIDIA グラフィックス カード: 互換性のある GPU が検出されると、CUDA が自動的に使用されます。事前にドライバーをアップデートすることをお勧めします。
- CPU のみの推論: 実行できますが、大規模なモデルは大幅に遅くなります。ほとんどの CPU のみのシナリオでは、
4Bを優先することをお勧めします。 - メモリを解放する: 大きなモデルをロードする前に、メモリを消費するアプリケーションを閉じるようにしてください。経験則として、10 億パラメータごとに約
0.5GB 到 1GBのメモリが必要です。
モデルの選び方
Gemma 4 1B: 軽量の Q&A、基本的な要約、および高速なクエリに適しています。複雑な推論能力には限界があります。Gemma 4 4B: 速度と品質のバランスが取れており、ほとんどの日常タスク (書き込み支援、コード支援、データ要約) に適しています。Gemma 4 12B: より長いコンテキストとより複雑なタスクに適しており、コーディングと推論のシナリオでより安定しています。Gemma 4 27B: 需要の高いタスクに適しており、効果はクラウド大規模モデルに近いですが、ハードウェア要件は大幅に高くなります。