Ollama on KnightLiブログ

Windows LAN Access Ollama API セットアップガイド

Sat, 11 Apr 2026 16:43:52 +0800

LAN 内の他のデバイスがローカル Ollama API にアクセスできるようにする場合は、次のように設定できます。

リスニングポートを設定する

まず、Ollama リスニングアドレスをすべてのネットワークカードに変更します。

OLLAMA_HOST=0.0.0.0:11434

ファイアウォールを開く

詳細なファイアウォール設定を開いた後、新しい受信ルールを作成し、ターゲットポート (8080 など) を許可します。

Win + S を押して、「Windows Defender ファイアウォール」を検索して開きます。
「詳細設定」をクリックします。
「受信ルール」→「新しいルール…」を選択します。
ルールの種類として「ポート」を選択し、「次へ」をクリックします。
プロトコル（通常はTCP）を選択し、「特定のローカルポート」に開放するポート番号（例：8080）を入力し、「次へ」をクリックします。
「接続を許可する」を選択し、「次へ」をクリックします。
「プロファイル」の「ドメイン」「プライベート」「パブリック」にチェックを入れて「次へ」をクリックします。
ルールに名前を付けて (OpenPort8080 など)、「完了」をクリックします。

ラン・オラマ

オラマランモデル

API経由でモデルにアクセス

curl http://192.168.x.xxx:11434/api/generate -d '{
  "model": "gemma4",
  "prompt": "这个是什么模型?"
}'

Gemma 4 ローカル通話ガイド: ワンクリック実行から開発統合まで

Fri, 10 Apr 2026 22:54:17 +0800

Gemma 4 (2026 年に Google がリリースした新世代のオープンソースモデル) をローカルで呼び出したい場合は、ニーズに応じてこれら 4 種類のソリューションから選択できます。

1) 最も早く始める: Ollama (推奨)

これは最も障壁の低いアプローチであり、簡単なテスト、日常会話、ローカル API 呼び出しに適しています。

`1`	`ollama run gemma4`

特徴：

Win/Mac/Linux で利用可能
ハードウェアアクセラレーションを自動的に処理します
OpenAIスタイルに対応したネイティブAPIを提供

2) グラフィカルインターフェイス: LM Studio / Unsloth Studio

デスクトップ GUI (ChatGPT に似たもの) に慣れている場合は、これら 2 種類のツールの方が便利です。

LM Studio:Hugging Face で Gemma 4 量子化モデル (4 ビット、8 ビットなど) を直接検索してダウンロードし、リソースの使用状況を表示できます。
Unsloth Studio: 推論に加えて、低メモリ微調整もサポートしています。 6GB～8GBのビデオメモリを搭載したマシンにさらに優しい。

3) 低構成と究極の制御: llama.cpp

古いマシン、純粋な CPU シナリオ、または推論パラメーターを詳細に制御したいユーザーに適しています。

量子化バージョンで .gguf モデルファイルを使用すると、より低いハードウェアしきい値で Gemma 4 を実行できます。

4) 開発統合: Transformers/vLLM

Gemma 4 を独自のアプリケーションに統合したい場合:

Transformers: Python プロジェクトにモデルを直接ロードするのに適しています
vLLM: 高性能 GPU シナリオおよび高スループット推論サービスに適しています

クイック選択

需求	推荐工具	硬件门槛
我只想马上跑起来	Ollama	低（自动适配）
我更喜欢图形界面	LM Studio	中
显存很紧张（6GB-8GB）	Unsloth / llama.cpp	低
我要做本地 AI 应用开发	Ollama / Transformers / vLLM	中到高
我要做微调训练	Unsloth Studio	中到高

モデルの推奨サイズ

Gemma 4 はさまざまなサイズで利用できます (E2B、E4B、31B など)。

通常のオフィスのラップトップの場合は、定量化された E2B/E4B が推奨されます。
ビデオメモリに余裕がある場合は、より大きなバージョンを試してください。

Ollama クラウドモデルとは何か、そしてその使用方法

Thu, 09 Apr 2026 18:42:32 +0800

普段 Ollama を使用してローカルモデルを実行している場合は、クラウドモデルを簡単に理解できるはずです。

主要な相違点は 1 つだけです。
ローカルモデルはユーザーのコンピューター上で推論され、クラウドモデルは Ollama のクラウド上で推論され、結果が返されます。

クラウドモデルとは何ですか

Ollama クラウドモデルは、Ollama の呼び出し方法を保持しますが、コンピューティングの場所をローカルからクラウドに変更します。

これを行うことの利点は次のとおりです。

ローカルハードウェアへの負担が軽減される
ローカルマシンでは実行できない大規模なモデルを使いやすくする
使い慣れた Ollama ワークフローを引き続き使用できます

現地モデルとの違い

对比项	本地模型	云模型
运行位置	本机	云端
硬件要求	高	低
延迟	更低	受网络影响
隐私性	更强	请求会发送到云端

プライバシー、低遅延、オフライン使用を重視する場合は、ローカルモデルの方が適しています。
ローカルのハードウェアでは十分ではないが、より大規模なモデルを体験したい場合は、クラウドモデルの方が便利です。

クラウドモデルを特定する方法

現在の Ollama クラウドモデルには通常、サフィックス -cloud が付いています。次に例を示します。

`1`	`gpt-oss:120b-cloud`

利用可能なモデルのリストは変更される可能性があります。Ollamaの公式ページを参照してください。

使用方法

まずログインしてください:

`1`	`ollama signin`

ログイン後、クラウドモデルを直接実行します。

`1`	`ollama run gpt-oss:120b-cloud`

コードから呼び出している場合は、API キーを構成することもできます。

`1`	`export OLLAMA_API_KEY=your_api_key`

Python の例:

import os
from ollama import Client

client = Client(
    host="https://ollama.com",
    headers={"Authorization": "Bearer " + os.environ["OLLAMA_API_KEY"]},
)

messages = [
    {"role": "user", "content": "为什么天空是蓝色的？"}
]

for part in client.chat("gpt-oss:120b-cloud", messages=messages, stream=True):
    print(part["message"]["content"], end="", flush=True)

まとめ

Ollama クラウドモデルは、次の一文で理解できます。

コマンドは基本的に同じままですが、モデルはローカルで実行されなくなります。

コンピューターで大規模なモデルを実行できないが、引き続き Ollama を使用してモデルを呼び出したい場合、クラウドモデルは非常に簡単なソリューションです。

Hugging Face から GGUF モデルをダウンロードし、Ollama にインポートします。

Thu, 09 Apr 2026 11:00:07 +0800

モデルの公式 Ollama ライブラリに既製バージョンがない場合、または Hugging Face で特定の GGUF ファイルを使用したい場合は、手動でダウンロードして Ollama にインポートできます。

ステップ 1: Hugging Face から GGUF ファイルをダウンロードする

まず、Hugging Face で対象モデルに対応する GGUF ファイルを見つけます。次のような複数の量子化バージョンが表示されるのが一般的です。

Q4_K_M
Q5_K_M
Q8_0

どのバージョンを選択するかは、ビデオメモリ、メモリ、速度と品質の選択によって異なります。ダウンロード後、.gguf ファイルを固定ディレクトリに置き、後で Modelfile で直接参照します。

ステップ 2: モデルファイルを作成する

モデルファイルと同じディレクトリに新しい Modelfile を作成します。最も基本的な書き方は次のとおりです。

`1`	`FROM ./model.gguf`

ファイル名が異なる場合は、次のように実際のファイル名に変更します。

`1`	`FROM ./gemma-3-12b-it-q4_k_m.gguf`

最初に実行したいだけの場合は、通常、FROM 行で十分です。

ステップ 3: Ollama にインポートする

次に、以下を実行します。

`1`	`ollama create myModelName -f Modelfile`

myModelName は、Ollama で使用するローカルモデル名です。
-f Modelfile は、この構成ファイルからモデルを作成することを意味します

作成が成功すると、この GGUF ファイルは直接呼び出すことができるローカルモデルになります。

ステップ 4: モデルを実行する

作成後に直接実行します。

`1`	`ollama run myModelName`

以降の使い方は基本的にollama pullのモデルと同じです。

既存のモデルのモデルファイルを表示する方法

Modelfile の書き方がわからない場合は、既存のモデルの構成を直接表示できます。

`1`	`ollama show --modelfile llama3.2`

このコマンドは、参照に適した llama3.2 の Modelfile コンテンツを出力します。

FROMの書き方
テンプレートとシステムプロンプトはどのように構成されていますか?
パラメータの宣言方法

このルートを使用するのが適切なのはどのような場合ですか?

次のシナリオは、Hugging Face からの手動インポートに適しています。

必要なモデルは、公式 Ollama ライブラリではまだ利用できません。
特定の量子化バージョンを使用したい場合
GGUF ファイルを手動でダウンロードしました
モデルのパッケージ化方法をよりきめ細かく制御したい

公式ライブラリに既製のバージョンがある場合は、通常、pull を直接使用する方が簡単です。ただし、特定の量子化やカスタムパッケージングが必要な場合は、GGUF + Modelfile の方がより柔軟です。

共通の注意点

FROM の後のパスは、実際の .gguf ファイルの場所と一致している必要があります。
ファイル名にスペースや特殊文字が含まれている場合は、最初に簡単な名前に変更することをお勧めします。
GGUF の量子化バージョンが異なると、メモリと速度に大きな影響を与えます。インポートが成功しても、操作がスムーズに行われるとは限りません。
モデルがチャットモデルの場合、効果がより安定するように、後でその形式に応じてプロンプトテンプレートを調整する必要があります。

結論は

Hugging Face から GGUF ファイルをダウンロードして Ollama にインポートするのは複雑ではありません。モデルファイルを準備し、使用可能な最小限の Modelfile を書き込み、その後 ollama create を実行してサードパーティの GGUF モデルを Ollama に接続します。

Ollama ダウンロードモデルのプル速度が遅い場合のトラブルシューティングと解決策

Thu, 09 Apr 2026 10:42:39 +0800

ollama pull model_name:tag 一部の地域ではダウンロード速度が非常に遅くなり、プロセスが安定しません。

大きなモデルのダウンロード中に繰り返し中断が発生し、TLS handshake timeout または unexpected EOF のエラーメッセージが表示される場合は、おそらく registry.ollama.ai 自体だけでなく、その後にジャンプされる実際のダウンロードリンクに問題があると考えられます。

この記事では、シンプルかつ直接的なトラブルシューティングのアイデアを記録します。最初にモデルファイルの実際のダウンロードアドレスを取得し、次に最終的なトラフィックがどこに落ちるかを確認し、最後に主要なドメイン名に対してのみネットワークの最適化を実行します。

モデルファイルのダウンロードアドレスを取得する

次のプロジェクトを使用して、Ollama モデルに対応するマニフェストと BLOB のダウンロードアドレスを直接抽出できます。

https://github.com/Gholamrezadar/ollama-direct-downloader

gemma4:latest を例として、次のようなリンクを抽出できます。

マニフェストアドレス

`1`	`https://registry.ollama.ai/v2/library/gemma4/manifests/latest`

BLOB アドレス

https://registry.ollama.ai/v2/library/gemma4/blobs/sha256:f0988ff50a2458c598ff6b1b87b94d0f5c44d73061c2795391878b00b2285e11
https://registry.ollama.ai/v2/library/gemma4/blobs/sha256:4c27e0f5b5adf02ac956c7322bd2ee7636fe3f45a8512c9aba5385242cb6e09a
https://registry.ollama.ai/v2/library/gemma4/blobs/sha256:7339fa418c9ad3e8e12e74ad0fd26a9cc4be8703f9c110728a992b193be85cb2
https://registry.ollama.ai/v2/library/gemma4/blobs/sha256:56380ca2ab89f1f68c283f4d50863c0bcab52ae3f1b9a88e4ab5617b176f71a3

すぐに確認したいだけの場合は、curl を直接使用してマニフェストと BLOB をダウンロードすることもできます。

curl -L "https://registry.ollama.ai/v2/library/gemma4/manifests/latest" -o "latest"
curl -L "https://registry.ollama.ai/v2/library/gemma4/blobs/sha256:f0988ff50a2458c598ff6b1b87b94d0f5c44d73061c2795391878b00b2285e11" -o "sha256-f0988ff50a2458c598ff6b1b87b94d0f5c44d73061c2795391878b00b2285e11"
curl -L "https://registry.ollama.ai/v2/library/gemma4/blobs/sha256:4c27e0f5b5adf02ac956c7322bd2ee7636fe3f45a8512c9aba5385242cb6e09a" -o "sha256-4c27e0f5b5adf02ac956c7322bd2ee7636fe3f45a8512c9aba5385242cb6e09a"
curl -L "https://registry.ollama.ai/v2/library/gemma4/blobs/sha256:7339fa418c9ad3e8e12e74ad0fd26a9cc4be8703f9c110728a992b193be85cb2" -o "sha256-7339fa418c9ad3e8e12e74ad0fd26a9cc4be8703f9c110728a992b193be85cb2"

ジャンプ後の実際のダウンロードアドレス

wget を使用して BLOB の 1 つをダウンロードしてみてください。リクエストは registry.ollama.ai にとどまらず、引き続き Cloudflare R2 オブジェクトストレージアドレスにジャンプしていることがわかります。

wget https://registry.ollama.ai/v2/library/gemma4/blobs/sha256:4c27e0f5b5adf02ac956c7322bd2ee7636fe3f45a8512c9aba5385242cb6e09a
--2026-04-09 09:22:04--  https://registry.ollama.ai/v2/library/gemma4/blobs/sha256:4c27e0f5b5adf02ac956c7322bd2ee7636fe3f45a8512c9aba5385242cb6e09a
Resolving registry.ollama.ai (registry.ollama.ai)... 104.21.75.227, 172.67.182.229, 2606:4700:3034::ac43:b6e5, ...
Connecting to registry.ollama.ai (registry.ollama.ai)|104.21.75.227|:443... connected.
HTTP request sent, awaiting response... 307 Temporary Redirect
Location: https://dd20bb891979d25aebc8bec07b2b3bbc.r2.cloudflarestorage.com/ollama/docker/registry/v2/blobs/sha256/4c/4c27e0f5b5adf02ac956c7322bd2ee7636fe3f45a8512c9aba5385242cb6e09a/data?... [following]
--2026-04-09 09:22:05--  https://dd20bb891979d25aebc8bec07b2b3bbc.r2.cloudflarestorage.com/ollama/docker/registry/v2/blobs/sha256/4c/4c27e0f5b5adf02ac956c7322bd2ee7636fe3f45a8512c9aba5385242cb6e09a/data?...
Resolving dd20bb891979d25aebc8bec07b2b3bbc.r2.cloudflarestorage.com (dd20bb891979d25aebc8bec07b2b3bbc.r2.cloudflarestorage.com)... 172.64.66.1, 2606:4700:2ff9::1
Connecting to dd20bb891979d25aebc8bec07b2b3bbc.r2.cloudflarestorage.com|172.64.66.1|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 9608338848 (8.9G) [application/octet-stream]

ログからいくつかの重要な情報を確認できます。

registry.ollama.ai が 307 Temporary Redirect を返しました
最終的なダウンロードアドレスは *.r2.cloudflarestorage.com になります。
大きなファイルの送信を実際に実行しているのは、実際にはその背後にあるオブジェクトストレージドメイン名です。

この手順は、プロキシまたは転送ルールが registry.ollama.ai のみをカバーし、*.r2.cloudflarestorage.com を処理しない場合、ダウンロードが依然として遅くなるか、繰り返し中断される可能性があることを意味するため、重要です。

ネットワーク設定を調整する

実際のダウンロードリンクを確認すると、トラブルシューティングの方向性がより明確になります。

プロキシ、オフロード、またはカスタム DNS を使用している場合は、最初に次のことを確認することをお勧めします。

registry.ollama.ai と *.r2.cloudflarestorage.com は同じ安定したルートをたどりましたか?
プロキシルールは前者のみをカバーし、後者は除外しますか?
現在のエクスポートは、数ギガバイトから数十ギガバイトまでの大きなファイルを継続的にダウンロードするのに適していますか?

この種の問題の鍵は、「公式サイトが開設できるかどうか」ではなく、「ジャンプ後のオブジェクトストレージリンクが安定し、長時間送信し続けられるかどうか」である。多くの場合、本当に最適化する必要があるのは、以前のレジストリドメイン名ではなく、Cloudflare R2 レイヤーです。

調整前と調整後の比較

以下は、実際に gemma4:31b-it-q8_0 をダウンロードした場合のパフォーマンスです。

調整前はダウンロード速度が遅く、途中でエラーが報告されていました。

PS C:\Users\knightli> ollama run gemma4:31b-it-q8_0
pulling manifest
pulling a0feadb736f5:  38% ▕██████████████████████                                    ▏  12 GB/ 33 GB  1.2 MB/s   4h40m
Error: max retries exceeded: unexpected EOF

調整後、同じモデルを再度ダウンロードすると、速度と安定性が大幅に向上しました。

1
2
3

PS C:\Users\knightli> ollama run gemma4:31b-it-q8_0
pulling manifest
pulling a0feadb736f5:  46% ▕████████████████████████████████████████████████████████████████▏ 15 GB/ 33 GB  8.5 MB/s  35m23s

これは、すべてのネットワーク環境で同じ結果が得られるという意味ではありませんが、少なくとも 1 つの点を示しています。ボトルネックは Ollama クライアント自体ではなく、実際の大きなファイルのダウンロードリンクにある可能性が高いということです。

OpenClaw とローカル Gemma 4 のドッキング: 完全な構成ガイド

Wed, 08 Apr 2026 18:18:00 +0800

この記事では、OpenClaw をローカル Gemma 4 モデル (Ollama を通じて提供されるインターフェイス) に接続する方法を説明します。

ローカル展開が完了していない場合は、以下を参照してください。

如何在笔记本电脑上运行 Gemma 4：5 分钟本地部署指南

ステップ 1: Ollama API サービスを開始する

まず Ollama サービスを開始します。

`1`	`ollama serve`

次のコマンドを使用して、API が適切に動作しているかどうかを簡単にテストできます。

curl http://localhost:11434/api/generate -d '{
  "model": "gemma4:12b",
  "prompt": "你好"
}'

モデル出力を返すことができる場合は、ローカル API が使用可能です。

ステップ 2: Ollama に接続するように OpenClaw を構成する

OpenClaw 構成ファイルのパスは通常次のとおりです。

`1`	`~/.openclaw/config.yaml`

config.yaml を編集し、ローカルモデルエントリを models に追加します。

models:
  # 你已有的模型配置...

  gemma4-local:
    provider: ollama
    base_url: http://localhost:11434
    model: gemma4:12b
    timeout: 120s

ステップ 3: デフォルトのモデルを設定する (オプション)

Gemma 4 をデフォルトで使用する場合は、以下を追加できます。

`1`	`default_model: gemma4-local`

ステップ 4: OpenClaw を再起動して確認する

OpenClaw を再起動します。

`1`	`openclaw restart`

モデルのリストを表示します。

`1`	`openclaw models list`

会話テストを開始します。

`1`	`openclaw chat --model gemma4-local "你好"`

ダイアログが正常に戻った場合、OpenClaw はローカル Gemma 4 に正常に接続されています。

一般的なトラブルシューティング

connection refused: まず、ollama serve が実行されているかどうかを確認します。
モデルが見つかりません: モデル名が ollama list (たとえば、gemma4:12b) と一致しているかどうかを確認します。
応答タイムアウト: timeout は適切に増やすことができ、小さいモデルを最初にテストする必要があります。

ラップトップで Gemma 4 を実行する方法: 5 分間のローカル導入ガイド

Wed, 08 Apr 2026 18:06:00 +0800

Gemma 4 をラップトップ上でローカルに実行したい場合、現時点では Ollama が最も手間のかからない方法の 1 つです。複雑な環境をいじらなくても、通常は 5 分程度で実行できます。

ステップ 1: Ollama をインストールする

https://ollama.com を開き、対応するシステムのインストールパッケージをダウンロードします。
システムごとにインストールを完了します。

macOS: Applications にドラッグします。
Windows: .exe インストーラーを実行します。
Linux: 公式 Web サイトで提供されているインストールスクリプトを使用します。

インストールすると、Ollama はバックグラウンドサービスとして実行されます。初期インストールを除き、毎日簡単なコマンドのみを使用できます。

ステップ 2: Gemma 4 モデルをダウンロードする

ターミナルを開いて次を実行します。

`1`	`ollama pull gemma4:4b`

マシンのパフォーマンスが高い場合は、12b または 27b に変更できます。ダウンロードが完了すると、モデルはローカルに保存されます。

ダウンロードしたモデルを表示します。

`1`	`ollama list`

ステップ 3: モデルを起動する

`1`	`ollama run gemma4:4b`

これにより、ターミナルで対話型セッションが開きます。質問を入力して Enter キーを押すだけです。セッションを終了するには、次のように入力します。

/bye

Web チャットインターフェイスを希望する場合は、Open WebUI とともに使用できます。 Ollama をブラウザ側 UI にラップできます。これは通常、Docker を通じて数分で構成できます。

ラップトップのパフォーマンス最適化に関する提案

Apple Silicon (M2/M3/M4): デフォルトでは金属が使用されており、通常、加速効果は非常に優れています。 12B も良い経験をしています。
NVIDIA グラフィックスカード: 互換性のある GPU が検出されると、CUDA が自動的に使用されます。事前にドライバーをアップデートすることをお勧めします。
CPU のみの推論: 実行できますが、大規模なモデルは大幅に遅くなります。ほとんどの CPU のみのシナリオでは、4B を優先することをお勧めします。
メモリを解放する: 大きなモデルをロードする前に、メモリを消費するアプリケーションを閉じるようにしてください。経験則として、10 億パラメータごとに約 0.5GB 到 1GB のメモリが必要です。

モデルの選び方

Gemma 4 1B: 軽量の Q&A、基本的な要約、および高速なクエリに適しています。複雑な推論能力には限界があります。
Gemma 4 4B: 速度と品質のバランスが取れており、ほとんどの日常タスク (書き込み支援、コード支援、データ要約) に適しています。
Gemma 4 12B: より長いコンテキストとより複雑なタスクに適しており、コーディングと推論のシナリオでより安定しています。
Gemma 4 27B: 需要の高いタスクに適しており、効果はクラウド大規模モデルに近いですが、ハードウェア要件は大幅に高くなります。

Ollama モデルが GPU にロードされているかどうかを確認する方法

Mon, 06 Apr 2026 10:15:18 +0800

Ollama モデルが実際に GPU 上で実行されているかどうかを確認する最も直接的な方法は、現在ロードされているモデルのプロセッサ使用状況情報を確認することです。

コマンドを使用する

`1`	`ollama ps`

出力例

1
2

NAME        ID            SIZE    PROCESSOR   UNTIL
llama3:70b  bcfb190ca3a7  42 GB   100% GPU    4 minutes from now

`PROCESSOR` 列の解釈方法

100% GPU: モデルは GPU メモリに完全にロードされています。
100% CPU: モデルはシステムメモリに完全にロードされています (GPU 推論は使用されません)。
48%/52% CPU/GPU: モデルは一部がメモリ内にあり、一部がビデオメモリ内にあり、混合負荷です。

実践的なアドバイス

GPU を使用する予定なのに 100% CPU が表示される場合は、まずグラフィックスドライバー、CUDA/ROCm 環境、および Ollama ランタイムパラメーターを確認してください。
モデルパラメータの数が多く、ビデオメモリが不足している場合、通常、CPU/GPU 混合負荷が発生します。
パフォーマンスの問題のトラブルシューティングを行う場合は、最初に ollama ps を実行し、次に速度データを確認してボトルネックをより迅速に特定します。

要約する

ollama ps は、モデルが実際に GPU を使用しているかどうかを判断する最初のステップです。 PROCESSOR 列に注目して、現在の読み込み位置をすばやく確認し、それに応じてその後の最適化の方向を決定します。

Ollama モデルのデフォルトの保存場所と移行方法 (C ドライブがいっぱいになるのを防ぐため)

Mon, 06 Apr 2026 09:38:00 +0800

大規模なモデルをローカルで実行する場合、多くの場合、システムディスクが最初に爆発しやすくなります。 Ollama は、デフォルトでモデルをユーザーディレクトリまたはシステムディレクトリにダウンロードします。事前にパスを計画しておかないと、C ドライブがすぐにいっぱいになってしまいます。

Ollama 共通のデフォルトモデルディレクトリ

Windows: C:\Users\<用户名>\.ollama\models
macOS：~/.ollama/models
Linux: /usr/share/ollama/.ollama/models (一部インストール方法が異なる場合があります)

Windows: モデルディレクトリをシステム以外のディスクに移行します。

モデルディレクトリを D:\OllamaModels などに移行することをお勧めします。主な方法は、システム環境変数 OLLAMA_MODELS を設定することです。

1. 新しいターゲットディレクトリを作成します

たとえば、最初に D:\OllamaModels を作成します。

2. システム環境変数を構成する

変数名: OLLAMA_MODELS
変数値: D:\OllamaModels

これは、「システムのプロパティ -> 詳細設定 -> 環境変数」で追加することも、コマンドライン (管理者 PowerShell) を使用して設定することもできます。

`1`	`[System.Environment]::SetEnvironmentVariable("OLLAMA_MODELS", "D:\OllamaModels", "Machine")`

3. Ollama を再起動します (またはシステムを再起動します)。

環境変数が有効になったら、Ollama サービス/アプリケーションを再起動します。有効になったかどうかわからない場合は、コンピュータを直接再起動するのが最も安全です。

4. 新しいディレクトリが有効かどうかを確認します

モデルをダウンロードまたはプルした後、新しいファイルが D:\OllamaModels の下に表示されるかどうかを確認します。

5. 古いディレクトリをクリーンアップします（それが正しいことを確認した後）

新しいディレクトリでモデルが正常に動作していることを確認してから、古いディレクトリの内容を削除して、C ドライブのスペースを解放します。

よくある質問

設定した後もCドライブに書き込まれたままの場合はどうすればよいですか?

まず、環境変数が「現在のセッションの一時変数」ではなく「システム変数」であることを確認します。
Ollama プロセスが再起動されたことを確認します。
変数名が正しいことを確認してください。それは OLLAMA_MODELS である必要があります。

古いモデルのファイルを移行する必要がありますか?

再度ダウンロードしたくない場合は、Ollama を停止した後、古いモデルを新しいディレクトリに手動でコピーし、Ollama の検証を開始できます。

Linux 上の Ollama を完全にアンインストールします (残留クリーニングを含む)

Mon, 06 Apr 2026 09:16:29 +0800

Linux 上で Ollama を完全に削除する必要がある場合は、以下の手順に従ってください。この記事では、サービス、実行可能ファイル、モデルディレクトリ、および ollama ユーザーとユーザーグループをクリーンアップします。

アンインストール前の注意事項

次のコマンドは、ネイティブ Ollama モデルファイル (通常は /usr/share/ollama) を削除します。最初にバックアップする必要があるかどうかを確認してください。
このコマンドはデフォルトで sudo を使用します。現在のアカウントに管理者権限があることを確認してください。

1. systemd サービスを停止して削除します。

sudo systemctl stop ollama
sudo systemctl disable ollama
sudo rm -f /etc/systemd/system/ollama.service
sudo systemctl daemon-reload

2. Ollama 実行可能ファイルを削除します

OLLAMA_BIN="$(command -v ollama)"
if [ -n "$OLLAMA_BIN" ]; then
  sudo rm -f "$OLLAMA_BIN"
fi

3. Ollama 関連のライブラリディレクトリを削除します (存在する場合)。

インストール方法によって Ollama ファイルが lib ディレクトリに書き込まれる場合は、次のようにファイルを消去できます。

1
2
3

for d in /usr/local/lib/ollama /usr/lib/ollama /lib/ollama; do
  [ -d "$d" ] && sudo rm -rf "$d"
done

4. モデルとデータのディレクトリを削除します。

`1`	`sudo rm -rf /usr/share/ollama`

5. システムユーザーとグループを削除します (存在する場合)。

1
2

id -u ollama >/dev/null 2>&1 && sudo userdel ollama
getent group ollama >/dev/null 2>&1 && sudo groupdel ollama

6. アンインストールが完了したことを確認します

1
2

command -v ollama || echo "ollama binary not found"
systemctl status ollama || true

上記のチェックで ollama が見つからなかった場合は、アンインストールが完了したことを意味します。

大規模モデルの定量化の詳細な説明: FP16、Q8、Q5、Q4 ～ Q2 を選択するにはどうすればよいですか?

Sun, 05 Apr 2026 22:09:11 +0800

量子化の中心的な目標は単純です。サイズを小さくし、メモリ使用量を減らし、推論速度を速くする代わりに、精度の損失を小さくすることです。
ローカル展開ユーザーにとって、多くの場合、盲目的に大きなパラメータを追求するよりも、適切な定量的バージョンを選択することの方が重要です。

定量化とは何ですか

量子化とは、モデルパラメーターを高精度形式 (FP16 など) からより低いビット幅形式 (Q8、Q4 など) に圧縮することを指します。

それは次のように理解できます。

オリジナルモデル: 高精度の写真のように鮮明ですが、ファイルサイズが大きくなります。
量子化モデル: 圧縮された写真と同様に、細部はわずかに失われますが、軽量かつ高速です。

一般的な定量バージョンの比較

量化版本	精度/位宽	体积	质量损失	推荐场景
FP16	16 位浮点	最大	几乎无损	研究、评测、追求极致质量
Q8_0	8 位整数	较大	几乎无损	高配电脑，兼顾质量与性能
Q5_K_M	5 位混合	中等	轻微损失	日常主力，平衡方案
Q4_K_M	4 位混合	较小	可接受损失	通用默认，性价比高
Q3_K_M	3 位混合	很小	明显损失	低配设备，能跑优先
Q2_K	2 位混合	最小	较大损失	极限资源场景，临时可用

定量的な命名規則

gemma-4:4b-q4_k_m を例として取り上げます。

gemma-4:4b: モデル名とパラメータスケール。
q4: 4 ビット量子化。
k: K-quants (改良された量子化方法)。
m：中（中レベル、s/小、l/大が共通）。

ビデオメモリに基づいてモデルを素早く選択する方法

内存/显存	推荐量化
4 GB	Q3_K_M / Q2_K
8 GB	Q4_K_M
16 GB	Q5_K_M / Q8_0
32 GB+	FP16 / Q8_0

最初から最大のモデルを追求するのではなく、安定して動作するバージョンから始めて、徐々に精度を向上させることをお勧めします。

実践的な提案

デフォルトでは、Q4_K_M から開始され、最初に実際のタスクの効果を確認します。
回答の品質が十分でない場合は、Q5_K_M または Q8_0 にアップグレードしてください。
主なボトルネックがビデオメモリまたは速度である場合は、Q3_K_M にドロップします。
定量化バージョンに切り替えるたびに、同じバッチのテスト問題を比較に使用してください。

結論は

品質第一: FP16 または Q8_0。
バランス優先度: Q5_K_M。
共通のデフォルト: Q4_K_M。
ローエンドポケット: Q3_K_M または Q2_K。

モデル選択の本質は、「大きいほど良い」ではなく、「ハードウェア条件下で最も安定して使用可能な効果を実現する」ことです。

Google Gemma 4 モデル比較: 2B/4B/26B/31B 選び方は?

Sun, 05 Apr 2026 08:30:00 +0800

Gemma 4 は、多模态 と 本地离线运行 に焦点を当てており、軽量エンドから高性能エンドまでの完全なモデルグラデーションを提供します。ほとんどのローカル展開ユーザーにとって重要なのは、「最大のものを選択する」ことではなく、「ハードウェアとタスクに最適なバージョンを選択する」ことです。

Gemma 4 モデルの比較

次の表は、選択を簡単に参照できるようにしたものです。具体的なパフォーマンスとリソースの使用状況については、実際の展開環境のテストを参照してください。

模型	参数规模	定位	主要优势	主要限制	推荐场景
Gemma 4 2B	20 亿	超轻量	延迟低、资源占用小、部署门槛最低	复杂推理与长链路任务能力有限	移动端、IoT、轻量问答、简单自动化
Gemma 4 4B	40 亿	轻量增强	比 2B 更稳的理解与生成能力，仍易本地部署	高强度编码/复杂 Agent 任务上限有限	本地助手、基础文档处理、多语言日常任务
Gemma 4 26B	260 亿	高性能（专家混合）	推理和工具调用能力明显提升，适合生产工作流	显存需求显著上升，硬件门槛更高	编程助手、复杂工作流、企业内部 Agent
Gemma 4 31B	310 亿	高性能（稠密）	综合能力最强，复杂任务稳定性更好	资源消耗最高，部署与调优成本最大	高要求推理、复杂代码任务、重度自动化

選択方法: ハードウェアとタスクから逆算して考える

「走れるかどうか、スムーズに走れるかどうか」を主に見る場合は以下から選べます。

8GB ビデオメモリ: 優先順位 2B/4B。
12GB ビデオメモリ: 4B 以降のモデルの量子化バージョンを優先します。
24GB ビデオメモリ: 26B に焦点を当て、タスクに従って 31B の量子化バージョンを評価できます。
より高いグラフィックスメモリまたは複数のカード: 31B の高精度構成を試すことができます。

安定性と推論速度の確保を優先し、徐々にモデル規模を大きくしていくことをお勧めします。

4 つの典型的な使用シナリオ

1) 現地の一般アシスタント

優先モデル: 4B
理由：コストと効果のバランスが良く、長期の永続運用に適しています。

2) コードと自動化

優先モデル: 26B
理由: 複数ステップのタスク、ツール呼び出し、およびスクリプト生成においてより安定しています。

3) 難易度の高い推理と複雑なエージェント

優先モデル: 31B
理由: 複雑なコンテキスト下での安定性が向上し、フォールトトレランスが向上します。

4) エッジデバイスと軽量オフライン

優先モデル: 2B
理由: リソースに制約のあるデバイスに実装するのが最も簡単です。

導入に関する推奨事項 (Ollama オリエンテーション)

最も現実的な方法は、「小さなステップで素早く実行する」ことです。

まず、4B を使用して、実行可能なベースライン (速度、メモリ、エフェクト) を確立します。
実際のタスクの固定テストセットを作成します (例: 20 の FAQ + 10 の自動タスク)。
次に、26B/31B にアップグレードして、精度、遅延、メモリコストを比較します。
「メリットが明らかな」場合にのみ、大型モデルをアップグレードしてください。

これにより、最初から大きなパラメータを追求し、遅延、低スループット、複雑なメンテナンスなどの問題が発生することを回避できます。

結論は

Gemma 4 の真の価値は、単に「より大きなパラメーター」ではなく、軽量から高性能までの実装可能なグラデーションの完全なセットです。

低コストで迅速にオンラインに接続したい場合は、2B/4B から始めてください。
ローカル AI を本番プロセスに真に統合したい場合は、26B を優先してください。
複雑な推論と高度な自動化に取り組みたい場合は、31B をもう一度試してください。

Gemma 4 に最適な選択は、通常、パラメータが最大のバージョンではなく、ハードウェアの条件とミッションの目標に最もよく一致するバージョンです。