ComfyUI on KnightLiブログ

ノート PC の RTX 4060 8GB で動かしやすいローカル AI モデル

Fri, 08 May 2026 13:41:15 +0800

ノート PC の RTX 4060 8GB でもローカル AI は十分試せます。ただし境界は明確で、重要なのは「起動できるか」ではなく「VRAM から溢れないか」です。モバイル版 RTX 4060 は電力、冷却、メモリ帯域、メーカー設定の影響を強く受けます。

2026 年時点でも 8GB VRAM はローカル AI の入門ラインです。適切な量子化モデルとツールを選べば、3B-8B LLM、SDXL、SD 1.5、一部の FLUX 量子化 workflow、Whisper 文字起こし、画像特徴抽出を動かせます。14B 以上、未量子化大モデル、高負荷画像 workflow を無理に使うと、システムメモリへ溢れて大きく遅くなります。

要点は、大きいモデルを追わず、小型モデル、量子化、低 VRAM workflow を使うことです。

VRAM 予算

Windows 11、ブラウザ、ドライバ、常駐アプリが先に VRAM を使います。AI に使える量は 8GB 全部ではなく、6.5GB-7.2GB 程度と考える方が安全です。

LLM：3B-8B、4-bit 量子化。
画像生成：SDXL、SD 1.5、FLUX GGUF/NF4 低 VRAM workflow。
マルチモーダル：4B 前後の軽量モデル。
音声：Whisper large-v3 は可能だが長時間処理は発熱に注意。
画像索引：CLIP、ViT、SigLIP は相性がよい。

小さなモデルを GPU 内に収める方が、大きなモデルを CPU offload するより快適です。

LLM：3B-8B 量子化

ローカルチャットやテキスト推論には Ollama、LM Studio、koboldcpp、llama.cpp など GGUF 対応フロントエンドが便利です。8GB VRAM の快適域は 3B-8B の 4-bit 量子化です。

軽量汎用：Gemma 4 E4B

Gemma 4 E4B は Google の 2026 年 Gemma 4 系列の小型モデルです。ローカルや edge 用途に向き、日常 Q&A、要約、軽いマルチモーダル、低コスト推論に使いやすいモデルです。

RTX 4060 ノートでは、まず公式またはコミュニティの量子化版から試します。最初から最高精度の重い重みを選ぶ必要はありません。

推論と長文：DeepSeek R1 Distill 7B/8B、Qwen 3 8B

論理、数学、複雑な分析、長い中国語テキストには DeepSeek R1 distill 7B/8B や Qwen 3 8B の量子化版が候補です。

Q4_K_M なら 8B クラスは 8GB VRAM に収まりやすいです。実際の速度は context 長、backend、driver、電源モードに左右されます。

14B、32B 以上から始めるのはおすすめしません。CPU offload で起動できても、体験は小型 full-GPU モデルに劣りがちです。

コード：Qwen 2.5 Coder 3B/7B

コード用途では Qwen 2.5 Coder 3B/7B が扱いやすいです。3B は補完、説明、小さな生成に向き、7B は理解力が上がる代わりに重くなります。

リアルタイム補完：3B。
Q&A と説明：3B または 7B。
小規模リファクタ：7B 量子化。
大規模設計分析：8GB 単体では期待しすぎない。

画像生成

SD 1.5 は 8GB にとても優しく、高速で成熟しています。SDXL は重めですが実用範囲です。

ユーティリティ用途

Whisper large-v3 は音声文字起こしに使えます。長い音声を連続処理する場合は性能モードと冷却に注意します。

写真検索システムなら RTX 4060 8GB はかなり向いています。CLIP、ViT、SigLIP は VRAM 要求が大きすぎず、数千枚の画像特徴抽出を高速に処理できます。

典型的な流れ：

CLIP/ViT/SigLIP で embedding を抽出する。
SQLite や vector DB に保存する。
テキストまたは類似画像で検索する。
小型 LLM でタグ、説明、アルバム要約を作る。

推奨構成

Ollama / LM Studio
+ Gemma 4 E4B 量子化版
+ DeepSeek R1 Distill 7B/8B Q4
+ Qwen 3 8B Q4

1
2
3

Qwen 2.5 Coder 3B
+ Qwen 2.5 Coder 7B Q4
+ Continue / Cline / ローカル OpenAI-compatible server

ComfyUI / Forge
+ SDXL
+ SD 1.5
+ FLUX.1 schnell GGUF Q4/Q5

1
2
3

CLIP / SigLIP / ViT
+ SQLite / FAISS / LanceDB
+ Gemma 4 E4B または Phi-4 Mini

注意点

場面	対策
大型モデル	14B+ は大幅な低速化を覚悟
量子化	まず `Q4_K_M`、必要なら Q5
VRAM	タスクマネージャーや `nvidia-smi` で監視
冷却	生成や batch 処理では性能モード
解像度	768px または 1024px 単枚から開始
ブラウザ	GPU を使うタブを閉じる
ドライバ	NVIDIA driver を新しめに保つ
workflow	16GB/24GB 用 ComfyUI workflow を直コピーしない

まとめ

ノート PC の RTX 4060 8GB は、コスパのよいローカル AI 入門機です。3B-8B LLM、小型コードモデル、SDXL、SD 1.5、量子化 FLUX、Whisper、画像ベクトル検索、写真管理に向いています。

一方で、14B/32B の長期運用、未量子化大モデル、高解像度 batch FLUX、大規模動画生成、複数モデル常駐には向きません。

写真検索なら、GPU を CLIP/SigLIP 特徴抽出と小型モデルのタグ生成に使い、SQLite、FAISS、LanceDB で索引する構成が現実的です。

参考資料

AMD ROCm 7.2 + ComfyUI互換性設定：WindowsでCUDA代替として使う方法

Fri, 08 May 2026 10:09:05 +0800

長い間、ローカルのAI画像生成と動画ツールは、ほぼNVIDIA CUDAを前提に作られてきた。Stable Diffusion、ComfyUI、AnimateDiff、動画超解像、LLM推論、各種プラグインの多くはCUDAを優先して対応していた。AMD GPUはVRAMあたりの価格に魅力がある一方、WindowsではDirectML、ZLUDA、Linux ROCm、コミュニティパッチを使う場面が多く、安定性と手順の再現性ではNVIDIAに劣りがちだった。

ROCm 7.2シリーズによって、この状況はかなり変わり始めている。AMDはCES 2026でRyzen AI 400シリーズを発表し、ROCm、Radeon、Ryzen AI、Windows AIワークフローをより近い文脈で扱うようになった。公式ドキュメントでは、ROCm 7.2.1がWindows上のAMD Radeonグラフィックス製品とAMD Ryzen AIプロセッサ向けPyTorchサポートを更新したと説明されている。ComfyUI Desktopもv0.7.0から公式にAMD ROCmをサポートした。

これはAMDがCUDAエコシステムに完全に追いついたという意味ではない。ただし、Windows上でAMD GPUを使ってComfyUIを動かすことが、「趣味の検証」から「真面目に評価できる選択肢」へ移りつつあることは確かだ。

ROCm 7.2シリーズで変わったこと

ROCmは、AMDが提供するGPU計算と機械学習向けのオープンなソフトウェアスタックだ。位置づけとしてはNVIDIA CUDAに近い。HIP、コンパイラ、数学ライブラリ、深層学習ライブラリ、Profiler、PyTorch連携、低レベルランタイムなどを含む。

デスクトップユーザーにとって、ROCm 7.2シリーズで注目すべき点は三つある。

一つ目は、Windowsサポートがより正式になったことだ。AMDのRadeon/Ryzen ROCmドキュメントでは、Windows上のPyTorchがROCm 7.2.1へ更新され、AMD RadeonグラフィックスとAMD Ryzen AIプロセッサを対象にしていると説明されている。ComfyUI、Hugging Face Transformers、ローカル推論ツールの多くは最終的にPyTorchに依存するため、これは重要だ。

二つ目は、対応ハードウェアの範囲が明確になったことだ。公式ドキュメントでは、ROCm 7.2.1がRadeon 9000シリーズ、一部のRadeon 7000シリーズ、Ryzen AI Max 300、一部のRyzen AI 400、一部のRyzen AI 300 APUをサポートするとされている。つまり「AMD GPUなら全部対応」と考えてはいけない。具体的な型番を互換性マトリクスで確認する必要がある。

三つ目は、ComfyUIに公式ルートができたことだ。ComfyUI公式ブログは2026年1月に、Windows版ComfyUI Desktopがv0.7.0からAMD ROCmをサポートすると発表した。一般ユーザーにとっては、手動で環境を作り、wheelを探し、起動引数を調整する手間が減る点が大きい。

CUDA代替を探している人にとって、これらの変化は単一のベンチマークより重要だ。AIツールを長く使えるかどうかは、ドライバ、フレームワーク、モデル、プラグイン、フロントエンドが安定してつながるかで決まる。

どのハードウェアが向いているか

AMDルートは三つに分けて考えると分かりやすい。

一つ目はRadeon 9000シリーズだ。ROCm 7.2シリーズが重点的にカバーする新世代のディスクリートGPUで、これからAMD GPUを買ってローカルAIを試すなら優先度が高い。

二つ目は一部のRadeon 7000シリーズだ。RDNA 3世代でROCm対応の基盤はあるが、すべての型番が同じように安定しているわけではない。購入前にAMD公式の互換性マトリクスを確認し、Windows、Linux、PyTorch、目的のツールが同時に対応しているかを見るべきだ。

三つ目はRyzen AI APUだ。Ryzen AI 400シリーズとRyzen AI Max 300シリーズは、CPU、GPU、NPU、共有メモリをノートPC、小型PC、開発機に持ち込む意味がある。軽量推論、開発テスト、モバイル作業、小規模なComfyUIワークフローには向くが、高性能ディスクリートGPUと同じ大規模モデル処理を期待すべきではない。

主流のAI画像生成を快適に動かしたいなら、まだディスクリートGPUのほうが安定しやすい。APUの強みは統合度と共有メモリであり、重い動画生成や大量出力を担う用途には向きにくい。

Windowsでの推奨ルート

一般的なWindowsユーザーがComfyUIを動かすなら、まずComfyUI Desktopを使うのがよい。公式サポート経路であり、環境衝突を減らし、上流の更新にも追従しやすいからだ。

大まかな流れは次の通りだ。

Windows 11を使い、AMD Software: Adrenalin Editionを更新する。
GPUまたはAPUがAMD ROCm Radeon/Ryzen互換性マトリクスに含まれるか確認する。
ComfyUI Desktop v0.7.0以降をインストールする。
ComfyUI DesktopでAMD ROCmバックエンドを使う。
初回起動後、コンソールのPyTorch/ROCm情報を確認する。
まず基本的なSDXLまたはFluxワークフローで試し、その後プラグインを増やす。

手動版ComfyUIを使う場合も考え方は近い。Pythonを入れ、ROCm 7.2シリーズ対応のPyTorchを入れ、main.pyを起動する。AMD公式のComfyUIインストールドキュメントでは、起動後にターミナルでROCm 7.2.1対応のPyTorchバージョンが表示されているか確認するよう案内している。

VRAMが少ない環境では、次の起動引数を試せる。

`1`	`python main.py --lowvram --disable-pinned-memory`

これらは必ず速度を上げるものではないが、メモリとVRAMの圧力を下げる場合がある。8GB、12GB、共有メモリ環境では、まず安定して完走することが、単発の生成速度より重要だ。

重い用途ではLinuxがまだ有利

Windows上のROCmはかなり使いやすくなったが、AMD AIワークフローとしてはLinuxのほうがまだ成熟している。AMDのドキュメントでも、Linux上のRadeonはPyTorch、TensorFlow、JAX、ONNX、vLLM、Llama.cpp、一部の学習機能など、より広いフレームワークに対応している。

ComfyUIで画像を出すだけなら、Windowsは十分試す価値がある。
vLLM、LoRA学習、動画生成のバッチ処理、複数GPU、Docker、自動化スクリプト、長時間サービス運用まで考えるなら、Linuxのほうが適している。

用途別にはこう考えられる。

Windows：デスクトップユーザー、ComfyUI Desktop、軽量な画像生成、ローカルでの試用。
Linux：開発者、重いAI用途、サーバー、バッチ処理、より完全なROCmエコシステム。
WSL：Windowsに残りつつLinuxツールチェーンも使いたい場合。ただしROCDXG、ドライバ、ハードウェアが対応範囲にあるか確認が必要。

Windows ROCmをすべての問題の答えと考えないほうがよい。入門の敷居とデスクトップ体験は改善するが、重い本番利用ではLinux対応がまだ重要だ。

ComfyUIプラグイン互換性には注意

ComfyUIで難しいのは本体だけではない。プラグインエコシステムも問題になる。多くのノードはCUDA、xFormers、Triton、FlashAttention、特定のPyTorch拡張を前提に書かれている。AMD ROCmへ切り替えると、次のような問題が出やすい。

プラグインがCUDA-only拡張を呼び出す。
一部の高速化ライブラリにROCm wheelがない。
カスタムノードのインストールスクリプトがNVIDIA環境を前提に確認する。
動画ノードがAMD非対応のコーデックやオプティカルフローライブラリに依存する。
新しいモデルワークフローがNVIDIA向け最適化設定を前提にしている。

そのため、古いNVIDIA向けComfyUIディレクトリをそのままAMD環境へ移すのは避けたい。まずクリーンな環境を作り、基本モデルを動かし、プラグインを一つずつ追加するほうが安定する。

推奨するテスト順は次の通りだ。

基本的なtext-to-image。
image-to-image。
LoRA。
ControlNet。
アップスケールとhigh-res fix。
AnimateDiffまたは動画ノード。
Flux、SD3、Wan、HunyuanVideoなどの重いモデル。

各プラグイングループを追加するたびに小さくテストする。どこで壊れたか分かれば、原因となるノードや依存関係を絞り込みやすい。

AMD GPUでAI画像生成をする利点

AMDルートの最大の魅力はVRAMと価格だ。多くのユーザーがAMDを選ぶのは、AIソフトウェア生態系がCUDAより楽だからではなく、同じ価格帯でより大きなメモリを得やすく、ローカル制作と長時間の実験に向いているからだ。

大容量VRAMはComfyUIで実用的な意味がある。

より大きなcheckpointを読み込める。
解像度を上げられる。
より多くのLoRA、ControlNet、参照画像ノードを読み込める。
low-VRAMモードによる速度低下を減らせる。
動画生成やバッチ出力でメモリ不足になりにくい。

ROCm 7.2シリーズによってWindows上のPyTorchとComfyUIが安定して動くなら、AMD GPUはより現実的なCUDA代替になる。特にクラウドに出したくないが、ローカルVRAMを多く確保したいユーザーには魅力がある。

受け入れるべき制限

AMDルートは使えるようになってきたが、まだ「何も考えずにCUDAを置き換える」ものではない。

主な制限は次の通りだ。

対応型番が限られ、古いカードや一部の低中位カードは公式リストにない場合がある。
Windows上のフレームワーク対応はLinuxより狭い。
多くのAIチュートリアルはまだNVIDIA前提だ。
一部のComfyUIプラグインはCUDAでしか検証されていない。
エラー時のコミュニティ情報はNVIDIAより少ない。
同じモデルでもバックエンドによって性能差が大きいことがある。

AMDを選ぶ前に、三つ確認したい。

自分のGPUが公式互換性マトリクスにあるか。
主要ツールがROCm対応を明記しているか。
重要なプラグインがCUDA-only拡張に依存していないか。

この三つが許容できるなら、AMDは信頼できる選択肢になる。そうでなければ、ハードウェア費用で節約した分が環境構築の時間に消える可能性がある。

推奨構成の考え方

初心者なら、Windows 11、対応リスト内のRadeon 9000/7000シリーズ、ComfyUI Desktopを選ぶのがよい。まず公式ルートで動かし、最初から大量のサードパーティノードを入れない。

開発者ならLinux環境を用意したい。ROCmはLinux上のツールチェーンがより充実しており、バッチ処理、LLM推論、Docker、自動化に向く。

ノートPCや小型PCユーザーなら、Ryzen AI 400やRyzen AI Maxプラットフォームは軽量なローカルAIに向く。開発、プレビュー、簡単な画像生成、小モデル推論には使えるが、高性能ディスクリートGPUと同じ前提で動画生成を計画すべきではない。

ComfyUIを重く使うなら、VRAM、ドライババージョン、プラグイン互換性を優先して見る。AMDのVRAM面の魅力は大きいが、ワークフローの重要ノードが一つROCm非対応なだけで、全体の体験に影響する。

まとめ

ROCm 7.2シリーズは、Windows上のAMDローカルAIにとって大きな前進だ。RadeonとRyzen AIのPyTorchサポートがより明確になり、ComfyUI Desktopも公式ROCmサポートを始めた。これにより、AMD GPUは一般ユーザーが試せるCUDA代替にかなり近づいた。

ただし「使える」と「完全互換」は違う。現時点で安定しやすいのは、互換性マトリクスを確認し、公式インストール手順を使い、まず基本的なComfyUIを動かし、その後プラグインや複雑な動画ワークフローを段階的に追加する方法だ。Windowsは軽量なデスクトップ制作に向き、Linuxは重い開発と本番に向く。

最も手間を減らしたいなら、CUDAはまだ主流の答えだ。
より大きなVRAMとオープンなエコシステムのために少し検証する覚悟があるなら、ROCm 7.2 + ComfyUIはすでに真剣に試す価値がある。

参考資料

Pixelle-Video：1つのテーマから短尺動画を生成するオープンソース AI エンジン

Thu, 07 May 2026 20:25:17 +0800

Pixelle-Video は、AIDC-AI が公開している全自動短尺動画生成エンジンです。目標は明快です。ユーザーがテーマを入力すると、動画台本、AI 画像または動画、音声ナレーション、BGM、最終合成までを自動で処理します。

この種のツールは、短尺動画の量産、知識解説、口播コンテンツ、小説解説、歴史・文化系動画、自媒体向け素材実験に向いています。単体の「テキストから動画」モデルではなく、複数の AI 能力をつなげた制作パイプラインです。

自動化できること

Pixelle-Video の標準フローは次のように整理できます。

テーマまたは固定台本を入力する。
大規模言語モデルでナレーション原稿を生成する。
シーン設計に沿って画像または動画素材を生成する。
TTS で音声ナレーションを生成する。
BGM を追加する。
動画テンプレートを適用して最終動画を合成する。

README では「台本生成 → 画像計画 → フレームごとの処理 → 動画合成」という流れとして説明されています。モジュール化されているため、各ステップのモデルやパラメータを差し替えたり、独自ワークフローに変更したりしやすい構成です。

主な機能

プロジェクトが対応している機能はかなり幅広いです。

AI 台本生成：テーマから動画ナレーションを自動生成。
AI 画像生成：各セリフや各シーンに対応するイラストを生成。
AI 動画生成：WAN 2.1 などの動画生成モデルに対応。
TTS 音声：Edge-TTS、Index-TTS などをサポート。
BGM：内蔵 BGM またはカスタム音楽を利用可能。
複数サイズ出力：縦動画、横動画など複数の比率に対応。
複数モデル：GPT、Qwen、DeepSeek、Ollama などに対応。
ComfyUI ワークフロー：標準ワークフローを使うことも、画像生成、TTS、動画生成などを差し替えることも可能。

最近の更新では、モーション転写、デジタルヒューマン口播、画像から動画、多言語 TTS ボイス、RunningHub 対応、Windows 一体型パッケージなども追加されています。単なるスクリプトではなく、より完成度の高い制作ツールへ向かっていることが分かります。

インストールと起動

Windows ユーザーは、まず公式の一体型パッケージを見るのがよいでしょう。Python、uv、ffmpeg を手動で準備せずに使えるようにするためのもので、展開後に start.bat を実行し、ブラウザで Web UI を開いて API と画像生成サービスを設定します。

ソースコードから起動する場合、README では次の基本手順が示されています。

1
2
3

git clone https://github.com/AIDC-AI/Pixelle-Video.git
cd Pixelle-Video
uv run streamlit run web/app.py

ソースからの利用は macOS、Linux ユーザーや、テンプレート、ワークフロー、サービス設定を変更したい人に向いています。主な前提は uv と ffmpeg です。

設定の要点

初回利用時に重要なのは、すぐに「生成」を押すことではなく、外部能力を正しく接続することです。

LLM 設定は台本品質を左右します。Qwen、GPT、DeepSeek、Ollama などを選び、API Key、Base URL、モデル名を入力します。コストを抑えたいならローカルの Ollama が候補になります。安定した結果を優先するなら、クラウドモデルの方が扱いやすいことが多いです。

画像・動画生成設定は画面品質を決めます。プロジェクトはローカル ComfyUI と RunningHub に対応しています。ComfyUI に慣れているユーザーなら、自分のワークフローを workflows/ ディレクトリに置き、標準の画像生成、動画生成、TTS フローを差し替えられます。

テンプレート設定は最終動画の見た目を決めます。プロジェクトは templates/ ディレクトリで動画テンプレートを管理し、静的テンプレート、画像テンプレート、動画テンプレートを命名規則で分けています。クリエイターにとっては、素材だけでなく、そのままプレビューしてダウンロードできる動画まで出せる点が実用的です。

向いている人

Pixelle-Video は次のような人に向いています。

短尺動画クリエイター：企画を素早く投稿可能な下書き動画にしたい人。
AIGC ツールユーザー：LLM、ComfyUI、TTS、動画合成をつなげたい人。
開発者・自動化ユーザー：オープンソースを基にテンプレートやワークフローを改造し、自分の素材やモデルを接続したい人。

高品質な一本ものの動画を作るだけなら、手作業の編集を完全に置き換えるとは限りません。ただし、同じ構造の解説動画、口播動画、科普系コンテンツを大量に作りたいなら、このパイプライン型の考え方はかなり有用です。

注意点

この種のツールの上限は複数の工程で決まります。台本モデルが弱いと内容が薄くなり、画像モデルが弱いと画面が散らかり、TTS が不自然だと動画が粗く感じられます。テンプレートが合わなければ、最終的な見栄えも弱くなります。

そのため、まずは「60秒の縦型知識解説動画」のような固定シーンから調整するのがおすすめです。LLM、画風、TTS 音色、BGM、テンプレートを固めてから、ほかのテーマへ広げる方が安定します。

また、ローカル無料構成にも対応していますが、通常は GPU、ComfyUI 設定、モデルファイルが必要です。ローカル推論環境がない場合は、クラウド LLM と RunningHub を組み合わせると導入は楽になりますが、利用コストには注意が必要です。

短評

Pixelle-Video の見どころは「一文から動画を生成できる」ことだけではありません。短尺動画制作を、台本、映像、音声、音楽、テンプレート、合成という交換可能なモジュールに分解している点にあります。一般ユーザーにとっては低ハードルの AI 動画ツールであり、開発者にとっては改造しやすい短尺動画自動化フレームワークです。

AI 短尺動画パイプラインを研究している人、あるいは ComfyUI、TTS、LLM、テンプレート合成を一つの製品としてつなげたい人なら、Pixelle-Video は試して分解してみる価値があります。