Sulphur 2 は 8GB VRAM で動くのか？LTX 2.3 動画モデルのローカル導入メモ

SulphurAI が Hugging Face で Sulphur-2-base を公開しました。モデルカードによると、Sulphur 2 は LTX 2.3 をベースにした動画生成モデルで、uncensored video generation model と位置づけられています。text-to-video と image-to-video をネイティブにサポートし、LTX 2.3 の他の形式とも互換性があります。

モデルページ：https://huggingface.co/SulphurAI/Sulphur-2-base

Sulphur 2 とは

Sulphur 2 は汎用チャットモデルではなく、動画生成ワークフローのためのモデル重みと関連ツールを提供するものです。モデルカードの要点は次のとおりです。

LTX 2.3 ベース。
text-to-video と image-to-video をサポート。
プロンプトを改善する prompt enhancer を提供。
Hugging Face ページには Diffusers、llama.cpp、Ollama、LM Studio、Jan などの入口がある。
モデルファイルには GGUF 関連の内容が含まれ、一部のローカルツールで読み込みやすい。

つまり、一般ユーザー向けのワンクリック Web 製品というより、動画生成を試すユーザーやワークフロー作者向けのモデル公開です。

Sulphur 2 と LTX 2.3 の関係

Sulphur 2 を理解するには、まず LTX 2.3 のエコシステムの中で見るのが分かりやすいです。

LTX 2.3 は基盤となる動画生成モデルの系列であり、対応する入力形式、モデルコンポーネント、ワークフロー構造を決めます。Sulphur 2 はその上に公開された派生モデルで、text-to-video、image-to-video、関連ワークフローをまとめることに重点があります。

そのため Sulphur 2 は完全に独立した新ツールでも、通常のチャットモデルでもありません。LTX 2.3 エコシステム内のモデルパッケージに近く、実際に動画を生成するには、適切なフロントエンド、ノード、重みバージョン、パラメータを選ぶ必要があります。

Web 生成ツールより導入のハードルが高いのもそのためです。Web ツールはモデル、パラメータ、VRAM 調整、失敗時の再試行をバックエンドに隠しますが、ローカル導入ではそれらを自分で扱う必要があります。

注目する理由

LTX 系列は効率的な動画生成で注目されています。Sulphur 2 が LTX 2.3 をベースにしているため、既存の LTX ワークフローに組み込みやすい可能性があります。ComfyUI、Diffusers、ローカル推論ツールのユーザーにとって、この種のモデルの価値は主に制御しやすさと改造しやすさにあります。

もう一つの見どころは prompt enhancer です。動画生成はプロンプトに非常に敏感で、同じ被写体、カメラ、動作、スタイル、品質指定でも、書き方が違うだけで結果が大きく変わります。Sulphur 2 がプロンプト強化ツールを含めているのは、ユーザーが重みをダウンロードするだけでなく、普通の説明をモデルに向いたプロンプトへ安定して変換できるようにする意図があるからでしょう。

モデルカードの使用上の提案

公式モデルカードでは、最初は fp8mixed や bf16 などの dev 版をダウンロードし、提供されている distill lora と組み合わせることが推奨されています。また、LoRA を使う場合は完全モデルの重複部分を同時に読み込まないよう注意されています。ワークフロー内で同じ能力を二重に重ねてしまう可能性があるためです。

prompt enhancer はローカルツール寄りの使い方です。モデルカードでは、LM Studio のモデルディレクトリに Sulphur/promptenhancer という構造を作り、gguf ファイルと mmproj ファイルを置いて強化器を読み込む方法が示されています。system prompt は不要で、強化したいテキストをそのまま送信できます。画像も添付できます。

ローカル実行の入口

Hugging Face ページには一般的なローカル実行の入口がいくつか載っています。たとえば llama.cpp では、モデルリポジトリからローカルサーバーを起動できます。

1

llama-server -hf SulphurAI/Sulphur-2-base:BF16

ターミナルから直接実行することもできます。

1

llama-cli -hf SulphurAI/Sulphur-2-base:BF16

Ollama の入口は次のとおりです。

1

ollama run hf.co/SulphurAI/Sulphur-2-base:BF16

これらのコマンドは Hugging Face が自動生成したローカル読み込み例に近いものです。実際に問題なく動くかどうかは、ローカルの VRAM、モデルファイルのバージョン、量子化形式、ツール互換性に左右されます。動画生成モデルはテキスト専用モデルより多くのリソースを使うことが多いので、最初はモデルカード推奨のバージョンとワークフローに従い、複数ソースの重みを混ぜない方が安全です。

推奨テスト環境：ComfyUI / Diffusers / GGUF の選び方

最速で結果を見たいなら、まずコミュニティが整理した ComfyUI ワークフローを探すのがよいです。ComfyUI は視覚的に扱いやすく、モデル、LoRA、サンプラー、解像度、フレーム数、後処理ノードを同じグラフ上で確認できるため、動画生成のデバッグに向いています。

Python に慣れている場合や、Sulphur 2 を自分のスクリプトに組み込みたい場合は Diffusers が向いています。再現性と自動化に強く、パラメータの一括テストや、設定ごとの VRAM 使用量・生成時間の記録に便利です。

GGUF、llama.cpp、Ollama、LM Studio は prompt enhancer やテキスト側コンポーネントに向いています。GGUF があるからといって、動画生成パイプライン全体を担えるとは限りません。動画モデルには視覚モデル、VAE、サンプリングフロー、フレーム生成コンポーネントが関わることが多く、GGUF はローカル読み込みと軽量化エコシステムの一部です。

簡単にまとめると：

初心者はまず ComfyUI ワークフローを探す。
スクリプトユーザーは Diffusers で再現と一括テストを行う。
prompt enhancer やテキスト強化には GGUF / LM Studio / Ollama を見る。
迷ったらモデルカード推奨の dev 版と LoRA の組み合わせを優先する。

8GB VRAM で動くのか？バージョンとワークフロー次第

Sulphur 2 が 8GB VRAM で動くかどうかは、モデル名だけでは判断できません。具体的なバージョン、量子化方式、解像度、フレーム数、バッチサイズ、ワークフローに依存します。

一般に、動画生成は画像生成より VRAM を多く使います。一枚の画像だけでなく、複数フレーム、時間的一貫性、動画関連の中間状態を扱うためです。モデル自体に軽量版があっても、LoRA、高解像度、長いフレーム数、追加の後処理ノードを重ねると、8GB はすぐ不足する可能性があります。

8GB VRAM しかない場合は、次の方向で負荷を下げます。

fp8mixed、量子化版、またはコミュニティの低 VRAM ワークフローを優先する。
解像度を下げ、小さいサイズでまずパイプラインが通るか確認する。
フレーム数を減らし、最初から長い動画を生成しない。
batch size を 1 にする。
不要な強化ノードや後処理ノードを一時的に切る。
CPU offload、低 VRAM モード、フレームワークのメモリ最適化を使う。

したがって「8GB VRAM でも動く」という表現をより正確に言うなら、低メモリ版、低解像度、短いフレーム数、簡素なワークフローであれば動く可能性がある、という程度です。高解像度、長尺動画、複雑なワークフローを最初から期待するのは現実的ではありません。

prompt enhancer の使い方

Sulphur 2 のモデルカードでは prompt enhancer が特に言及されています。これは動画を生成するものではなく、普通のプロンプトをモデルが理解しやすいプロンプトに書き換えるためのものです。

動画プロンプトでは、被写体、動作、カメラ、シーン、光、スタイル、品質を同時に説明する必要があります。短い説明だけだと、モデルが重要な点を拾えないことがあります。prompt enhancer は簡単な説明をより完全な動画生成プロンプトへ拡張し、後続の生成を安定させるための補助になります。

モデルカードの流れでは、LM Studio のモデルディレクトリ内に Sulphur/promptenhancer ディレクトリを作り、対応する gguf と mmproj ファイルを置いて強化器を読み込みます。使用時に system prompt は不要で、強化したいテキストをそのまま送ります。画像を添付することもできます。

これはプロンプトの前処理ツールと考えると分かりやすいです。

1

普通の説明 -> prompt enhancer -> より完全な動画生成プロンプト -> Sulphur 2 ワークフロー

モデルが動くかどうかを試す段階では、prompt enhancer は最優先ではありません。まずメインのワークフローを通し、その後でプロンプト改善に使う方が問題の切り分けがしやすくなります。

ローカル導入でよくある失敗原因

Sulphur 2 のようなモデルのローカル導入が失敗する原因は一つとは限りません。よくある落とし穴は次のとおりです。

モデルバージョンとワークフローが合っていない。たとえばワークフローが dev 版を要求しているのに別の重みを使っている。
LoRA と完全モデルの重複部分を同時に読み込み、結果がおかしくなったり VRAM 使用量が増えたりする。
VRAM 不足。特に高解像度、長いフレーム数、複雑なノード構成で起きやすい。
ComfyUI ノード、Diffusers、Transformers、Accelerate などのバージョンが古く互換性がない。
VAE、テキストエンコーダー、mmproj、prompt enhancer などの付属ファイルが足りない。
ファイルパスやディレクトリ構造がツールの要求と合っていない。
Hugging Face ページのコマンドだけをコピーし、それが動画生成のメインフローなのかテキスト側コンポーネントなのか確認していない。

切り分けは順番が大事です。まずモデルファイルが揃っているか確認し、次にワークフローが要求するバージョンを確認します。その後、解像度とフレーム数を下げ、最後に LoRA、prompt enhancer、後処理ノードを少しずつ追加します。一度に変える変数は一つだけにするのが、問題を見つける近道です。

試すのに向いている人

Sulphur 2 は次のようなユーザーに向いています。

すでに LTX、ComfyUI、Diffusers、ローカル動画生成ワークフローを使っている。
text-to-video や image-to-video を試したく、モデルファイルを手動で設定できる。
uncensored 動画生成モデルが必要で、その利用境界を理解している。
prompt enhancer が動画プロンプトをどう改善するか研究したい。
十分な VRAM がある、または量子化版やローカル推論ツールを試す意思がある。

短い動画を手早く作りたいだけなら、オンライン製品の方が楽です。Sulphur 2 はモデル、ノード、LoRA、プロンプト、ローカル環境を調整することを楽しめる人向けです。

使用時の注意点

第一に、モデルカードはまだ更新中です。作者は README により完全な設定説明や訓練方法を追記すると述べているため、具体的なワークフローは最新のモデルカードとファイル一覧を基準にするべきです。

第二に、Hugging Face ページの一つのコマンドだけを見て、すぐ動くと判断しないことです。動画生成にはメインモデル、VAE、LoRA、prompt enhancer、サンプリングパラメータ、解像度、フレーム数、VRAM 使用量が関わります。どれか一つが合わないだけで失敗します。

第三に、uncensored モデルだからといって無制限に使えるわけではありません。生成内容は利用するプラットフォーム、コミュニティ、法律のルールに従う必要があります。実在人物、著作権キャラクター、未成年、暴力、プライバシーに関わる内容では特に注意が必要です。

まとめ

Sulphur 2 の位置づけは明確です。これはチャットモデルではなく、LTX 2.3 動画生成エコシステム向けのモデル公開です。見どころは text-to-video と image-to-video に対応し、prompt enhancer、ローカルツール入口、推奨ワークフローをまとめている点にあります。

一般ユーザーには少し敷居が高いですが、ローカル動画生成を試すユーザーにとってはテスト候補に入れる価値があります。実際の体験は、ワークフロー、VRAM 構成、プロンプト品質、そして今後 README やコミュニティ例がどれだけ整うかで決まります。

参考

Hugging Face モデルページ：https://huggingface.co/SulphurAI/Sulphur-2-base
FreeDidi 参考ページ：https://www.freedidi.com/24142.html