ComfyUi

P007 ComfyUI 動画生成


ComfyUiについての動画生成の場合です。
テンプレートから作成例を参照できます。

以下のボタンでcolabで起動します。(ユーザーアカウントが必要)
colabのT4用に制限しています。

Open In Colab

Wan

Wan2.1 T2V 1.3B

Wan2.1 T2V 1.3B とは

Alibaba が2025年2月に公開したオープンソースの動画生成モデルです。14B と 1.3B の2種類があり、オープンウェイトモデルのリーダーボードでトップクラスの評価を受けています。 Hunyuan3D AI

特徴:

必要VRAMは約8GBで、コンシューマー向けGPUで動作します。RTX 4090では最適化なしで5秒の480P動画を約4分で生成できます。 Hunyuan3D AI

世界初の動画内での日本語・中国語・英語テキスト生成に対応しています。またWan-VAEは1080Pの任意の長さの動画をエンコード・デコードできます。 Hunyuan 3D


1.3B と 14B の違い

項目1.3B(現在使用中)14B
必要VRAM約8GB(T4で余裕あり)約24GB以上
解像度480P推奨(720Pは不安定)480P・720P両対応
タスクテキスト→動画のみテキスト→動画、画像→動画
品質良好より高品質
ライセンスApache 2.0Apache 2.0

1.3Bモデルは720P解像度の動画生成も可能ですが、学習データが少ないため480Pの方が安定した結果が得られます。 GitHub


拡張モデル(参考)

1.3Bをベースにした派生モデルが多数あり、LoRA学習、動画編集(Wan-Edit)、マルチキャラクター生成(EchoShot)、ポーズ制御アニメーション(HyperMotion)などが公開されています。 Hunyuan3D AIまたVACE(Video Creation and Editing)という全機能統合モデルも2025年5月に公開されています。 Hunyuan3D AI

T4(16GB)では現在の1.3Bが最適な選択です。品質をさらに上げたい場合はA100(40GB以上)で14Bモデルを使う形になります。

08 (wan2.1動画生成)のcolabで生成実行

jsonファイル:

wan21_t2v_t4_v6.json

wan2.2

Wan2.2 とは

MoE(Mixture of Experts)アーキテクチャを動画生成拡散モデルに初めて適用したモデルで、ComfyUIはDay-0でネイティブサポートを達成しました。高ノイズ専門モデルと低ノイズ専門モデルに分かれており、ノイズ除去の段階に応じて専門モデルを使い分けることで高品質な動画を生成します。 DeepWiki

Wan2.1 との主な違い

項目Wan2.1Wan2.2
アーキテクチャDenseMoE(専門家混合)
学習データ基準画像+65.6%、動画+83.2%
映像品質良好プロ映画水準の色彩・構図制御
モデル種類T2V, I2VT2V, I2V, TI2V(テキスト+画像→動画), S2V(音声→動画)

T4で使えるモデル

Wan2.2 TI2V-5BはVRAM 8GB以上で動作し、T4(16GB)に最適です。720P・5秒の動画を1枚のコンシューマーGPUで9分以内に生成できます。テキスト→動画と画像→動画の両方を1つのモデルで対応しています。 Hugging Face

09 (wan2.2動画生成)のcolabで生成実行

jsonファイル:

wan22_ti2v_5b_t4.json

wan2.2 画像プロンプト

画像入力を含めた場合

09 (wan2.2動画生成)のcolabで生成実行

jsonファイル:

wan22_i2v_5b_t4_1.json

コメント