P007 ComfyUI 動画生成

ComfyUiについての動画生成の場合です。
テンプレートから作成例を参照できます。

以下のボタンでcolabで起動します。(ユーザーアカウントが必要)
colabのT4用に制限しています。

ブランチを選択:

Wan

Wan2.1 T2V 1.3B

Wan2.1 T2V 1.3B とは（ai検索）

Wan2.1 T2V 1.3B とは

Alibaba が2025年2月に公開したオープンソースの動画生成モデルです。14B と 1.3B の2種類があり、オープンウェイトモデルのリーダーボードでトップクラスの評価を受けています。 Hunyuan3D AI

特徴：

必要VRAMは約8GBで、コンシューマー向けGPUで動作します。RTX 4090では最適化なしで5秒の480P動画を約4分で生成できます。 Hunyuan3D AI

世界初の動画内での日本語・中国語・英語テキスト生成に対応しています。またWan-VAEは1080Pの任意の長さの動画をエンコード・デコードできます。 Hunyuan 3D

1.3B と 14B の違い

項目 1.3B（現在使用中） 14B
必要VRAM 約8GB（T4で余裕あり）約24GB以上
解像度 480P推奨（720Pは不安定） 480P・720P両対応
タスクテキスト→動画のみテキスト→動画、画像→動画
品質良好より高品質
ライセンス Apache 2.0 Apache 2.0

1.3Bモデルは720P解像度の動画生成も可能ですが、学習データが少ないため480Pの方が安定した結果が得られます。 GitHub

拡張モデル（参考）

1.3Bをベースにした派生モデルが多数あり、LoRA学習、動画編集（Wan-Edit）、マルチキャラクター生成（EchoShot）、ポーズ制御アニメーション（HyperMotion）などが公開されています。 Hunyuan3D AIまたVACE（Video Creation and Editing）という全機能統合モデルも2025年5月に公開されています。 Hunyuan3D AI

T4（16GB）では現在の1.3Bが最適な選択です。品質をさらに上げたい場合はA100（40GB以上）で14Bモデルを使う形になります。

項目	1.3B（現在使用中）	14B
必要VRAM	約8GB（T4で余裕あり）	約24GB以上
解像度	480P推奨（720Pは不安定）	480P・720P両対応
タスク	テキスト→動画のみ	テキスト→動画、画像→動画
品質	良好	より高品質
ライセンス	Apache 2.0	Apache 2.0

08 (wan2.1動画生成)のcolabで生成実行

jsonファイル：

wan21_t2v_t4_v6.json

wan2.2

wan2.2(ai検索)

Wan2.2 とは

MoE（Mixture of Experts）アーキテクチャを動画生成拡散モデルに初めて適用したモデルで、ComfyUIはDay-0でネイティブサポートを達成しました。高ノイズ専門モデルと低ノイズ専門モデルに分かれており、ノイズ除去の段階に応じて専門モデルを使い分けることで高品質な動画を生成します。 DeepWiki

Wan2.1 との主な違い

項目	Wan2.1	Wan2.2
アーキテクチャ	Dense	MoE（専門家混合）
学習データ	基準	画像+65.6%、動画+83.2%
映像品質	良好	プロ映画水準の色彩・構図制御
モデル種類	T2V, I2V	T2V, I2V, TI2V（テキスト+画像→動画）, S2V（音声→動画）