ComfyUi

P005 ComfyUi 3Dモデル生成


ComfyUiについての3Dモデル生成の場合です。
チュートリアルに例題があります。

ComfyUI Hunyuan3D-2 Examples - ComfyUI
This guide will demonstrate how to use Hunyuan3D-2 in ComfyUI to generate 3D assets.

以下のボタンでcolabで起動します。(googleアカウントが必要)

Open In Colab

途中で止まっても、止まったセルから実行すれば、起動すると思います。

チュートリアルまとめ

以下、notebookLMによるまとめ

hunyuan3d-dit-v2.safetensors とは

このモデルは、Tencentが公開したオープンソースの3D資産生成モデル「Hunyuan3D 2.0」における形状生成(ジオメトリ生成)モデルの核となるファイルです。

役割: テキストや画像から、テクスチャのない幾何学的な3Dモデルを生成します。

アーキテクチャ: フロー拡散トランスフォーマー(flow diffusion Transformer)を採用しています。

最大の特徴: シングルビュー(単一視点)入力に特化したモデルであり、1枚の画像から3D形状を作成するワークフローで使用されます。

--------------------------------------------------------------------------------

モデルごとの主な違い

提供されている3つのモデルの主な違いは、**「入力できる視点数」「生成スピード(推論方法)」**にあります。

モデル名特徴・用途入力の種類
hunyuan3d-dit-v2.safetensors標準的なシングルビューモデル。1枚の画像から3Dモデルを生成する基本的な構成に使用されます。単一視点(1枚)
hunyuan3d-dit-v2-mv.safetensorsマルチビュー(多視点)モデル。異なる角度からの画像を入力として受け取り、より詳細で正確な幾何構造を生成できます。複数視点(マルチビュー)
hunyuan3d-dit-v2-mv-turbo.safetensors高速生成(蒸留)版モデル。マルチビューモデルをステップ蒸留(Step Distillation)したもので、品質を保ちつつより高速に生成可能です。複数視点(マルチビュー)

補足的な違い

生成プロセス: turbo版は、推論時間を短縮するために特別に調整されており、ワークフロー上ではCFG(Classifier-Free Guidance)を1.0に設定し、専用のガイダンスノード(flux guidanceなど)を併用して制御します。

ハードウェア要件: Hunyuan3D 2.0シリーズは軽量に設計されており、形状生成だけであれば標準バージョンで6GBのVRAMがあれば動作可能です。

例えるなら: これらは「3Dの彫刻家」のようなものです。

標準モデルは、1枚の写真だけを見て彫刻を作る職人。

mv(マルチビュー)モデルは、前後左右からの写真を見て、より正確に彫り進める職人。

turboモデルは、そのマルチビュー職人の技術をそのままに、超スピードで作業を終わらせるベテラン職人、といった違いです。

そのままだとテクスチャは生成されません。形状生成のみです。

hunyuan3d-dit-v2.safetensors

hunyuan_3d_v2.1.safetensorsに更新

テンプレートから流用できます。

背面は補完されています。

Interactive 3D

ドラッグで回転・スクロールで拡大縮小できます

※スマートフォンはピンチ操作に対応

hunyuan3d-dit-v2-mv.safetensors

背面は図を参照しています。

Interactive 3D

ドラッグで回転・スクロールで拡大縮小できます

※スマートフォンはピンチ操作に対応

hunyuan3d-dit-v2-mv-turbo.safetensors

こちらの方が簡略化されてそうです。

Interactive 3D

ドラッグで回転・スクロールで拡大縮小できます

※スマートフォンはピンチ操作に対応

hunyuan3d-dit-v2-mv-turbo テクスチャ追加

テクスチャを生成するように追加したものです。

Interactive 3D

ドラッグで回転・スクロールで拡大縮小できます

※スマートフォンはピンチ操作に対応

colabのT4で動かせる範囲なので、かなり制限されており、荒いです。
本来は上位のGPUで動かすもののようです。十分な環境だとまた違うと思います。
(07 (3dモデルテクスチャ生成)は制限して動くようにしたものです。)

テクスチャjsonファイル

(図のComfyUIのファイル)

octree_resolutionを減らしてデータ量を減らせます。
メッシュの生成を調整して軽くできます。basicだとボクセル状になります。
テクスチャの状態

メッシュ精度に関わる主な設定箇所

1. EmptyLatentHunyuan3Dv2 — 解像度(現在:3072)

  • 3D潜在空間の解像度です。値を上げると形状の細かさが増しますが、VRAM・処理時間が増加します
  • 目安:1024(軽量) / 2048(バランス) / 3072(高精度・現在値)

2. VAEDecodeHunyuan3D — Octree解像度(現在:256)

  • ボクセルのグリッド細かさです。メッシュ精度に最も直接的に影響します
  • 値を上げると細部が増えますが重くなります
  • 目安:128(軽量) / 256(現在値) / 512(高精度・要高VRAM)

3. VAEDecodeHunyuan3D — num_chunks(現在:8000)

  • デコード処理を分割するチャンク数です。VRAMが少ない場合は増やすと安定します(精度には直接影響しません)

4. VoxelToMesh — threshold(現在:0.6)

  • ボクセルからメッシュを抽出する際のしきい値です
  • 下げる(例:0.4)→ 表面が滑らかに・薄い部分も残りやすい
  • 上げる(例:0.8)→ 余分なノイズが除去される・細部が失われやすい

5. VoxelToMesh — algorithm(現在:surface net)

  • marching cubesに変更するとよりシャープなエッジが出やすくなります

テクスチャ精度に関わる設定

KSampler — steps(現在:20)

  • ステップ数を増やすと(例:3050)テクスチャ品質が上がりますが時間がかかります

KSampler — CFG(現在:4)

  • 入力画像への忠実度です。上げると元画像に近くなります(37が一般的な範囲)

T4環境での推奨チューニング例

目的Octree解像度潜在解像度steps
速度優先128102415
バランス(現在)256307220
品質優先512307230

T4(16GB VRAM)では Octree=512 は厳しい場合があるため、256のままステップ数を上げる方が安全です。

コメント