ComfyUiについての3Dモデル生成の場合です。
チュートリアルに例題があります。
以下のボタンでcolabで起動します。(googleアカウントが必要)
途中で止まっても、止まったセルから実行すれば、起動すると思います。
チュートリアルまとめ
以下、notebookLMによるまとめ
hunyuan3d-dit-v2.safetensors とは
このモデルは、Tencentが公開したオープンソースの3D資産生成モデル「Hunyuan3D 2.0」における形状生成(ジオメトリ生成)モデルの核となるファイルです。
• 役割: テキストや画像から、テクスチャのない幾何学的な3Dモデルを生成します。
• アーキテクチャ: フロー拡散トランスフォーマー(flow diffusion Transformer)を採用しています。
• 最大の特徴: シングルビュー(単一視点)入力に特化したモデルであり、1枚の画像から3D形状を作成するワークフローで使用されます。
--------------------------------------------------------------------------------
モデルごとの主な違い
提供されている3つのモデルの主な違いは、**「入力できる視点数」と「生成スピード(推論方法)」**にあります。
モデル名 特徴・用途 入力の種類 hunyuan3d-dit-v2.safetensors 標準的なシングルビューモデル。1枚の画像から3Dモデルを生成する基本的な構成に使用されます。 単一視点(1枚) hunyuan3d-dit-v2-mv.safetensors マルチビュー(多視点)モデル。異なる角度からの画像を入力として受け取り、より詳細で正確な幾何構造を生成できます。 複数視点(マルチビュー) hunyuan3d-dit-v2-mv-turbo.safetensors 高速生成(蒸留)版モデル。マルチビューモデルをステップ蒸留(Step Distillation)したもので、品質を保ちつつより高速に生成可能です。 複数視点(マルチビュー) 補足的な違い
• 生成プロセス:
turbo版は、推論時間を短縮するために特別に調整されており、ワークフロー上ではCFG(Classifier-Free Guidance)を1.0に設定し、専用のガイダンスノード(flux guidanceなど)を併用して制御します。• ハードウェア要件: Hunyuan3D 2.0シリーズは軽量に設計されており、形状生成だけであれば標準バージョンで6GBのVRAMがあれば動作可能です。
例えるなら: これらは「3Dの彫刻家」のようなものです。
• 標準モデルは、1枚の写真だけを見て彫刻を作る職人。
• mv(マルチビュー)モデルは、前後左右からの写真を見て、より正確に彫り進める職人。
• turboモデルは、そのマルチビュー職人の技術をそのままに、超スピードで作業を終わらせるベテラン職人、といった違いです。
そのままだとテクスチャは生成されません。形状生成のみです。
hunyuan3d-dit-v2.safetensors
hunyuan_3d_v2.1.safetensorsに更新
テンプレートから流用できます。

背面は補完されています。
hunyuan3d-dit-v2-mv.safetensors

背面は図を参照しています。
hunyuan3d-dit-v2-mv-turbo.safetensors

こちらの方が簡略化されてそうです。
hunyuan3d-dit-v2-mv-turbo テクスチャ追加
テクスチャを生成するように追加したものです。

colabのT4で動かせる範囲なので、かなり制限されており、荒いです。
本来は上位のGPUで動かすもののようです。十分な環境だとまた違うと思います。
(07 (3dモデルテクスチャ生成)は制限して動くようにしたものです。)
(図のComfyUIのファイル)



メッシュ精度に関わる主な設定箇所
1. EmptyLatentHunyuan3Dv2 — 解像度(現在:3072)
- 3D潜在空間の解像度です。値を上げると形状の細かさが増しますが、VRAM・処理時間が増加します
- 目安:
1024(軽量) /2048(バランス) /3072(高精度・現在値)
2. VAEDecodeHunyuan3D — Octree解像度(現在:256)
- ボクセルのグリッド細かさです。メッシュ精度に最も直接的に影響します
- 値を上げると細部が増えますが重くなります
- 目安:
128(軽量) /256(現在値) /512(高精度・要高VRAM)
3. VAEDecodeHunyuan3D — num_chunks(現在:8000)
- デコード処理を分割するチャンク数です。VRAMが少ない場合は増やすと安定します(精度には直接影響しません)
4. VoxelToMesh — threshold(現在:0.6)
- ボクセルからメッシュを抽出する際のしきい値です
- 下げる(例:
0.4)→ 表面が滑らかに・薄い部分も残りやすい - 上げる(例:
0.8)→ 余分なノイズが除去される・細部が失われやすい
5. VoxelToMesh — algorithm(現在:surface net)
marching cubesに変更するとよりシャープなエッジが出やすくなります
テクスチャ精度に関わる設定
KSampler — steps(現在:20)
- ステップ数を増やすと(例:
30〜50)テクスチャ品質が上がりますが時間がかかります
KSampler — CFG(現在:4)
- 入力画像への忠実度です。上げると元画像に近くなります(
3〜7が一般的な範囲)
T4環境での推奨チューニング例
| 目的 | Octree解像度 | 潜在解像度 | steps |
|---|---|---|---|
| 速度優先 | 128 | 1024 | 15 |
| バランス(現在) | 256 | 3072 | 20 |
| 品質優先 | 512 | 3072 | 30 |
T4(16GB VRAM)では Octree=512 は厳しい場合があるため、256のままステップ数を上げる方が安全です。

コメント