P002 画像生成

ComfyUiについての画像生成の覚書です。
チュートリアルに例題があります。

ComfyUI Text to Image Workflow - ComfyUI

This guide will help you understand the concept of text-to-image in AI art generation and complete a text-to-image workf...

Text to Image　チュートリアル
Image to Image チュートリアル
Lora
作成確認

Text to Image　チュートリアル

notebookLMのまとめ

ComfyUIでテキストプロンプトから画像を生成（Text to Image）する際の要点は、大きく分けて**「プロンプトの記述ルール」、「主要ノードの役割の理解」、そして「生成を制御するパラメーターの設定」**の3つに集約されます。

1. プロンプトの記述ルール

プロンプトは、生成したい要素を指定する「ポジティブプロンプト」と、除外したい要素を指定する「ネガティブプロンプト」の2種類を使い分けます。特にSD1.5モデルを使用する場合、以下の原則が推奨されます：

• 言語と形式: 可能な限り英語を使用し、長い文章ではなく短いフレーズを**カンマ（,）**で区切って入力します。

• 具体性: 抽象的な表現よりも具体的な説明を行い、「masterpiece」「best quality」「4k」といったキーワードを加えることで品質を向上させることができます。

• 重み付け: 特定のキーワードを強調したい場合は、(キーワード:重み) という形式（例: (golden hour:1.2)）を使用します。

2. 主要ノードの役割

ワークフローを構成する各ノードには、画像生成プロセスにおける明確な役割があります：

• Load Checkpoint: 生成の核となるモデル（MODEL、CLIP、VAEのセット）を読み込みます。

• Empty Latent Image: 画像の「キャンバスサイズ（解像度）」を決定し、最初は純粋なノイズの状態である「潜在空間（Latent Space）」を定義します。

• CLIP Text Encoder: 人間が書いたテキストを、モデルが理解できる形式（セマンティックベクトル）に変換します。

• KSampler: ワークフローの核心部であり、プロンプトの指示に従って**ノイズを除去（デノイズ）**し、画像を形成していきます。

• VAE Decode: 潜在空間上のデータを、私たちが目に見える「ピクセル空間（Pixel Space）」の画像に変換します。

3. 生成を制御する重要パラメーター

KSamplerノードにある設定値を調整することで、生成結果をコントロールできます：

• Seed: ノイズの初期状態を決める数値です。同じシード値なら同じ画像が生成され、値を変更すれば異なる結果が得られます。

• Steps: デノイズを繰り返す回数です。回数が多いほど細部が描き込まれますが、処理時間は長くなります。

• CFG (Classifier-free guidance): プロンプトの指示にどれだけ忠実に従うかを調整します。値が高すぎると画像が破綻（オーバーフィッティング）することがあります。

• Denoise: 潜在空間にどれだけノイズを加えるかの係数です。Text to Imageでは通常「1.0（完全なノイズからの生成）」を使用します。

ComfyUIでの画像生成は、「設計図（プロンプト）」を手に、熟練の「芸術家（モデル）」が、真っ白な「キャンバス（潜在空間）」の上に、少しずつ霧を晴らすように（デノイズ）絵を描いていく作業に例えることができます

Image to Image チュートリアル

notebookLMのまとめ

画像から画像を生成する（Image to Image）ワークフローにおいて、最も重要な要点はKSamplerノードの「denoise（デノイズ）」パラメータの調整です。

1. 「denoise」パラメータの制御がカギ

Image to Imageの成功は、この数値の設定にかかっています。denoiseの値は必ず「1未満」に設定する必要があります。

• 値を小さくする（0に近い）: 生成される画像と元の参照画像の差が小さくなります。元の構図やディテールを強く残したい場合に適しています。

• 値を大きくする（1に近い）: 元の画像との差が大きくなり、AIによる改変が強まります。

• 値が1の場合: 潜在空間（Latent Space）の画像が完全にランダムなノイズに置き換わるため、参照画像の特徴がすべて失われます。これはText to Image（テキストからの生成）と同じ状態になってしまいます。

2. 基本的なワークフローの構成

Image to Imageは、Text to Imageのプロセスに「参照画像」という条件を追加したものです。

• Load Imageノード: 参照したい画像をアップロードします。

• Load Checkpointノード: 使用するモデル（例：v1-5-pruned-emaonly-fp16.safetensors）をロードします。

• プロンプト: テキストのみで自由に描かせるのではなく、「参照画像」と「プロンプト」の両方を条件としてAIに指示を出します。

3. Image to Imageの活用例

この手法は、単なる画像生成だけでなく、以下のようなシナリオで効果を発揮します：

• スタイルの変換: 実写の写真をアート風やアニメ風に変換する。

• 線画の具体化: ラフな線画からリアルな画像を生成する。

• 画像の修復・着色: 古い写真の復元や、モノクロ写真への色付け。

例えるなら： Text to Imageが画家に「自由に絵を描いて」と頼む作業だとすれば、Image to Imageは**「この手本（参照画像）を参考にしながら、私の指示（プロンプト）に従って新しい絵を描いて」**と頼むようなものです。手本をどれくらい忠実に守るかを決めるのが「denoise」というツマミの役割です。

Lora

Lora構成

DreamShaper 8（ベースモデル）＋ blindbox_v1_mix（画風 LoRA）＋ MoXinV1（キャラ LoRA）

🧩 このワークフローの LoRA 構成の全体像

✔ ベースモデル

DreamShaper 8
→ ファンタジー・アニメ・リアルの中間で、ゲームアートに強い万能モデル

✔ LoRA 1

blindbox_v1_mix（強度 0.75 / 1.0）
→ 色彩・雰囲気・画風を整える“画風 LoRA”

✔ LoRA 2

MoXinV1（強度 0.5 / 1.0）
→ 顔立ち・線の柔らかさ・可愛さを追加する“キャラ LoRA”

この 2 つを DreamShaper に重ねることで、
「柔らかいアニメ調 × ファンタジー × キャラ映え」
という独特の画風が生まれる。

🔧 ⑦ LoRA の強度調整の目安

✔ もっとリアル寄りにしたい

blindbox：0.5
MoXinV1：0.3

✔ もっとアニメ寄りにしたい

blindbox：1.0
MoXinV1：0.7

✔ 騎士の硬派さを出したい

MoXinV1 を弱める（0.3〜0.4）
blindbox を強める（0.8〜1.0）

二段階Lora

lindbox → MoXinV1 の二段階 LoRA 適用

🧩 二段階 LoRA の最適設定（blindbox → MoXinV1）

🛡️ ① blindbox_v1_mix（画風 LoRA）

🎨 役割

色彩を鮮やかにする
コントラストを整える
イラスト調の統一感を出す

⚔️ ② MoXinV1（キャラ LoRA

🎨 役割

顔立ちを整える
キャラの魅力を上げる

✔ ① LoRA は“適用順”がとても重要だから

ワークフローでは、LoRA がこの順番で読み込まれている：

blindbox_v1_mix（LoRA 1）
MoXinV1（LoRA 2）

ComfyUI は 上から順番に LoRA をモデルへ合成していくため、
この順番がそのまま「呼び名」や「構成名」になる。

つまり：

ベースモデル（DreamShaper）に blindbox を重ね、
その上に MoXinV1 をさらに重ねる構造

になっている。

✔ ② 先に適用された LoRA が“土台の画風”を作る

blindbox が先に適用されると：

色彩
コントラスト
線の雰囲気
イラスト調の統一感

といった 画風のベースが決まる。

その後に MoXinV1 を重ねることで：

顔の可愛さ
目の大きさ
柔らかい線
キャラの雰囲気

といった キャラ特性が追加される。

だから順番はとても重要で、
blindbox → MoXinV1 という呼び方になる。

✔ ③ LoRA の順番が変わると絵の雰囲気も変わる

例えば逆にすると：

MoXinV1 → blindbox

キャラの顔が先に決まり
blindbox が後から画風を上書きする
→ キャラの可愛さが薄れたり、線が変わったりする

つまり LoRA の順番は“どの要素を優先するか”を決めるんだ。

あなたの構成は：

blindbox（画風）
MoXinV1（キャラ）

という順番なので、

画風 → キャラの顔
という自然で安定した流れになっている。

✔ ④ ComfyUI の LoraLoader が“順番通りにモデルを更新する”ため

ワークフローを見ると：

CheckpointLoaderSimple → LoraLoader(blindbox) → LoraLoader(MoXinV1)

という 直列構造になっている。

ComfyUI はこの順番でモデルを更新するため、
自然と blindbox → MoXinV1 という呼び方になる。

項目	内容
LoRA の順番	blindbox → MoXinV1
理由①	LoRA は適用順で効果が変わる
理由②	blindbox が画風、MoXinV1 がキャラを担当
理由③	ComfyUI が上から順に LoRA を合成する
結果	「blindbox → MoXinV1」という呼び名になる

作成確認

プロンプト

positive	anime style, epic fantasy key visual, heroic medieval knight, shining steel sword, dynamic pose, exploring a glowing ancient dungeon, dramatic anime lighting, bright colors, clean line art, volumetric light rays, magical particles, detailed armor, expressive anime eyes, cinematic composition, high detail, masterpiece illustration
negative	(worst quality, low quality:1.4), bad anatomy, extra limbs, extra fingers, deformed hands, blurry, distorted face, cropped, watermark, text, logo, jpeg artifacts, overly realistic texture, harsh shading

blindbox
モデルの強度 0.75
クリップの強度 1
MoXinV1
モデルの強度 0.5
クリップの強度 1

blindbox
モデルの強度 1
クリップの強度 1
MoXinV1
モデルの強度 0.6
クリップの強度 1

blindbox
モデルの強度 0.1
クリップの強度 0.5
MoXinV1
モデルの強度 0.1
クリップの強度 0.5

blindbox
モデルの強度 0.1
クリップの強度 1
MoXinV1
モデルの強度 0.1
クリップの強度 1

プロンプト

positive

anime style, cel shading, anime cel style, flat colors, bold outlines, two-tone shading, sharp shadow edges, vibrant anime color palette, clean line art, simplified textures, epic fantasy key visual, heroic medieval knight, shining steel sword, dynamic pose, exploring a glowing ancient dungeon, dramatic anime lighting, volumetric light rays, magical particles, detailed armor, expressive anime eyes, cinematic composition, high detail, masterpiece illustration

negative

overly detailed textures, realistic skin pores, photorealistic shading