AI 建築 · ComfyUI

ComfyUI txt2imgワークフローの始め方｜7ノードで画像生成

編集部公開 2026-04-23 読了約13分

ComfyUI（ノードをつないで画像生成AIを動かすツール）で画像を生成する最初のステップが、txt2img（テキストから画像生成）ワークフローの構築です。テキストプロンプトを入力するだけで画像が生成される仕組みは、わずか7つのノードをつなげるだけで完成します。

しかし、ノードごとの役割やパラメータの意味を理解しないまま組むと、思いどおりの画像がなかなか出てきません。seedやcfg、サンプラーの選び方ひとつで生成結果は大きく変わります。パラメータを適当に決めると、何が原因で結果が違うのかもわからないまま迷子になる、という状況にもなりがちです。

この記事では、ComfyUIのtxt2imgワークフローをゼロから構築する手順を、各ノードのパラメータ設定まで含めて解説します。

ComfyUIのtxt2imgワークフローとは

建築パース制作で「3Dモデル読み込み → マテリアル設定 → レンダリング → 画像書き出し」という流れがあるように、ComfyUIのtxt2imgも決まった工程を1つずつ通していく構造になっています。工程ごとにノードを配置する感覚を押さえると、複雑に見える画面もすっきり見えてきます。

txt2imgの仕組みとワークフロー全体像

txt2imgとは「text to image」の略で、テキストの指示（プロンプト）から画像を生成する手法です。ComfyUIでは、この処理をノードベースのワークフローとして視覚的に組み立てます。

基本的なtxt2imgワークフローは、以下の7つのノードで構成されます。

Load Checkpoint：AIモデルを読み込む（1個）
CLIP Text Encode（正プロンプト）：生成したい画像の内容を指定する（1個）
CLIP Text Encode（負プロンプト）：生成したくない要素を指定する（1個）
Empty Latent Image：生成する画像のサイズを決める（1個）
KSampler：ノイズから画像を生成する（中核処理、1個）
VAE Decode：潜在空間のデータをピクセル画像に変換する（1個）
Save Image：完成画像を保存する（1個）

CLIP Text Encodeは正プロンプト用と負プロンプト用で2つ使うため、ノード種別としては6種類、個数としては7ノードになります（ComfyUI公式 Text to Image Workflow 2026年4月現在）。

データの流れは「モデル読み込み → プロンプト解析 → ノイズ除去 → 画像変換 → 保存」という一方向です。この7ノード構成はtxt2imgの基本テンプレートとして広く使われており、応用ワークフローの出発点にもなります。

txt2imgワークフローを構成する7つのノード

ここからは7つのノードを1つずつ見ていきます。ノード単位で役割を理解すれば、あとから別のワークフローを見たときも「どこで何をしているか」がすぐにわかるようになります。

Load Checkpoint：モデルの読み込み

Load Checkpointノードは、画像生成に使うAIモデル（チェックポイントファイル）を読み込むノードです。ComfyUI/models/checkpoints/ フォルダに配置した .safetensors ファイルをドロップダウンから選択します。

このノードからは3つの出力が出ます。それぞれが責務の異なるサブモデルに対応しています。

MODEL：UNet本体。ノイズ除去を担う画像生成の中核
CLIP：テキストエンコーダ。プロンプトを数値ベクトルに変換する
VAE：潜在空間とピクセル画像を相互変換するエンコーダー／デコーダー

MODELはKSamplerへ、CLIPはCLIP Text Encodeへ、VAEはVAE Decodeへそれぞれ接続します。1つのチェックポイントファイルにこの3つの役割が同梱されている構造を理解しておくと、後述のサンプラー調整や応用ワークフローの理解がスムーズになります（ComfyUI公式 Checkpointドキュメント 2026年4月現在）。

使用するモデルによって生成される画像のスタイルや品質が大きく変わるため、目的に合ったモデルを選ぶことが大切です。モデル選びの詳細はチェックポイントモデルの違い｜SD1.5・SDXL・SD3の選び方で解説しています。

CLIP Text Encode：正プロンプトと負プロンプト

CLIP Text Encodeノードは、テキストプロンプトをモデルが理解できる形式（条件付けデータ）に変換します。txt2imgワークフローでは、このノードを2つ使います。

正プロンプト（Positive） には、生成したい画像の内容を記述します。書き方の基本は、重要な要素を先に書くことです。ComfyUIのプロンプトでは、先頭に近い単語ほど影響力が大きくなります。

high quality, a modern house, white walls, large windows, blue sky, photorealistic

負プロンプト（Negative） には、生成結果に含めたくない要素を記述します。画質の劣化や不自然な表現を防ぐために使います。

low quality, blurry, distorted, watermark, text, ugly

正プロンプトの出力はKSamplerの「positive」へ、負プロンプトの出力は「negative」へ接続してください。プロンプトの書き方を深く学びたい方はプロンプトエンジニアリング実践｜CLIPスケジュール・条件分岐が参考になります。

Empty Latent Image：生成サイズの指定

Empty Latent Imageノードは、生成する画像の幅（width）と高さ（height）を指定します。出力はKSamplerの「latent_image」に接続します。

解像度はモデルごとに推奨値が違います（2026年4月現在）。

モデル	推奨解像度	総ピクセル数の目安
SD 1.5	512×512	約26万
SDXL	1024×1024	約105万
FLUX	1024×1024〜1280×1024	約105〜131万

推奨値から大きく外れた解像度を設定すると、画像が崩れたり構図が不自然になったりします。アスペクト比を変えたい場合は、総ピクセル数を推奨範囲内に収めてください。たとえばSDXLなら、896×1152や1216×832といった組み合わせが使えます。

batch_size は一度に生成する画像の枚数です。初期値の1のままで問題ありません。batch_sizeを上げるとVRAM消費もおおむね線形に増えます。8GB環境でSDXLを扱う場合はbatch_size=1でも余裕が少ないため、複数枚生成したいときはbatch_sizeを増やすよりも同一プロンプトを繰り返しキューに送る運用が安全です。

KSampler：画像生成の中核

KSamplerノードは、txt2imgワークフローの心臓部です。ランダムなノイズから段階的にノイズを除去し、プロンプトに沿った画像を生成します。生成時間の大半はこのKSamplerが占めるため、「生成が遅い」と感じたときはまずstepsの値を見直すのが近道です（Stable Diffusion Art ComfyUI Guide 2026年4月現在）。

seed（シード値）

生成の出発点となる乱数値です。同じseed、同じプロンプト、同じパラメータなら同一の画像が再現されます。気に入った画像のseed値をメモしておけば、いつでも同じ結果を得られるので、バリエーション作成や微調整のときに役立ちます。

steps（ステップ数）

ノイズ除去を繰り返す回数です。回数が多いほど画像は精細になりますが、生成時間もほぼ比例して増えます。実務では20〜30ステップが品質と速度のバランスに優れています。

cfg（CFGスケール）

プロンプトへの忠実度を制御する値です。高くするとプロンプトに強く従いますが、上げすぎるとコントラストが過剰になり画質が低下します。SDXL想定では7.0〜8.0が汎用的な出発点です。FLUX系モデルはCFGではなくFluxGuidanceノード（推奨値3.5前後）を別途使う仕様のため、KSampler側のcfgは1.0固定で扱います（ComfyUI Wiki FluxGuidance 2026年4月現在）。

sampler_name（サンプラー）

ノイズ除去に使うアルゴリズムの種類です。代表的な選択肢を紹介します。

euler：高速で安定。テスト段階での試行錯誤に向いています
dpmpp_2m：高品質な出力が得られる定番サンプラーです
dpmpp_sde：ディテールの表現に優れますが、やや生成時間がかかります

scheduler（スケジューラー）

ノイズ除去の進め方を決めるスケジュール設定です。「normal」は均等にノイズを除去し、「karras」は後半に集中してノイズを除去します。sampler_nameとschedulerには相性があり、詳細な組み合わせは後述の「サンプラーとスケジューラーの選び方」で扱います。

denoise（デノイズ強度）

txt2imgでは通常1.0（完全にノイズから生成）のまま変更しません。0.0〜1.0の範囲で、値を下げると元のノイズをより多く残します。この値を変えるのは、img2imgワークフローで既存画像をベースにする場合です。

VAE Decode と Save Image：出力

VAE Decode は、KSamplerが出力した潜在空間データ（latent）を、人間が見られるピクセル画像に変換するノードです。Load Checkpointの「VAE」出力を接続します。

Save Image は、変換された画像をファイルとして保存します。ComfyUI/output/ フォルダに自動保存されます。ファイル名のプレフィックスも設定できるので、用途ごとに名前を分けると管理しやすくなります。保存せずプレビューだけ確認したい場合は、Save Imageの代わりにPreview Imageノードを使う選択肢もあります。

ワークフローをゼロから組む手順

ここからは実際に手を動かして組んでいきます。

ノードの配置と接続

ComfyUIのキャンバス上で、以下の手順でノードを配置します。

キャンバス上で右クリックし「Add Node」を選択します（2026年4月現在のComfyUI Desktop/Portable共通。ダブルクリックでのノード検索にも対応）
以下の順でノードを追加してください
「loaders」→「Load Checkpoint」
「conditioning」→「CLIP Text Encode」を2つ
「latent」→「Empty Latent Image」
「sampling」→「KSampler」
「latent」→「VAE Decode」

「image」→「Save Image」

ノード間をドラッグ＆ドロップで接続します

接続の組み合わせをまとめると、次のとおりです。

出力元	出力スロット	入力先	入力スロット
Load Checkpoint	MODEL	KSampler	model
Load Checkpoint	CLIP	CLIP Text Encode（正）	clip
Load Checkpoint	CLIP	CLIP Text Encode（負）	clip
Load Checkpoint	VAE	VAE Decode	vae
CLIP Text Encode（正）	CONDITIONING	KSampler	positive
CLIP Text Encode（負）	CONDITIONING	KSampler	negative
Empty Latent Image	LATENT	KSampler	latent_image
KSampler	LATENT	VAE Decode	samples
VAE Decode	IMAGE	Save Image	images

手でゼロから組むのが難しければ、ComfyUIのメニューから「Load Default」を実行すると、この7ノード構成がテンプレートとして読み込めます（2026年4月現在）。ノードの基本操作についてさらに知りたい方はComfyUIのノードとは？初心者が最初に知る考え方を参照してください。

プロンプトの入力と生成実行

ノードの接続が完了したら、以下の手順で初回生成を行います。

Load Checkpointでモデルを選択する
正プロンプトのCLIP Text Encodeにテキストを入力する
負プロンプトのCLIP Text Encodeにテキストを入力する
Empty Latent Imageでモデルに合った解像度を設定する
KSamplerのパラメータを設定する（まずはデフォルト値で試すのがおすすめです）
メニューの「Queue」ボタンをクリック、またはCtrl+Enterで生成を開始する

生成が完了すると、Save Imageノードに画像が表示されます。初回は設定の確認が目的なので、シンプルなプロンプトから始めてください。デフォルト値で一度動かしてから調整に進むと、どの変更が結果にどう効いたかが見えやすくなります。

生成結果を改善するパラメータ調整のコツ

seed値で再現性を確保する

KSamplerのseed値は、生成結果の再現に欠かせないパラメータです。seed値の横にある制御モードを「fixed」に設定すると、毎回同じseed値が使われます。

パラメータの調整段階では、seed値を固定したうえで他の設定を少しずつ変えてください。こうすることで、どのパラメータがどう影響したかを正確に比較できます。変数を1つずつ変えて影響を見る、実験の基本手順と同じです。制御モードを「randomize」に戻せば、毎回異なる画像が生成されます。

stepsとcfgのバランス調整

stepsとcfgは互いに影響し合うパラメータです。実務では次のような調整手順が効率的になります。

まずstepsを20に固定し、cfgを5.0、7.0、10.0と変えて比較する
好みのcfg値が決まったら、stepsを15、20、30と変えて仕上がりの違いを確認する
画像が「のっぺり」していればstepsを増やし、「ギラギラ」していればcfgを下げる

建築パース生成の実務では、SDXLでsteps:25、cfg:7.5の組み合わせが扱いやすいバランスとして知られています。ただしモデルやプロンプトとの相性もあるので、必ず自分の環境で試してください。

サンプラーとスケジューラーの選び方

sampler_nameとschedulerには相性があり、すべての組み合わせが同じ品質を出すわけではありません。海外Civitaiの実測レビューやComfyUI Devの互換性マトリクスを参照して、モデル別の推奨ペアを整理すると次のようになります（Sampler and Scheduler Compatibility Matrix および Civitai Sampler Reference 2026年4月現在）。

モデル	推奨ペア	ステップ数の目安	備考
SD 1.5	euler + normal	20〜25	軽量で高速。学習用にも最適
SDXL	dpmpp_2m + karras	20〜30	汎用定番。建築パースでも安定
SDXL（高ディテール）	dpmpp_sde + karras	25〜35	質感重視のレタッチ前提カットに
FLUX	euler + simple / beta	20〜28	CFG=1固定＋FluxGuidance併用

注意点として、eulerとkarrasの組み合わせはぼやけた結果になりやすいため避けてください。FLUX系モデルを使う場合は、前述のとおりKSamplerのcfgを1.0に固定し、別途FluxGuidanceノードで誘導強度（3.5前後）を調整する構成に切り替える必要があります。SDXLと同じ感覚でcfgを7〜8にするとFLUXでは画像が破綻するため注意してください。

まとめ

ComfyUIのtxt2imgワークフローは、7つのノードをつなげるだけで構築できます。Load Checkpointでモデルを読み込み、CLIP Text Encodeでプロンプトを設定し、KSamplerで画像を生成する流れが基本です。

KSamplerのseed、steps、cfg、サンプラー、スケジューラーの5つのパラメータを理解すれば、生成結果を意図どおりに調整できるようになります。モデルがSDXLなのかFLUXなのかで運用が変わる点だけ押さえておけば、手元の環境に応じた調整がスムーズに進みます。まずはデフォルト設定で1枚生成し、パラメータを1つずつ変えながら違いを体感してみてください。

txt2imgの基本を身につけたら、既存画像をベースに加工するimg2img変換ワークフロー｜デノイズ強度の考え方へ進むのが自然なステップです。