PERSC JOURNAL DB Manual Course

運営者・お問い合わせ
AI 建築 · ComfyUI

ComfyUI×HunyuanVideo動画生成の始め方|2026年版設定ガイド

編集部 読了 約10分

「テキストや画像から、高品質な動画を手元のPCで生成したい」と考えたことはありませんか。Tencent(テンセント)が2024年末に公開したHunyuanVideoは、13Bパラメータの大規模モデルでありながら、オープンソースとして無料で利用できる動画生成AIです(2026年4月現在)。人物の顔や手指の描写精度に定評があり、ComfyUI(ノードをつないで画像生成AIを動かすツール)はネイティブサポートで即日対応しています。

この記事では、ComfyUIでHunyuanVideoを使った動画生成の始め方を解説します。VRAM(GPUの作業メモリ)要件の確認からワークフローの構築、GGUF・FP8による軽量化、さらにWanモデルとの使い分けまで、実践的な手順をまとめています。

HunyuanVideoとは?Tencent発の高品質動画生成モデル

HunyuanVideoは、Tencentが2024年12月にオープンソースとして公開した動画生成AIモデルです。テキストから動画を生成するtxt2videoに加え、2025年3月6日には画像を動かすimg2video(I2V)機能が公式リリースされ、ComfyUIがDay-1でネイティブ対応しました。

13Bパラメータが生み出す映像表現力

HunyuanVideoの最大の特徴は、13Bパラメータという大規模なモデルサイズです(2026年4月現在)。この規模は、オープンソースの動画生成モデルとしてはトップクラスにあたります。建築で言えば、ハイエンドレンダラーと同等の計算資源を投入するイメージに近く、仕上がりの密度でアドバンテージが出ます。

大規模モデルならではの利点として、以下の点が挙げられます。

  • 人物の顔や手指の描写が自然で破綻しにくい
  • 複数人物が登場するシーンでも表情を正確に維持できる
  • 背景と前景の動きが一貫した、シーン全体の整合性が高い映像

実務では、建築パースのウォークスルー動画や、インテリアのコンセプト映像など、品質が求められるシーンで力を発揮します。有料の動画生成サービスを使わずに、同等レベルの映像を手元のPCで作れる点が大きなメリットです。

txt2videoとimg2videoの両方に対応

HunyuanVideoには2つの生成モードがあります。

txt2video(テキストから動画) は、テキストプロンプトだけで動画を生成するモードです。「白い部屋の中を光が差し込む映像」のように、言葉で映像を指示できます。

img2video(画像から動画) は、1枚の静止画をもとに動画を生成するモードです。2025年3月6日にTencentが公式リリースし、ComfyUIでもDay-1でネイティブ対応しました。実用仕様は最大720p / 24fps / 最長5秒で、元画像の質感や色彩を維持したまま動きを加えられるため、建築CGパースを動画化する用途にも向いています(2026年4月現在)。

また、Tencentは公式にLoRA(軽量な追加学習ファイル)学習コードも提供しており、髪の成長やオブジェクトの変形といった特殊効果をカスタム学習できます。実用性の観点では、img2videoモードがとくに扱いやすい選択肢として挙げられます。既存の建築パース画像をそのまま活かせるため、制作コストを大幅に削減できる利点があります。

ComfyUIでHunyuanVideoを使う準備

ComfyUIはHunyuanVideoをネイティブサポートしており、追加プラグインなしで利用を開始できます(2026年4月現在)。大規模モデルですが、ComfyUI v0.3.10以降に搭載されたtemporal tilingのおかげで、VRAM要件は以前より大幅に下がっています。

必要なVRAMとGPU要件

HunyuanVideoのVRAM要件は、使用するモデル形式によって大きく変わります。以下は2026年4月現在の目安です。

モデル形式必要VRAM目安特徴
フルモデル(BF16)60〜80GB最高品質、業務用GPU向け
FP8版16〜24GB品質と軽さのバランスが良い
GGUF(軽量化された量子化形式)Q6版10〜14GB中級ゲーミングPC向け
GGUF Q4版8〜10GB8GB VRAM環境でも動作可能

フルモデルはH100やA100といった業務用GPUが前提です。一般ユーザーにはFP8版またはGGUF版が扱いやすい選択肢です。RTX 4070以上(VRAM 12GB以上)であればGGUF Q6版、RTX 3060やRTX 4060など8GB VRAM環境ならGGUF Q4版が適しています。

VRAM不足に悩んでいる方は、ComfyUIのVRAM最適化テクニックも参考にしてみてください。CPUオフロードやtemporal tilingといった手法を組み合わせれば、さらに少ないVRAMでも動作させられます。

モデルのダウンロードと配置

ComfyUIでHunyuanVideoを使うには、以下のモデルファイルが必要です。

  • HunyuanVideo本体: hunyuan_video_t2v_720p_bf16.safetensors(Comfy-Org公式のrepackaged版)
  • テキストエンコーダー: CLIP(テキストを数値化する処理、clip_l)とLLaVA(llava_llama3_fp8)
  • VAE: HunyuanVideo専用VAE(画像と潜在表現を相互変換する処理)

モデルファイルはHugging Faceからダウンロードし、本体はComfyUI/models/diffusion_models/、テキストエンコーダーはComfyUI/models/text_encoders/、VAEはComfyUI/models/vae/に配置します。Comfy-Org公式版を使う場合、カスタムノードの追加インストールは不要です。

GGUF版を使いたい場合は、city96氏のComfyUI-GGUFプラグインを別途インストールしてください。より高機能なカスタマイズが必要な場合は、kijai氏のComfyUI-HunyuanVideoWrapperという選択肢もあります。まずはネイティブ対応のComfy-Org版から試すのが導入の手戻りが少なく扱いやすい進め方です。

ComfyUIでのHunyuanVideoワークフロー構築手順

ここからは、実際にComfyUIでHunyuanVideoのワークフローを組み立てる手順を説明します。ComfyUIでは、Native / GGUF / FP8の3系統のワークフローがあり、VRAM環境に応じて選べます。

txt2video(テキストから動画生成)の設定

txt2videoワークフローの基本構成は、以下のノードで成り立っています。

  • Load Diffusion Model: HunyuanVideoモデルを読み込む
  • CLIP Text Encode: テキストプロンプトを入力する
  • EmptyHunyuanLatentVideo: 出力動画の解像度とフレーム数を設定する
  • KSampler(画像生成の中核ノード): サンプリング処理を実行する
  • VAE Decode: ラテント空間から映像に変換する

主な設定パラメータは次のとおりです。

  • 解像度: 幅848×高さ480が標準(VRAM 12〜16GBの場合)
  • フレーム数: 25フレーム(約1秒)から始め、VRAMに余裕があれば49〜97フレームに増やす
  • ステップ数: 30が標準。品質とのバランスで20〜50の範囲で調整
  • Guidance Scale: 6.0が推奨。値を上げるとプロンプトへの忠実度が上がるが、映像が不自然になる場合もある

プロンプトは英語で記述するのが効果的です。被写体の動きや光の状態を具体的に書くと、意図した映像に近づきやすくなります。

img2video(画像から動画生成)の設定

img2videoでは、参照画像を入力として動画を生成します。基本的なワークフロー構成はtxt2videoと似ていますが、画像入力用のノードが追加されます。

  • Load Image: 参照画像を読み込む
  • Load Diffusion Model: HunyuanVideo I2Vモデルを読み込む
  • HunyuanImageEncode: 参照画像をラテント空間にエンコードする
  • KSampler: サンプリング処理を実行する
  • VAE Decode: 映像に変換する

参照画像の質が出力動画の品質を大きく左右します。高解像度で構図が明確な画像を用意しましょう。最大720p / 24fps / 最長5秒までの動画を生成できます(2026年4月現在)。

ComfyUIの画像から動画生成ガイドでは、img2videoの基本的な考え方やほかのモデルとの比較も解説しています。

GGUF・FP8による軽量化の方法

VRAMが限られている環境では、量子化モデルを活用して動作させましょう。VRAM別の推奨は以下のとおりです。

VRAM容量推奨モデル形式備考
8GBGGUF Q45Gビルドやtemporal tilingの併用が前提
12GBGGUF Q6画質と速度のバランスが良い
16GBFP8版画質低下がわずかで扱いやすい
24GB以上Native(FP8またはBF16)画質優先の本番用途

FP8版の導入方法: Comfy-Org公式のFP8 repackaged版をダウンロードし、通常のモデルと同じフォルダに配置するだけで使えます。品質の低下はごくわずかで、VRAM使用量を大幅に削減できます。

GGUF版の導入方法: city96氏が公開しているGGUF版モデルを使用します。ComfyUI-GGUFプラグインのインストールが必要ですが、8GB程度のVRAMでも動画生成が可能になります。

また、ComfyUI v0.3.10以降に標準搭載されたtemporal tilingにより、VRAM要件は以前の60GB超から8GB台へと劇的に下がりました。さらに軽量化を進めたい場合は、TeaCacheによる高速化も有効で、生成時間を約75%に短縮できます。

まずGGUF版でプロンプトや構図を検証し、最終出力だけFP8版やフルモデルに切り替えるワークフローが、試行錯誤のコストを抑えやすい進め方です。ラフスケッチで方向性を決めてから清書に入るのと同じ順序で組み立てると、時間とリソースの両方が節約できます。

HunyuanVideoとWanの使い分け

ComfyUIで動画生成を行う場合、HunyuanVideoとWan 2.1は代表的な選択肢です(2026年4月現在)。それぞれの強みを理解して使い分けましょう。

比較項目HunyuanVideoWan 2.1
パラメータ数13B1.3B〜14B
フレームレート24fps16fps
得意分野人物描写、多人数シーン、プロンプト追従性質感表現、モーションの滑らかさ
VRAM下限(量子化時)8GB(GGUF Q4)8.19GB
生成速度やや遅め比較的速い
ComfyUI対応ネイティブ対応ネイティブ対応

品質重視ならHunyuanVideo を選んでください。人物が登場する動画では、顔の表情や手指の描写精度、プロンプトへの追従性でHunyuanVideoが優位です。群衆シーンや対話シーンなど、複数人物が絡む映像にも強みがあります。24fpsで生成できるため、動きのなめらかさでも有利です。

質感・手軽さ重視ならWan 2.1 が扱いやすい選択肢です。VRAM要件が近い一方で、テクスチャや自然な動きの表現に定評があり、生成速度も比較的速いため、アイデアの検証やラフ動画の量産に向いています。

実務では、建築ビジュアルの動画化にHunyuanVideoを第一候補として検討する価値があります。建物の外観パースに人物を配置した映像など、品質が直接クライアントの印象を左右するケースでは、HunyuanVideoの描写力が活きるためです。

ComfyUIでWan動画を生成する方法では、Wanモデルの具体的な使い方を解説しています。両モデルを比較しながら最適なワークフローを見つけてみてください。

まとめ

HunyuanVideoは、Tencentが開発した13Bパラメータの大規模動画生成モデルです。ComfyUIにネイティブ対応しており、txt2videoとimg2videoの両方を追加プラグインなしで利用できます。img2videoは2025年3月6日に公式リリースされ、Day-1でComfyUI対応している点も見逃せないポイントです。

VRAM要件はフルモデルで60GB以上と高いですが、ComfyUI v0.3.10以降のtemporal tilingとGGUF Q4版を組み合わせれば、8GB程度のVRAMでも動作します。FP8版なら品質と軽さのバランスが取れるため、RTX 4070以上のGPUを持つ方は、まずFP8版から試してみてください。

人物の顔や手の描写、複数人物が登場するシーンの整合性、プロンプト追従性では、オープンソースモデルの中でトップクラスの品質です(2026年4月現在)。質感や手軽さを重視する場合はWan 2.1も選択肢に入りますが、クライアント向けの映像など品質が求められる場面ではHunyuanVideoが適しています。