Skip to content
Draft
Show file tree
Hide file tree
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
12 changes: 8 additions & 4 deletions docs.json
Original file line number Diff line number Diff line change
Expand Up @@ -266,7 +266,8 @@
"tutorials/video/wan/fun-control",
"tutorials/video/wan/fun-camera",
"tutorials/video/wan/fun-inp",
"tutorials/video/wan/wan-flf"
"tutorials/video/wan/wan-flf",
"tutorials/video/wan/wan-infinitetalk"
]
}
]
Expand Down Expand Up @@ -2449,7 +2450,8 @@
"zh/tutorials/video/wan/fun-control",
"zh/tutorials/video/wan/fun-camera",
"zh/tutorials/video/wan/fun-inp",
"zh/tutorials/video/wan/wan-flf"
"zh/tutorials/video/wan/wan-flf",
"zh/tutorials/video/wan/wan-infinitetalk"
]
}
]
Expand Down Expand Up @@ -4637,7 +4639,9 @@
"ja/tutorials/video/wan/fun-control",
"ja/tutorials/video/wan/fun-camera",
"ja/tutorials/video/wan/fun-inp",
"ja/tutorials/video/wan/wan-flf"
"ja/tutorials/video/wan/wan-flf",
"ja/tutorials/video/wan/wan-infinitetalk",
"ko/tutorials/video/wan/wan-infinitetalk"
]
}
]
Expand Down Expand Up @@ -6854,4 +6858,4 @@
"destination": "/zh/:slug*"
}
]
}
}
122 changes: 122 additions & 0 deletions ja/tutorials/video/wan/wan-infinitetalk.mdx
Original file line number Diff line number Diff line change
@@ -0,0 +1,122 @@
---
title: "ComfyUI Wan2.1 InfiniteTalk ワークフロー例"
description: "InfiniteTalk は Wan2.1 をベースとした音声駆動型フルボディ動画ダビングモデルです。入力音声に合わせてキャラクターのリップシンクと身体動作を自動的に同期します。"
sidebarTitle: "InfiniteTalk"
---

import UpdateReminder from '/snippets/ja/tutorials/update-reminder.mdx'

**Wan2.1 InfiniteTalk** は、Comfy Org と Wan コミュニティの協力により開発された、Wan2.1 ベースのオープンソース音声駆動型動画生成モデルです。1枚の参照画像と音声入力から、全身が話す動画を生成できます——キャラクターの口の動きや身体動作が、入力された音声に自動的に同期します。

**主な特徴**:
- **音声駆動リップシンク** — 入力音声に合わせた自然な口の動きを生成
- **フルボディモーション** — 元のアイデンティティ、背景、カメラの動きを保持しながら同期した身体動作を追加
- **デュアルモード** — 単一キャラクターと複数キャラクターの両方に対応
- **ComfyUI ネイティブ** — `WanInfiniteTalkToVideo` ノードが組み込まれており、カスタムノードは不要

**関連リンク**:
- [Wan2.1 コードリポジトリ](https://github.com/Wan-Video/Wan2.1)
- [Wan2.1 モデルリポジトリ](https://huggingface.co/Wan-AI)

<Card title="Subgraph について" icon="book-open" href="/ja/interface/features/subgraph">
このワークフローは Subgraph ノードを使用してモジュール処理を行っています。Subgraph のドキュメントを確認して、ワークフローのカスタマイズと拡張方法を学んでください。
</Card>

## InfiniteTalk 画像から動画へのワークフロー

<CardGroup cols={2}>
<Card title="Comfy Cloud で実行" icon="cloud" href="https://cloud.comfy.org/?template=video_wan2_1_infinitetalk&utm_source=docs&utm_medium=referral&utm_campaign=wan2-1-infinitetalk">
Comfy Cloud で開く
</Card>
<Card title="ワークフローをダウンロード" icon="download" href="https://github.com/Comfy-Org/workflow_templates/blob/main/templates/video_wan2_1_infinitetalk.json">
JSON をダウンロードするか、テンプレートライブラリで "InfiniteTalk" を検索
</Card>
</CardGroup>

![Wan2.1 InfiniteTalk ワークフロー](https://raw.githubusercontent.com/Comfy-Org/workflow_templates/main/templates/video_wan2_1_infinitetalk-1.webp)

<UpdateReminder />

## モデルのインストール

以下のモデルをダウンロードし、正しいディレクトリに配置してください。

**diffusion_models**

- [Wan2_1-I2V-14B-480p_fp8_e4m3fn_scaled_KJ.safetensors](https://huggingface.co/Kijai/WanVideo_comfy_fp8_scaled/resolve/main/I2V/Wan2_1-I2V-14B-480p_fp8_e4m3fn_scaled_KJ.safetensors)

**text_encoders**

- [umt5_xxl_fp8_e4m3fn_scaled.safetensors](https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/resolve/main/split_files/text_encoders/umt5_xxl_fp8_e4m3fn_scaled.safetensors)

**model_patches**

- [wan2.1_infiniteTalk_single_fp16.safetensors](https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/resolve/main/split_files/model_patches/wan2.1_infiniteTalk_single_fp16.safetensors) — 単一キャラクター向け
- [wan2.1_infiniteTalk_multi_fp16.safetensors](https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/resolve/main/split_files/model_patches/wan2.1_infiniteTalk_multi_fp16.safetensors) — 複数キャラクター向け

**audio_encoders**

- [wav2vec2-chinese-base_fp16.safetensors](https://huggingface.co/Kijai/wav2vec2_safetensors/resolve/main/wav2vec2-chinese-base_fp16.safetensors)

**vae**

- [Wan2_1_VAE_bf16.safetensors](https://huggingface.co/Kijai/WanVideo_comfy/resolve/main/Wan2_1_VAE_bf16.safetensors)

**loras**

- [lightx2v_I2V_14B_480p_cfg_step_distill_rank64_bf16.safetensors](https://huggingface.co/Kijai/WanVideo_comfy/resolve/main/Lightx2v/lightx2v_I2V_14B_480p_cfg_step_distill_rank64_bf16.safetensors)

### モデルの保存場所

```
📂 ComfyUI/
├── 📂 models/
│ ├── 📂 diffusion_models/
│ │ └── Wan2_1-I2V-14B-480p_fp8_e4m3fn_scaled_KJ.safetensors
│ ├── 📂 text_encoders/
│ │ └── umt5_xxl_fp8_e4m3fn_scaled.safetensors
│ ├── 📂 model_patches/
│ │ ├── wan2.1_infiniteTalk_single_fp16.safetensors
│ │ └── wan2.1_infiniteTalk_multi_fp16.safetensors
│ ├── 📂 audio_encoders/
│ │ └── wav2vec2-chinese-base_fp16.safetensors
│ ├── 📂 vae/
│ │ └── Wan2_1_VAE_bf16.safetensors
│ └── 📂 loras/
│ └── lightx2v_I2V_14B_480p_cfg_step_distill_rank64_bf16.safetensors
```

### サンプル入力ファイル

以下のサンプルファイルをダウンロードし、対応するノードにドラッグしてください。

<CardGroup cols={2}>
<Card title="サンプル画像をダウンロード" icon="image" href="https://raw.githubusercontent.com/Comfy-Org/workflow_templates/main/input/two_character_talking.png">
キャラクター参照画像
</Card>
<Card title="スピーカー1 音声をダウンロード" icon="music" href="https://raw.githubusercontent.com/Comfy-Org/workflow_templates/main/input/audio_speaker1_woman.mp3">
キャラクター1 用音声
</Card>
<Card title="スピーカー2 音声をダウンロード" icon="music" href="https://raw.githubusercontent.com/Comfy-Org/workflow_templates/main/input/audio_speaker2_man.mp3">
キャラクター2 用音声
</Card>
</CardGroup>

## ワークフローの手順

1. **入力画像を読み込む** — キャラクター参照画像を `Load Image` ノードにドラッグします。複数キャラクターの場合は、Mask Editor を使用して各キャラクターのマスクを作成します。
2. **音声トラックを読み込む** — 音声ファイルを `Load Audio` ノードに接続します(キャラクターごとに1つ)。
3. **拡散モデルを読み込む** — `Load Diffusion Model` ノードが `Wan2_1-I2V-14B-480p_fp8_e4m3fn_scaled_KJ.safetensors` を使用していることを確認します。
4. **モデルパッチを読み込む** — `ModelPatchLoader` ノードで適切な InfiniteTalk パッチ(単一または複数キャラクター用)を読み込みます。
5. **InfiniteTalk を設定する** — `WanInfiniteTalkToVideo` ノードのパラメータ(動画の長さ、動作の大きさなど)を調整します。
6. **生成する** — ワークフローを実行します。モデルは入力音声に同期した全身話し動画を生成します。

### 動画の長さを延長する

各 **Video Extend** グループは、動画を約 3.24 秒(25fps で 81 フレーム)延長します。音声が長い場合は、以下の手順で対応できます:

1. "Video Extend" グループを範囲選択します
2. `Ctrl-C`(コピー)、次に `Ctrl-Shift-V`(接続ごとペースト)を押します
3. `Batch Images` ノードの `IMAGE` 出力を新しい `WanInfiniteTalkToVideo` ノードの `previous_frames` に接続します
4. `Batch Images` ノードの `IMAGE` 出力を新しい `Batch Images` ノードの `images` に接続します
5. 前のグループの `WanInfiniteTalkToVideo` 出力と新しいグループの `VAEDecode` 入力の間の接続を調整します
122 changes: 122 additions & 0 deletions ko/tutorials/video/wan/wan-infinitetalk.mdx
Original file line number Diff line number Diff line change
@@ -0,0 +1,122 @@
---
title: "ComfyUI Wan2.1 InfiniteTalk 워크플로우 예제"
description: "InfiniteTalk은 Wan2.1 기반의 오디오 기반 전신 비디오 더빙 모델로, 입력 오디오에 맞춰 캐릭터 립싱크 및 신체 움직임 동기화를 가능하게 합니다"
sidebarTitle: "InfiniteTalk"
---

import UpdateReminder from '/snippets/ko/tutorials/update-reminder.mdx'

**Wan2.1 InfiniteTalk**는 Comfy Org에서 Wan 커뮤니티와 협력하여 개발한, Wan2.1 기반의 오픈소스 오디오 기반 비디오 생성 모델입니다. 단일 참조 이미지와 오디오 입력으로 전신 토킹 비디오를 생성할 수 있습니다 — 캐릭터의 입 움직임과 신체 동작이 제공된 오디오에 맞춰 자동으로 동기화됩니다.

**주요 기능**:
- **오디오 기반 립싱크** — 입력 오디오에 맞는 자연스러운 입 움직임 생성
- **전신 모션** — 신원, 배경 및 카메라 움직임을 유지하면서 동기화된 신체 동작 추가
- **이중 모드** — 단일 캐릭터 및 다중 캐릭터 시나리오 모두 지원
- **ComfyUI 네이티브** — 내장 `WanInfiniteTalkToVideo` 노드, 사용자 정의 노드 불필요

**관련 링크**:
- [Wan2.1 코드 저장소](https://github.com/Wan-Video/Wan2.1)
- [Wan2.1 모델 저장소](https://huggingface.co/Wan-AI)

<Card title="서브그래프 알아보기" icon="book-open" href="/ko/interface/features/subgraph">
이 워크플로우는 모듈식 처리를 위해 서브그래프 노드를 사용합니다. 서브그래프 문서를 확인하여 워크플로우를 사용자 정의하고 확장하는 방법을 알아보세요.
</Card>

## InfiniteTalk 이미지-투-비디오 워크플로우

<CardGroup cols={2}>
<Card title="Comfy Cloud에서 실행" icon="cloud" href="https://cloud.comfy.org/?template=video_wan2_1_infinitetalk&utm_source=docs&utm_medium=referral&utm_campaign=wan2-1-infinitetalk">
Comfy Cloud 열기
</Card>
<Card title="워크플로우 다운로드" icon="download" href="https://github.com/Comfy-Org/workflow_templates/blob/main/templates/video_wan2_1_infinitetalk.json">
JSON 다운로드 또는 템플릿 라이브러리에서 "InfiniteTalk" 검색
</Card>
</CardGroup>

![Wan2.1 InfiniteTalk 워크플로우 미리보기](https://raw.githubusercontent.com/Comfy-Org/workflow_templates/main/templates/video_wan2_1_infinitetalk-1.webp)

<UpdateReminder />

## 모델 설치

다음 모델을 다운로드하여 올바른 디렉토리에 배치해야 합니다:

**diffusion_models**

- [Wan2_1-I2V-14B-480p_fp8_e4m3fn_scaled_KJ.safetensors](https://huggingface.co/Kijai/WanVideo_comfy_fp8_scaled/resolve/main/I2V/Wan2_1-I2V-14B-480p_fp8_e4m3fn_scaled_KJ.safetensors)

**text_encoders**

- [umt5_xxl_fp8_e4m3fn_scaled.safetensors](https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/resolve/main/split_files/text_encoders/umt5_xxl_fp8_e4m3fn_scaled.safetensors)

**model_patches**

- [wan2.1_infiniteTalk_single_fp16.safetensors](https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/resolve/main/split_files/model_patches/wan2.1_infiniteTalk_single_fp16.safetensors) — 단일 캐릭터 시나리오용
- [wan2.1_infiniteTalk_multi_fp16.safetensors](https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/resolve/main/split_files/model_patches/wan2.1_infiniteTalk_multi_fp16.safetensors) — 다중 캐릭터 시나리오용

**audio_encoders**

- [wav2vec2-chinese-base_fp16.safetensors](https://huggingface.co/Kijai/wav2vec2_safetensors/resolve/main/wav2vec2-chinese-base_fp16.safetensors)

**vae**

- [Wan2_1_VAE_bf16.safetensors](https://huggingface.co/Kijai/WanVideo_comfy/resolve/main/Wan2_1_VAE_bf16.safetensors)

**loras**

- [lightx2v_I2V_14B_480p_cfg_step_distill_rank64_bf16.safetensors](https://huggingface.co/Kijai/WanVideo_comfy/resolve/main/Lightx2v/lightx2v_I2V_14B_480p_cfg_step_distill_rank64_bf16.safetensors)

### 모델 저장 위치

```
📂 ComfyUI/
├── 📂 models/
│ ├── 📂 diffusion_models/
│ │ └── Wan2_1-I2V-14B-480p_fp8_e4m3fn_scaled_KJ.safetensors
│ ├── 📂 text_encoders/
│ │ └── umt5_xxl_fp8_e4m3fn_scaled.safetensors
│ ├── 📂 model_patches/
│ │ ├── wan2.1_infiniteTalk_single_fp16.safetensors
│ │ └── wan2.1_infiniteTalk_multi_fp16.safetensors
│ ├── 📂 audio_encoders/
│ │ └── wav2vec2-chinese-base_fp16.safetensors
│ ├── 📂 vae/
│ │ └── Wan2_1_VAE_bf16.safetensors
│ └── 📂 loras/
│ └── lightx2v_I2V_14B_480p_cfg_step_distill_rank64_bf16.safetensors
```

### 샘플 입력 파일

다음 샘플 입력 파일을 다운로드하여 해당 노드에 드래그하세요:

<CardGroup cols={2}>
<Card title="샘플 이미지 다운로드" icon="image" href="https://raw.githubusercontent.com/Comfy-Org/workflow_templates/main/input/two_character_talking.png">
캐릭터 참조 이미지
</Card>
<Card title="스피커 1 오디오 다운로드" icon="music" href="https://raw.githubusercontent.com/Comfy-Org/workflow_templates/main/input/audio_speaker1_woman.mp3">
캐릭터 1용 오디오 트랙
</Card>
<Card title="스피커 2 오디오 다운로드" icon="music" href="https://raw.githubusercontent.com/Comfy-Org/workflow_templates/main/input/audio_speaker2_man.mp3">
캐릭터 2용 오디오 트랙
</Card>
</CardGroup>

## 워크플로우 단계

1. **입력 이미지 로드** — 캐릭터 참조 이미지를 `Load Image` 노드에 드래그합니다. 다중 캐릭터 시나리오의 경우 마스크 편집기를 사용하여 각 캐릭터의 마스크를 그립니다.
2. **오디오 트랙 로드** — 오디오 파일을 `Load Audio` 노드에 연결합니다 (캐릭터당 하나).
3. **확산 모델 로드** — `Load Diffusion Model` 노드가 `Wan2_1-I2V-14B-480p_fp8_e4m3fn_scaled_KJ.safetensors`를 사용하는지 확인합니다.
4. **모델 패치 로드** — `ModelPatchLoader` 노드를 통해 적절한 InfiniteTalk 패치(`single` 또는 `multi` 변형)를 로드합니다.
5. **InfiniteTalk 구성** — `WanInfiniteTalkToVideo` 노드 매개변수(비디오 길이, 모션 양 등)를 조정합니다.
6. **생성** — 워크플로우를 실행합니다. 모델이 입력 오디오와 동기화된 전신 토킹 비디오를 생성합니다.

### 비디오 길이 확장

각 **Video Extend** 그룹은 비디오를 약 3.24초(25fps에서 81프레임) 연장합니다. 오디오가 더 긴 경우:

1. "Video Extend" 그룹을 박스 선택
2. `Ctrl-C`(복사)를 누른 다음 `Ctrl-Shift-V`(연결하여 붙여넣기)
3. `Batch Images` 노드의 `IMAGE` 출력을 새 `WanInfiniteTalkToVideo` 노드의 `previous_frames`에 연결
4. `Batch Images` 노드의 `IMAGE` 출력을 새 `Batch Images` 노드의 `images`에 연결
5. 이전 그룹의 `WanInfiniteTalkToVideo` 출력과 새 그룹의 `VAEDecode` 입력 간의 연결 조정
Loading
Loading