ComfyUI _ Wan 2.1모델: Text 2 Video / Img to Video

티스토리 뷰

AI/Generate img

ComfyUI _ Wan 2.1모델: Text 2 Video / Img to Video

잉_민 2025. 2. 28. 22:44

728x90

https://comfyanonymous.github.io/ComfyUI_examples/wan/

Wan 2.1 Models

Examples of ComfyUI workflows

comfyanonymous.github.io

🔍 WAN 모델이란?

WAN 모델은 이미지 → 비디오 변환 (I2V, Image-to-Video) 모델로, 정적인 이미지를 기반으로 움직이는 비디오를 생성하는 AI 모델이다.
ComfyUI에서 비디오 생성용 Diffusion 모델을 테스트하고 싶다면 WAN 모델을 사용할 수 있다.

ComfyUI에서 Wan 2.1 모델 사용하기

1. Download

- Text encoder and VAE:

umt5_xxl_fp8_e4m3fn_scaled.safetensors goes in: ComfyUI/models/text_encoders/

wan_2.1_vae.safetensors goes in: ComfyUI/models/vae/

- Video Models

The diffusion models can be found here

These files go in: ComfyUI/models/diffusion_models/

(나는 i2v 720 14b bf16) image to video , 720 뽑히는 버전으로 받았다.

Image to Video

This workflow requires the wan2.1_i2v_480p_14B_bf16.safetensors file (put it in: ComfyUI/models/diffusion_models/) and clip_vision_h.safetensors which goes in: ComfyUI/models/clip_vision/

얘는 480 사이즈

Note this example only generates 33 frames at 512x512 because I wanted it to be accessible, the model can do more than that. The 720p model is pretty good if you have the hardware/patience to run it.

1️⃣ WAN 모델의 특징

✅ WAN 모델 (WAN 2.1)의 핵심 기능

정지된 이미지(사진)로부터 자연스러운 움직임을 가진 비디오 생성
짧은 길이 (33 프레임)에서 더 긴 비디오 생성까지 확장 가능
기존 Diffusion 기반 비디오 모델보다 더 자연스러운 움직임과 프레임 일관성 유지

➡️ WAN 모델은 **Static Image(고정 이미지)**를 기반으로 움직이는 요소를 추가하여 비디오를 생성하는 데 특화됨.

2️⃣ WAN 모델을 ComfyUI에서 사용할 때 필요한 파일

WAN 모델을 테스트하려면 다음 파일을 다운로드하고 올바른 폴더에 배치해야 한다.

✅ 필수 파일

파일 이름역할저장 경로

wan2.1_i2v_480p_14B_bf16.safetensors	WAN 모델 자체 (Diffusion 모델)	ComfyUI/models/diffusion_models/
clip_vision_h.safetensors	비디오 생성 시 이미지 분석	ComfyUI/models/clip_vision/
umt5_xxl_fp8_e4m3fn_scaled.safetensors	텍스트 인코더	ComfyUI/models/text_encoders/
wan_2.1_vae.safetensors	VAE (색감 & 디테일 개선)	ComfyUI/models/vae/

https://www.youtube.com/watch?v=SG7ffQZslIw

📌WAN 모델과 다른 Diffusion 모델 비교

모델역할특징

Stable Diffusion 1.5 / SDXL	이미지 생성	정적인 이미지 생성 (비디오 불가)
Flux	경량 이미지 생성	VRAM 최적화된 Diffusion 모델 (비디오 불가)
WAN 2.1	이미지 → 비디오 변환	정지 이미지를 기반으로 비디오 생성 가능

📌 SDXL (Stable Diffusion XL)란?

SDXL (Stable Diffusion XL)은 Stability AI에서 개발한 Stable Diffusion 모델의 최신 확장 버전

1024x1024 해상도

LoRA 및 ControlNet 지원

SDXL은 LoRA(소형 학습 모델) 및 ControlNet(포즈 컨트롤, 스케치 적용 등)과 함께 사용할 수 있어 커스터마이징 강력

📌 SDXL을 사용할 때 필요한 것

SDXL Base 모델 (sd_xl_base_1.0.safetensors)
→ 기본적인 이미지를 생성하는 모델.
SDXL Refiner 모델 (sd_xl_refiner_1.0.safetensors) (선택 사항)
→ 이미지를 더욱 세밀하게 다듬고 고품질로 만들어주는 후처리 모델.
VAE (선택 사항)
→ SDXL에 최적화된 VAE를 추가로 적용하면 색감과 디테일이 더 좋아질 수 있음.

🚀 SDXL 모델 다운로드 방법

Hugging Face: https://huggingface.co/stabilityai
CivitAI: https://civitai.com

📌 Diffusion 모델 : SDXL과 Flux 모델

:둘이 서로 다른 Diffusion 모델이므로 둘중 하나 선택해서 사용.

(Diffusion 모델은 이미지 자체를 생성하는 AI 모델)

✅ SDXL (Stable Diffusion XL)

Stability AI에서 개발한 대형 Diffusion 모델.
1024x1024 해상도 기본 지원으로 기존 모델보다 뛰어난 품질을 제공.
Base 및 Refiner 모델로 구성됨.

✅ Flux (by Black Forest Labs)

Flux는 Black Forest Labs에서 개발한 Diffusion 모델 패밀리.
ComfyUI에 최적화된 경량 모델들이 제공됨.
FP8 버전이 있어 VRAM 사용량을 줄이면서도 높은 품질 유지 가능.
Flux Dev는 개발 버전으로, 새로운 기능이 추가될 수 있음.

https://github.com/black-forest-labs/flux

GitHub - black-forest-labs/flux: Official inference repo for FLUX.1 models

Official inference repo for FLUX.1 models. Contribute to black-forest-labs/flux development by creating an account on GitHub.

github.com

1️⃣ 모델기본 Text Encoder

SDXL

t5xxl_fp16.safetensors

Flux

umt5_xxl_fp8_e4m3fn_scaled.safetensors

2️⃣ VAE (Variational Autoencoder)모델

(VAE는 이미지의 디테일과 색감을 조정하는 역할 : 색감, 명암, 해상도 향상)

SDXL

sdxl_vae.safetensors (추천)

Flux

wan_2.1_vae.safetensors

🔍 clip_vision_h.safetensors가 무엇인가?

clip_vision_h.safetensors는 CLIP (Contrastive Language-Image Pretraining) 모델의 Vision Encoder 부분이다.

CLIP (Contrastive Language-Image Pretraining)은 OpenAI에서 개발한 모델로, 이미지와 텍스트를 연결하는 역할을 한다.

🔍 LoRA(로라) 모델이란?

✅ LoRA (Low-Rank Adaptation)는 특정 스타일이나 캐릭터를 추가 학습하는 작은 모델
✅ 기존 Diffusion 모델(WAN, SDXL 등)에 추가적으로 적용하는 방식
✅ 메모리 사용량이 적고 빠르게 로드 가능

➡️ 즉, LoRA는 "추가적인 학습 데이터"를 기존 모델에 결합하는 역할을 한다.
➡️ WAN 모델 + LoRA를 결합하면 특정 스타일의 비디오를 생성할 수 있다!

모델 유형	역할	적용 방식
Diffusion 모델 (WAN, SDXL 등)	이미지를 생성 (WAN은 비디오 생성)	필수
VAE	색감, 디테일 개선	선택 사항 (품질 향상 가능)
LoRA	스타일 및 캐릭터 추가	선택 사항 (개성 있는 결과물 생성 가능)

➡️ Diffusion 모델은 기본적인 구조, VAE는 품질 향상, LoRA는 스타일을 추가하는 역할!
➡️ WAN 모델에 LoRA를 추가하면 비디오의 스타일을 더욱 강하게 커스터마이징 가능!

728x90

저작자표시 (새창열림)

'AI > Generate img' 카테고리의 다른 글

2025 AI 이미지 & 비디오 생성 모델, 사이트, 플랫폼 (계속 추가됨 ...) (0)	2025.03.02
Floar_ai 노드 형식 이미지 제너레이터 (0)	2025.03.02
Comfy UI : ControNet확장 _depth/Scribble (0)	2025.02.26
미드져니 Midjurney _ AI_ text to img / img to img (0)	2025.01.15
Comfy UI _ AI_ LTXVideo / Hunyuan Video Model (0)	2025.01.15

250x250

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2025/11 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

글 보관함

티스토리 뷰