🎬 Workflow ComfyUI: Generación de Video con Self-Forcing + IPAdapter

📋 Descripción General

Este workflow de ComfyUI implementa un pipeline completo para la generación de videos de alta calidad utilizando técnicas avanzadas de difusión, condicionamiento visual mediante IPAdapter, interpolación de frames con RIFE, y upscaling con modelos especializados.

🤖 Modelos Utilizados

Tipo	Modelo	Descripción
UNET	`self_forcing_dmd.pt`	Modelo de difusión Self-Forcing DMD para generación de video
CLIP Text	`umt5_xxl_fp8_e4m3fn_scaled.safetensors`	Encoder de texto WAN (UMT5-XXL) en formato FP8
CLIP Vision	`clip_vision_h.safetensors`	Encoder visual para procesamiento de imágenes de referencia
IPAdapter	`ip-adapter_sd15.safetensors`	Adaptador para inyección de características visuales
VAE	`wan_2.1_vae.safetensors`	Autoencoder variacional para decodificación de latentes
Upscaler	`4x-ClearRealityV1.pth`	Modelo de super-resolución 4x
Interpolación	`rife47.pth`	RIFE v4.7 para interpolación de frames

🔄 Pipeline Técnico

┌─────────────────┐
│ Imagen          │
│ Referencia      │
└────────┬────────┘
         │
         ▼
┌─────────────────┐      ┌──────────────┐
│ CLIP Vision     │─────▶│ IPAdapter    │
└─────────────────┘      └──────┬───────┘
                                │
         ┌──────────────────────┘
         │
         ▼
┌─────────────────┐      ┌──────────────┐
│ UNET            │◀─────│ CLIP Text    │
│ Self-Forcing    │      │ Encoder      │
└────────┬────────┘      └──────────────┘
         │
         ▼
┌─────────────────┐
│ KSampler        │
│ (LCM, 8 steps)  │
└────────┬────────┘
         │
         ▼
┌─────────────────┐
│ VAE Decode      │
└────────┬────────┘
         │
         ▼
┌─────────────────┐
│ RIFE VFI        │
│ (2x frames)     │
└────────┬────────┘
         │
         ▼
┌─────────────────┐
│ Upscale 4x      │
│ ClearReality    │
└────────┬────────┘
         │
         ▼
┌─────────────────┐
│ Resize Final    │
│ 1440×960        │
└────────┬────────┘
         │
         ▼
┌─────────────────┐
│ Export MP4      │
│ H.264/H.265     │
└─────────────────┘

⚙️ Configuración Detallada

1. Condicionamiento Visual (IPAdapter)

Nodo: IPAdapterClipVisionEnhancer

Imagen de referencia: Cargada desde LoadImage
Weight: 0.85 (influencia del 85% de la imagen de referencia)
Weight type: Linear
Combine embeds: Concat
Embeds scaling: V only
Enhance tiles: 1
Enhance ratio: 1.0

El IPAdapter permite inyectar características visuales de una imagen de referencia directamente en el proceso de generación, guiando el estilo y composición del video resultante.

2. Generación de Frames (Self-Forcing DMD)

Configuración del Latente:

Resolución base: 540×960 pixels
Frames iniciales: 41 frames
Batch size: 1

Model Sampling (SD3):

Shift: 8 (control de distribución temporal del ruido)

KSampler:

Seed: Randomize
Steps: 8 (optimizado para Self-Forcing DMD)
CFG: 1.0 (guidance scale mínimo)
Sampler: LCM (Latent Consistency Model)
Scheduler: Simple
Denoise: 1.0 (denoising completo)

Prompt de ejemplo:

A young man sits confidently and calmly on an ornate gold baroque-style throne
inside a modern, minimalist interior. He wears sleek urban clothing: a black
jacket, light gray t-shirt, black pants, and beige sneakers, along with dark
sunglasses that convey confidence, power, and control.

Behind him, through a large floor-to-ceiling window, a deep blue nighttime sky
is visible with palm trees in silhouette. A black blimp slowly drifts across
the sky, displaying a glowing white message: "THE WORLD IS YOURS…".

The camera starts with a centered medium frontal shot and performs a slow,
cinematic dolly-in toward the subject. Warm lighting highlights the gold details
of the throne, while cool blue lighting fills the exterior background, creating
a dramatic color contrast.

The atmosphere feels powerful, ambitious, and aspirational. The man remains still,
breathing calmly, while the blimp moves smoothly and the text glows subtly.
Cinematic style, ultra-realistic, shallow depth of field, professional lighting,
modern luxury aesthetic, epic tone, 4K quality, subtle motion blur, contemporary
dramatic film look.

3. Interpolación de Frames (RIFE)

Nodo: RIFE VFI

Modelo: rife47.pth
Clear cache after n frames: 8
Multiplier: 2x (duplica el número de frames)
Fast mode: Habilitado
Ensemble: Habilitado (mejora calidad)
Scale factor: 1.0

Resultado: 41 frames → 82 frames interpolados

La interpolación con RIFE genera frames intermedios usando redes neuronales, creando transiciones más suaves y fluidas en el video final.

4. Upscaling y Resize

Upscaling (4x):

Modelo: 4x-ClearRealityV1.pth
Resolución intermedia: 2160×3840 (4x de 540×960)

Resize Final:

Método: Bicubic
Resolución final: 1440×960
Crop: Center

Cálculo de dimensiones:

Width:  540 × 2 (upscale factor) = 1080 → resize → 1440
Height: 960 × 2 (upscale factor) = 1920 → resize → 960

5. Export de Video

Output 1 - Video Raw (16fps):

Formato: H.265 (HEVC) MP4
Frame rate: 16 fps
CRF: 22 (calidad alta)
Pixel format: yuv420p10le (10-bit)
Prefix: Self_forcing

Output 2 - Video Upscaled (24fps):

Formato: H.264 MP4
Frame rate: 24 fps
CRF: 19 (calidad muy alta)
Pixel format: yuv420p (8-bit)
Prefix: self_Forcing_upscale

🔧 Nodos Especializados

Gestión de Memoria

easy cleanGpuUsed: Limpia VRAM después de interpolación
LayerUtility: PurgeVRAM: Purga cache y modelos al finalizar
- purge_cache: true
- purge_models: true

Utilidades Matemáticas

SimpleMath+: Cálculo dinámico de dimensiones para upscaling
- Width: b * a (donde a = ancho base, b = factor)
- Height: a * b (donde a = altura base, b = factor)

📊 Especificaciones Técnicas

Parámetro	Valor Inicial	Valor Final
Resolución	540×960	1440×960
Frames	41	82 (post-RIFE)
Frame Rate	-	16fps (raw) / 24fps (upscaled)
Duración aprox.	-	~2.5s (raw) / ~3.4s (upscaled)
Formato	Latent	MP4 (H.264/H.265)

🎯 Características Destacadas

✅ Ventajas del Pipeline

Condicionamiento visual preciso mediante IPAdapter con CLIP Vision
Generación rápida con Self-Forcing DMD (solo 8 steps)
Interpolación neural para movimiento fluido
Upscaling de alta calidad con modelo especializado
Gestión automática de VRAM para prevenir OOM errors
Dual output (raw + upscaled) para comparación

🎨 Casos de Uso

Generación de videos cinematográficos cortos
Animación de imágenes estáticas con control de estilo
Prototipado rápido de conceptos visuales
Producción de contenido para redes sociales

📝 Notas Importantes

VRAM requerida: Mínimo 12GB recomendado (RTX 3060 o superior)
Tiempo de generación: ~2-5 minutos dependiendo de hardware
Prompt negativo: Vacío (el modelo Self-Forcing no lo requiere)
LoRA: Slot disponible en Power Lora Loader (actualmente deshabilitado)

🚀 Cómo Usar

Cargar imagen de referencia en el nodo LoadImage
Ajustar prompt en CLIP Text Encode (Positive Prompt)
Configurar dimensiones en nodos INTConstant (Width/Height/Length)
Ejecutar workflow (Queue Prompt)
Revisar outputs en carpeta ComfyUI/output/

🔗 Dependencias de Custom Nodes

comfy-core (v0.3.34)
comfyui-videohelpersuite
comfyui-frame-interpolation
comfyui-easy-use
comfyui_layerstyle
comfyui_essentials
rgthree-comfy
comfyui-kjnodes

📄 Licencia y Créditos

Workflow creado por: artmichel
Versión: v33
Fecha: Diciembre 2025

🐛 Troubleshooting

Error: Out of Memory

Reducir resolución base (ejemplo: 480×720)
Disminuir número de frames iniciales
Desactivar upscaling o RIFE

Frames con artefactos

Aumentar CFG (probar con 1.5-2.0)
Ajustar IPAdapter weight (probar 0.6-0.9)
Verificar calidad de imagen de referencia

Video demasiado rápido/lento

Ajustar frame_rate en nodos VHS_VideoCombine
Modificar número de frames iniciales
Cambiar multiplier de RIFE

¿Preguntas o mejoras? Contacto: artmichel@protonmail.ch

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
README.md		README.md
workflow_artmichel_v33.json		workflow_artmichel_v33.json

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

🎬 Workflow ComfyUI: Generación de Video con Self-Forcing + IPAdapter

📋 Descripción General

🤖 Modelos Utilizados

🔄 Pipeline Técnico

⚙️ Configuración Detallada

1. Condicionamiento Visual (IPAdapter)

2. Generación de Frames (Self-Forcing DMD)

3. Interpolación de Frames (RIFE)

4. Upscaling y Resize

5. Export de Video

🔧 Nodos Especializados

Gestión de Memoria

Utilidades Matemáticas

📊 Especificaciones Técnicas

🎯 Características Destacadas

✅ Ventajas del Pipeline

🎨 Casos de Uso

📝 Notas Importantes

🚀 Cómo Usar

🔗 Dependencias de Custom Nodes

📄 Licencia y Créditos

🐛 Troubleshooting

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Folders and files

Latest commit

History

Repository files navigation

🎬 Workflow ComfyUI: Generación de Video con Self-Forcing + IPAdapter

📋 Descripción General

🤖 Modelos Utilizados

🔄 Pipeline Técnico

⚙️ Configuración Detallada

1. Condicionamiento Visual (IPAdapter)

2. Generación de Frames (Self-Forcing DMD)

3. Interpolación de Frames (RIFE)

4. Upscaling y Resize

5. Export de Video

🔧 Nodos Especializados

Gestión de Memoria

Utilidades Matemáticas

📊 Especificaciones Técnicas

🎯 Características Destacadas

✅ Ventajas del Pipeline

🎨 Casos de Uso

📝 Notas Importantes

🚀 Cómo Usar

🔗 Dependencias de Custom Nodes

📄 Licencia y Créditos

🐛 Troubleshooting

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Packages