Dos hermanos construyen modelo de texto a video desde cero

📋

Datos Clave

Sahil y Manu, dos hermanos, dedicaron dos años a entrenar un modelo de texto a video completamente desde cero, lanzándolo bajo la licencia Apache 2.0.
El modelo de 2 mil millones de parámetros genera de 2 a 5 segundos de video a resolución 360p o 720p, con capacidades comparables al modelo Wan 2.1 1.3B de Alibaba.
El desarrollo se centró en gran medida en construir pipelines de curación efectivos, incluyendo el etiquetado manual de propiedades estéticas y el ajuste fino de VLMs para filtrado a gran escala.
El modelo utiliza T5 para codificación de texto, Wan 2.1 VAE para compresión y una arquitectura base variante de DiT entrenada con coincidencia de flujo.
Las fortalezas actuales incluyen estilos de dibujos animados, escenas de comida y naturaleza, y movimientos simples de personajes, mientras que la física compleja y el movimiento rápido siguen siendo un desafío.
Los hermanos ven esto como un paso hacia capacidades de vanguardia, con planes futuros para post-entrenamiento, destilación e integración de audio.

Resumen Rápido

Dos hermanos han completado un viaje de dos años para construir un modelo de texto a video completamente desde cero, lanzándolo como software de código abierto. El proyecto, liderado por Sahil y Manu, demuestra que los desarrolladores independientes pueden competir en el espacio de la IA avanzada sin los enormes recursos corporativos.

El modelo resultante contiene 2 mil millones de parámetros y puede generar clips de video cortos a partir de descripciones de texto. Si bien no afirma igualar el rendimiento de sistemas comerciales como Sora o Veo, los hermanos ven su trabajo como un paso crucial hacia capacidades de vanguardia.

El Viaje de Dos Años

Los hermanos comenzaron su trabajo a principios de 2024, lanzando su primer modelo en enero de ese año, antes de que OpenAI's Sora se hiciera noticia. Su lanzamiento inicial fue un bot GIF de 180p y 1 segundo que se construyó sobre Stable Diffusion XL. Sin embargo, rápidamente descubrieron limitaciones fundamentales al usar modelos basados en imágenes para la generación de video.

Los VAE de imágenes no entienden la coherencia temporal, y sin los datos de entrenamiento originales, es imposible hacer una transición suave entre las distribuciones de imagen y video. En algún momento, los hermanos determinaron que era mejor empezar de nuevo en lugar de intentar parchar soluciones existentes.

Su segunda versión representa una reconstrucción completa desde cero. El modelo utiliza:

T5 para codificación de texto
Wan 2.1 VAE para compresión
Una arquitectura base variante de DiT entrenada con coincidencia de flujo

Curiosamente, aunque construyeron su propio VAE temporal, finalmente usaron la versión más pequeña de Wan porque ofrecía un rendimiento equivalente mientras ahorraba costos de incrustación. Los hermanos se han comprometido a lanzar su VAE como código abierto pronto.

"No afirmamos haber alcanzado la frontera. Para nosotros, esto es un paso hacia SOTA: la prueba de que podemos entrenar estos modelos de extremo a extremo nosotros mismos."
— Sahil y Manu, Desarrolladores del Modelo

Arquitectura Técnica

El modelo genera 2-5 segundos de video a resolución 360p o 720p. En términos de tamaño de modelo, la comparación más cercana es el modelo Wan 2.1 1.3B de Alibaba, aunque los hermanos reportan que su modelo logra un captura de movimiento y estética significativamente mejores en sus pruebas.

La mayor parte de su tiempo de desarrollo no se dedicó a la arquitectura del modelo en sí, sino a construir pipelines de curación que realmente funcionan. Esto implicó el etiquetado manual de propiedades estéticas y el ajuste fino de Modelos de Visión-Lenguaje (VLMs) para filtrar datos de entrenamiento a gran escala.

Cuando se les preguntó sobre su enfoque, los hermanos explicaron su filosofía:

Los productos son extensiones de las capacidades del modelo subyacente. Si los usuarios quieren una característica que el modelo no admite, como consistencia de personajes, controles de cámara, edición, mapeo de estilos, etc., quedas atrapado. Para construir el producto que queremos, necesitamos actualizar el modelo mismo.

Esta perspectiva impulsa su decisión de poseer todo el proceso de desarrollo, a pesar de los significativos costos computacionales involucrados.

Capacidades y Limitaciones

El modelo demuestra fortalezas particulares en dominios específicos. A través de pruebas extensas, los hermanos identificaron qué funciona mejor:

Estilos de dibujos animados y animación
Escenas de comida y naturaleza
Movimientos simples de personajes

Sin embargo, el modelo aún enfrenta desafíos con escenarios más complejos. Las áreas que no funcionan bien incluyen:

Simulaciones de física compleja
Secuencias de movimiento rápido (gimnasia, baile)
Representación consistente de texto

Los hermanos son transparentes sobre la posición de su modelo en el panorama actual. Afirman explícitamente: "No afirmamos haber alcanzado la frontera". En cambio, ven este lanzamiento como una prueba de concepto que demuestra que pueden entrenar estos modelos de extremo a extremo por sí mismos.

¿Por Qué Construir Otro Modelo?

Con ofertas comerciales como Veo de Google y Sora de OpenAI ya disponibles, la decisión de los hermanos de construir desde cero podría parecer contraintuitiva. Su razonamiento se centra en el control del producto y la flexibilidad.

Cuando los modelos comerciales no admiten características específicas, los desarrolladores están limitados por lo que esos modelos pueden hacer. Los hermanos creen que para construir el producto que imaginan, necesitan actualizar el modelo mismo. Esto requiere poseer el proceso de desarrollo en lugar de depender de APIs externas.

Es una apuesta significativa que requiere recursos computacionales de GPU sustanciales y tiempo para dar frutos, pero creen que es la estrategia correcta a largo plazo. Su enfoque les permite:

Personalizar capacidades para casos de uso específicos
Iterar rápidamente en mejoras del modelo
Controlar toda la pila tecnológica
Construir características que los modelos comerciales no admiten

Hoja de Ruta Futura

Los hermanos han delineado una hoja de ruta clara para el desarrollo futuro. Sus prioridades inmediatas incluyen:

Post-entrenamiento para física y deformaciones
Destilación para optimización de velocidad
Integración de capacidades de audio
Escalado del modelo para mejorar el rendimiento

También han mantenido un "cuaderno de laboratorio" detallado de todos sus experimentos en Notion, que están dispuestos a compartir con otros interesados en los detalles técnicos de construir modelos de cero a uno.

El modelo se lanza bajo la licencia Apache 2.0, lo que lo hace disponible gratuitamente para uso comercial y no comercial. Este enfoque de código abierto se alinea con su objetivo de democratizar el acceso a capacidades avanzadas de IA.

Mirando Hacia Adelante

El lanzamiento de este modelo de 2 mil millones de parámetros representa más que un logro técnico: demuestra que los desarrolladores independientes pueden competir en el espacio de la IA avanzada con dedicación y recursos suficientes. El viaje de dos años de los hermanos, desde un bot GIF de 180p hasta un sofisticado modelo de texto a video, muestra lo que es posible con un esfuerzo enfocado.

Aunque el modelo aún no puede igualar el rendimiento de los gigantes comerciales, sirve como un paso hacia capacidades de vanguardia. El compromiso de los hermanos con el desarrollo de código abierto