M
MercyNews
Home
Back
Dos hermanos construyen modelo de texto a video desde cero
Tecnologia

Dos hermanos construyen modelo de texto a video desde cero

Hacker News7h ago
3 min de lectura
📋

Datos Clave

  • Sahil y Manu, dos hermanos, dedicaron dos años a entrenar un modelo de texto a video completamente desde cero, lanzándolo bajo la licencia Apache 2.0.
  • El modelo de 2 mil millones de parámetros genera de 2 a 5 segundos de video a resolución 360p o 720p, con capacidades comparables al modelo Wan 2.1 1.3B de Alibaba.
  • El desarrollo se centró en gran medida en construir pipelines de curación efectivos, incluyendo el etiquetado manual de propiedades estéticas y el ajuste fino de VLMs para filtrado a gran escala.
  • El modelo utiliza T5 para codificación de texto, Wan 2.1 VAE para compresión y una arquitectura base variante de DiT entrenada con coincidencia de flujo.
  • Las fortalezas actuales incluyen estilos de dibujos animados, escenas de comida y naturaleza, y movimientos simples de personajes, mientras que la física compleja y el movimiento rápido siguen siendo un desafío.
  • Los hermanos ven esto como un paso hacia capacidades de vanguardia, con planes futuros para post-entrenamiento, destilación e integración de audio.

Resumen Rápido

Dos hermanos han completado un viaje de dos años para construir un modelo de texto a video completamente desde cero, lanzándolo como software de código abierto. El proyecto, liderado por Sahil y Manu, demuestra que los desarrolladores independientes pueden competir en el espacio de la IA avanzada sin los enormes recursos corporativos.

El modelo resultante contiene 2 mil millones de parámetros y puede generar clips de video cortos a partir de descripciones de texto. Si bien no afirma igualar el rendimiento de sistemas comerciales como Sora o Veo, los hermanos ven su trabajo como un paso crucial hacia capacidades de vanguardia.

El Viaje de Dos Años

Los hermanos comenzaron su trabajo a principios de 2024, lanzando su primer modelo en enero de ese año, antes de que OpenAI's Sora se hiciera noticia. Su lanzamiento inicial fue un bot GIF de 180p y 1 segundo que se construyó sobre Stable Diffusion XL. Sin embargo, rápidamente descubrieron limitaciones fundamentales al usar modelos basados en imágenes para la generación de video.

Los VAE de imágenes no entienden la coherencia temporal, y sin los datos de entrenamiento originales, es imposible hacer una transición suave entre las distribuciones de imagen y video. En algún momento, los hermanos determinaron que era mejor empezar de nuevo en lugar de intentar parchar soluciones existentes.

Su segunda versión representa una reconstrucción completa desde cero. El modelo utiliza:

  • T5 para codificación de texto
  • Wan 2.1 VAE para compresión
  • Una arquitectura base variante de DiT entrenada con coincidencia de flujo

Curiosamente, aunque construyeron su propio VAE temporal, finalmente usaron la versión más pequeña de Wan porque ofrecía un rendimiento equivalente mientras ahorraba costos de incrustación. Los hermanos se han comprometido a lanzar su VAE como código abierto pronto.

"No afirmamos haber alcanzado la frontera. Para nosotros, esto es un paso hacia SOTA: la prueba de que podemos entrenar estos modelos de extremo a extremo nosotros mismos."

— Sahil y Manu, Desarrolladores del Modelo

Arquitectura Técnica

El modelo genera 2-5 segundos de video a resolución 360p o 720p. En términos de tamaño de modelo, la comparación más cercana es el modelo Wan 2.1 1.3B de Alibaba, aunque los hermanos reportan que su modelo logra un captura de movimiento y estética significativamente mejores en sus pruebas.

La mayor parte de su tiempo de desarrollo no se dedicó a la arquitectura del modelo en sí, sino a construir pipelines de curación que realmente funcionan. Esto implicó el etiquetado manual de propiedades estéticas y el ajuste fino de Modelos de Visión-Lenguaje (VLMs) para filtrar datos de entrenamiento a gran escala.

Cuando se les preguntó sobre su enfoque, los hermanos explicaron su filosofía:

Los productos son extensiones de las capacidades del modelo subyacente. Si los usuarios quieren una característica que el modelo no admite, como consistencia de personajes, controles de cámara, edición, mapeo de estilos, etc., quedas atrapado. Para construir el producto que queremos, necesitamos actualizar el modelo mismo.

Esta perspectiva impulsa su decisión de poseer todo el proceso de desarrollo, a pesar de los significativos costos computacionales involucrados.

Capacidades y Limitaciones

El modelo demuestra fortalezas particulares en dominios específicos. A través de pruebas extensas, los hermanos identificaron qué funciona mejor:

  • Estilos de dibujos animados y animación
  • Escenas de comida y naturaleza
  • Movimientos simples de personajes

Sin embargo, el modelo aún enfrenta desafíos con escenarios más complejos. Las áreas que no funcionan bien incluyen:

  • Simulaciones de física compleja
  • Secuencias de movimiento rápido (gimnasia, baile)
  • Representación consistente de texto

Los hermanos son transparentes sobre la posición de su modelo en el panorama actual. Afirman explícitamente: "No afirmamos haber alcanzado la frontera". En cambio, ven este lanzamiento como una prueba de concepto que demuestra que pueden entrenar estos modelos de extremo a extremo por sí mismos.

¿Por Qué Construir Otro Modelo?

Con ofertas comerciales como Veo de Google y Sora de OpenAI ya disponibles, la decisión de los hermanos de construir desde cero podría parecer contraintuitiva. Su razonamiento se centra en el control del producto y la flexibilidad.

Cuando los modelos comerciales no admiten características específicas, los desarrolladores están limitados por lo que esos modelos pueden hacer. Los hermanos creen que para construir el producto que imaginan, necesitan actualizar el modelo mismo. Esto requiere poseer el proceso de desarrollo en lugar de depender de APIs externas.

Es una apuesta significativa que requiere recursos computacionales de GPU sustanciales y tiempo para dar frutos, pero creen que es la estrategia correcta a largo plazo. Su enfoque les permite:

  • Personalizar capacidades para casos de uso específicos
  • Iterar rápidamente en mejoras del modelo
  • Controlar toda la pila tecnológica
  • Construir características que los modelos comerciales no admiten

Hoja de Ruta Futura

Los hermanos han delineado una hoja de ruta clara para el desarrollo futuro. Sus prioridades inmediatas incluyen:

  • Post-entrenamiento para física y deformaciones
  • Destilación para optimización de velocidad
  • Integración de capacidades de audio
  • Escalado del modelo para mejorar el rendimiento

También han mantenido un "cuaderno de laboratorio" detallado de todos sus experimentos en Notion, que están dispuestos a compartir con otros interesados en los detalles técnicos de construir modelos de cero a uno.

El modelo se lanza bajo la licencia Apache 2.0, lo que lo hace disponible gratuitamente para uso comercial y no comercial. Este enfoque de código abierto se alinea con su objetivo de democratizar el acceso a capacidades avanzadas de IA.

Mirando Hacia Adelante

El lanzamiento de este modelo de 2 mil millones de parámetros representa más que un logro técnico: demuestra que los desarrolladores independientes pueden competir en el espacio de la IA avanzada con dedicación y recursos suficientes. El viaje de dos años de los hermanos, desde un bot GIF de 180p hasta un sofisticado modelo de texto a video, muestra lo que es posible con un esfuerzo enfocado.

Aunque el modelo aún no puede igualar el rendimiento de los gigantes comerciales, sirve como un paso hacia capacidades de vanguardia. El compromiso de los hermanos con el desarrollo de código abierto

Continue scrolling for more

La IA transforma la investigación y las demostraciones matemáticas
Technology

La IA transforma la investigación y las demostraciones matemáticas

La inteligencia artificial está pasando de ser una promesa a una realidad en las matemáticas. Los modelos de aprendizaje automático generan teoremas originales, forzando una reevaluación de la investigación y la enseñanza.

Just now
4 min
350
Read Article
Microsoft aborda las interrupciones del servicio de correo Outlook
Technology

Microsoft aborda las interrupciones del servicio de correo Outlook

Los usuarios reportaron problemas generalizados con los servicios de correo Outlook en redes sociales. La interrupción ocurre meses después de una falla significativa que duró más de 21 horas.

2h
5 min
6
Read Article
Las acciones de Intel caen tras una guía débil
Economics

Las acciones de Intel caen tras una guía débil

Intel reportó ganancias del cuarto trimestre que superaron las expectativas, pero su guía débil para el trimestre actual provocó la caída de sus acciones en Wall Street.

2h
5 min
6
Read Article
Ms. Rachel Apologizes for Liking Antisemitic Instagram Comment: ‘I’m a Human Who Makes Mistakes’
Society

Ms. Rachel Apologizes for Liking Antisemitic Instagram Comment: ‘I’m a Human Who Makes Mistakes’

Rachel Accurso, the prominent children’s entertainer known as Ms. Rachel, came under fire after screenshots circulated online that showed her Instagram account liking a comment that read, “Free america from the Jews.” The antisemitic comment appeared under a now-deleted post shared by Accurso that read “Free Palestine, Free Sudan, Free Congo, Free Iran.” The screenshots […]

3h
3 min
0
Read Article
Intel pronostica un crecimiento más lento debido a tensiones en la cadena de suministro
Economics

Intel pronostica un crecimiento más lento debido a tensiones en la cadena de suministro

Intel ha emitido un pronóstico de crecimiento decepcionante, citando cuellos de botella significativos en la cadena de suministro global de semiconductores como el factor principal que limita su capacidad para satisfacer la demanda del mercado.

3h
5 min
6
Read Article
Las predicciones de Elon Musk en Davos: Un análisis de la realidad
Technology

Las predicciones de Elon Musk en Davos: Un análisis de la realidad

Elon Musk hizo predicciones ambiciosas en Davos sobre robots, espacio y envejecimiento, pero un análisis muestra un patrón de cronogramas que rara vez se cumplen.

3h
5 min
9
Read Article
El Arsenal Económico de Europa: El Mercado Único como Arma Estratégica
Politics

El Arsenal Económico de Europa: El Mercado Único como Arma Estratégica

Un analista argumenta que la UE ha comenzado a aprovechar plenamente el poder económico de su mercado único, usándolo como herramienta estratégica en negociaciones geopolíticas.

3h
5 min
6
Read Article
Ministro de Cultura de Israel critica películas nominadas al Oscar
Politics

Ministro de Cultura de Israel critica películas nominadas al Oscar

El Ministro de Cultura de Israel, Miki Zohar, criticó dos películas nominadas al Oscar por dañar la reputación del país y abogó por revisar el financiamiento estatal para el cine.

3h
5 min
6
Read Article
EE.UU. postula a Miami como sede de la Exposición Mundial 2035
Politics

EE.UU. postula a Miami como sede de la Exposición Mundial 2035

Estados Unidos ha anunciado formalmente su candidatura para albergar la Exposición Mundial 2035, con el presidente Trump proponiendo a Miami, Florida como ciudad sede para este importante evento internacional.

3h
5 min
6
Read Article
Trump demanda a JPMorgan por 5.000 millones de dólares por cierre de cuentas
Politics

Trump demanda a JPMorgan por 5.000 millones de dólares por cierre de cuentas

El ex presidente Donald Trump ha presentado una demanda de 5.000 millones de dólares contra JPMorgan Chase, alegando que el banco cerró sus cuentas tras el asalto al Capitolio del 6 de enero.

3h
7 min
7
Read Article
🎉

You're all caught up!

Check back later for more stories

Volver al inicio