Deux frères construisent un modèle de texte-vidéo à partir de zéro

📋

Points Clés

Sahil et Manu, deux frères, ont passé deux ans à entraîner un modèle de texte-vidéo entièrement à partir de zéro, le publiant sous licence Apache 2.0.
Le modèle à 2 milliards de paramètres génère de 2 à 5 secondes de séquences à une résolution de 360p ou 720p, avec des capacités comparables au modèle Wan 2.1 1.3B d'Alibaba.
Le développement s'est fortement concentré sur la construction de pipelines de curation efficaces, incluant l'étiquetage manuel des propriétés esthétiques et l'affinage de VLMs pour le filtrage à grande échelle.
Le modèle utilise T5 pour l'encodage textuel, Wan 2.1 VAE pour la compression, et une architecture de type DiT entraînée avec le "flow matching".
Les forces actuelles incluent les styles cartoon/animés, les scènes de nourriture et de nature, et les mouvements simples de personnages, tandis que la physique complexe et les mouvements rapides restent un défi.
Les frères considèrent cela comme une étape vers des capacités de pointe, avec des plans futurs pour le post-entraînement, la distillation et l'intégration audio.

Résumé Rapide

Deux frères ont achevé un parcours de deux ans pour construire un modèle de texte-vidéo entièrement à partir de zéro, le publiant en tant que logiciel open-source. Le projet, dirigé par Sahil et Manu, démontre que les développeurs indépendants peuvent rivaliser dans l'espace de l'IA avancée sans les ressources massives des entreprises.

Le modèle résultant contient 2 milliards de paramètres et peut générer de courtes séquences vidéo à partir de descriptions textuelles. Bien qu'ils ne prétendent pas égaler les performances de systèmes commerciaux comme Sora ou Veo, les frères considèrent leur travail comme une étape cruciale vers des capacités de pointe.

Le Parcours de Deux Ans

Les frères ont commencé leur travail début 2024, livrant leur premier modèle en janvier de cette même année—avant que le Sora d'OpenAI ne fasse la une. Leur première version était un bot GIF de 180p, 1 seconde qui s'appuyait sur Stable Diffusion XL. Cependant, ils ont rapidement découvert des limitations fondamentales à l'utilisation de modèles basés sur l'image pour la génération vidéo.

Les VAE d'image ne comprennent pas la cohérence temporelle, et sans les données d'entraînement originales, il est impossible de faire une transition fluide entre les distributions d'images et de vidéos. À un certain moment, les frères ont déterminé qu'il était préférable de recommencer plutôt que d'essayer de corriger les solutions existantes.

Leur deuxième version représente une reconstruction complète à partir de la base. Le modèle utilise :

T5 pour l'encodage textuel
Wan 2.1 VAE pour la compression
Une architecture de type DiT entraînée avec le "flow matching"

De manière intéressante, bien qu'ils aient construit leur propre VAE temporel, ils ont finalement utilisé la plus petite version de Wan car elle offrait des performances équivalentes tout en économisant sur les coûts d'embedding. Les frères se sont engagés à open-sourcer leur VAE prochainement.

"Nous ne prétendons pas avoir atteint la frontière. Pour nous, c'est une étape vers la SOTA—la preuve que nous pouvons entraîner ces modèles de bout en bout nous-mêmes."
— Sahil et Manu, Développeurs du modèle

Architecture Technique

Le modèle génère 2 à 5 secondes de séquences à une résolution de 360p ou 720p. En termes de taille de modèle, la comparaison la plus proche est le modèle Wan 2.1 1.3B d'Alibaba, bien que les frères rapportent que leur modèle atteint une capture de mouvement et une esthétique nettement supérieures dans leurs tests.

La majeure partie de leur temps de développement n'a pas été consacrée à l'architecture du modèle elle-même, mais à la construction de pipelines de curation qui fonctionnent réellement. Cela a impliqué l'étiquetage manuel des propriétés esthétiques et l'affinage de Modèles Vision-Langage (VLMs) pour filtrer les données d'entraînement à grande échelle.

Interrogés sur leur approche, les frères ont expliqué leur philosophie :

Les produits sont des extensions des capacités du modèle sous-jacent. Si les utilisateurs veulent une fonctionnalité que le modèle ne supporte pas—cohérence des personnages, contrôles de caméra, édition, mappage de style, etc.—vous êtes bloqué. Pour construire le produit que nous voulons, nous devons mettre à jour le modèle lui-même.

Cette perspective guide leur décision de maîtriser l'ensemble du processus de développement, malgré les coûts de calcul importants impliqués.

Capacités et Limitations

Le modèle démontre des forces particulières dans des domaines spécifiques. À travers des tests approfondis, les frères ont identifié ce qui fonctionne le mieux :

Styles cartoon et animés
Scènes de nourriture et de nature
Mouvements simples de personnages

Cependant, le modèle fait encore face à des défis avec des scénarios plus complexes. Les domaines qui ne fonctionnent pas bien incluent :

Simulations de physique complexes
Séquences de mouvement rapide (gymnastique, danse)
Rendu de texte cohérent

Les frères sont transparents sur la position de leur modèle dans le paysage actuel. Ils déclarent explicitement : "Nous ne prétendons pas avoir atteint la frontière." Au lieu de cela, ils considèrent cette publication comme un preuve de concept—démontrant qu'ils peuvent entraîner ces modèles de bout en bout eux-mêmes.

Pourquoi Construire un Autre Modèle ?

Avec des offres commerciales comme Veo de Google et Sora d'OpenAI déjà disponibles, la décision des frères de construire à partir de zéro peut sembler contre-intuitive. Leur raisonnement s'articule autour du contrôle et de la flexibilité du produit.

Quand les modèles commerciaux ne supportent pas certaines fonctionnalités, les développeurs sont limités par ce que ces modèles peuvent faire. Les frères estiment que pour construire le produit qu'ils envisagent, ils doivent mettre à jour le modèle lui-même. Cela nécessite de maîtriser le processus de développement plutôt que de dépendre d'API externes.

C'est un pari important qui nécessite des ressources de calcul GPU substantielles et du temps pour porter ses fruits, mais ils croient que c'est la bonne stratégie à long terme. Leur approche leur permet de :

Personnaliser les capacités pour des cas d'usage spécifiques
Itérer rapidement sur les améliorations du modèle
Contrôler l'ensemble de la chaîne technologique
Construire des fonctionnalités que les modèles commerciaux ne supportent pas

Feuille de Route Future

Les frères ont tracé une feuille de route claire pour le développement futur. Leurs priorités immédiates incluent :

Post-entraînement pour la physique et les déformations
Distillation pour l'optimisation de la vitesse
Intégration des capacités audio
Échelle du modèle pour des performances améliorées

Ils ont également maintenu un "cahier de laboratoire" détaillé de toutes leurs expériences dans Notion, qu'ils sont prêts à partager avec les autres personnes intéressées par les détails techniques de la construction de modèles de zéro à l'un.

Le modèle est publié sous la licence Apache 2.0, le rendant librement disponible pour un usage commercial et non commercial. Cette approche open-source s'aligne avec leur objectif de démocratiser l'accès aux capacités de l'IA avancée.

Perspectives d'Avenir

La publication de ce modèle à 2 milliards de paramètres représente plus qu'une simple prouesse technique—elle démontre que les développeurs indépendants peuvent rivaliser dans l'espace de l'IA avancée avec une déviation et des ressources suffisantes. Le parcours de deux ans des frères, d'un bot GIF de 180p à un modèle de texte-vidéo sophistiqué, montre ce qui est possible avec un effort concentré.

Bien que le modèle ne corresponde pas encore aux performances des géants commerciaux, il sert d'étape vers des capacités de pointe. L'engagement des frères envers le développement open-source Key Facts: 1. Sahil et Manu, deux frères, ont passé deux ans à entraîner un modèle de texte-vidéo entièrement à partir de zéro, le publiant sous licence Apache 2.0. 2. Le modèle à 2 milliards de paramètres génère de 2 à 5 secondes de séquences à une résolution de 360p ou 720p, avec des capacités comparables au modèle Wan 2.1 1.3B d'Alibaba. 3. Le développement s'est fortement concentré sur la construction de pipelines de curation efficaces, incluant l'étiquetage manuel des propriétés esthétiques et l'affinage de VLMs pour le filtrage à grande échelle. 4. Le modèle utilise T5 pour l'encodage textuel, Wan 2.1 VAE pour la compression, et une architecture de type DiT entraînée avec le "flow matching". 5. Les forces actuelles incluent les styles cartoon/animés, les scènes de nourriture et de nature, et les mouvements simples de personnages, tandis que la physique complexe et les mouvements rapides restent un défi. 6. Les frères considèrent cela comme une étape vers des capacités de pointe, avec des plans futurs pour le post-entraînement, la distillation et l'intégration audio. FAQ: Q1: Qu'ont construit Sahil et Manu ? A1: Ils ont construit un modèle de texte-vidéo à 2 milliards de paramètres à partir de zéro qui génère de 2 à 5 secondes de séquences à une résolution de 360p ou 720p. Le modèle est publié sous licence Apache 2.0 et utilise T5 pour l'encodage textuel, Wan 2.1 VAE pour la compression, et une architecture de type DiT entraînée avec le "flow matching". Q2: Pourquoi ont-ils construit leur propre modèle au lieu d'utiliser des modèles existants ? A2: Ils estiment que pour construire le produit qu'ils veulent, ils doivent mettre à jour le modèle lui-même plutôt que d'être limités par les offres commerciales. Cela leur donne le contrôle sur des fonctionnalités comme la cohérence des personnages, les contrôles de caméra et les capacités d'édition que les modèles existants peuvent ne pas supporter. Q3: Quelles sont les capacités et limitations actuelles du modèle ? A3: Le modèle fonctionne bien pour les styles cartoon/animés, les scènes de nourriture et de nature, et les mouvements simples de personnages. Cependant, il a du mal avec la physique complexe, les mouvements rapides (comme la gymnastique ou la danse) et le rendu de texte cohérent. Q4: Quels sont leurs plans futurs pour le modèle ? A4: Ils prévoient de se concentrer sur le post-entraînement pour la physique et les déformations, la distillation pour l'optimisation de la vitesse, l'intégration des capacités audio, et l'échelle du modèle. Ils ont également maintenu une documentation détaillée de leurs expériences à partager avec d'autres développeurs.