Dois irmãos constroem modelo de texto para vídeo do zero

📋

Fatos Principais

Sahil e Manu, dois irmãos, passaram dois anos treinando um modelo de texto para vídeo inteiramente do zero, lançando-o sob a licença Apache 2.0.
O modelo de 2 bilhões de parâmetros gera 2-5 segundos de vídeo em resolução 360p ou 720p, com capacidades comparáveis ao modelo Wan 2.1 1.3B da Alibaba.
O desenvolvimento focou fortemente na construção de pipelines de curadoria eficazes, incluindo rotulação manual de propriedades estéticas e fine-tuning de VLMs para filtragem em larga escala.
O modelo usa T5 para codificação de texto, Wan 2.1 VAE para compressão e uma estrutura DiT-variante treinada com flow matching.
Os pontos fortes atuais incluem estilos de desenho animado, cenas de comida e natureza e movimentos simples de personagens, enquanto física complexa e movimentos rápidos continuam desafiadores.
Os irmãos veem isso como um passo em direção a capacidades de ponta, com planos futuros para pós-treinamento, destilação e integração de áudio.

Resumo Rápido

Dois irmãos completaram uma jornada de dois anos para construir um modelo de texto para vídeo inteiramente do zero, lançando-o como software de código aberto. O projeto, liderado por Sahil e Manu, demonstra que desenvolvedores independentes podem competir no espaço de IA avançada sem recursos corporativos massivos.

O modelo resultante contém 2 bilhões de parâmetros e pode gerar clipes de vídeo curtos a partir de descrições de texto. Embora não reivindique igualar o desempenho de sistemas comerciais como Sora ou Veo, os irmãos veem seu trabalho como um passo crucial em direção a capacidades de ponta.

A Jornada de Dois Anos

Os irmãos começaram seu trabalho no início de 2024, entregando seu primeiro modelo em janeiro daquele ano — antes que o Sora da OpenAI fizesse manchetes. Sua versão inicial era um bot GIF de 180p, 1 segundo que foi baseado no Stable Diffusion XL. No entanto, eles rapidamente descobriram limitações fundamentais ao usar modelos baseados em imagem para geração de vídeo.

VAEs de imagem não entendem coerência temporal e, sem os dados de treinamento originais, é impossível fazer transições suaves entre distribuições de imagem e vídeo. Em algum momento, os irmãos determinaram que estavam melhor começando do zero do que tentando corrigir soluções existentes.

Sua segunda versão representa uma reconstrução completa desde o início. O modelo usa:

T5 para codificação de texto
Wan 2.1 VAE para compressão
Uma estrutura DiT-variante treinada com flow matching

Curiosamente, enquanto construíram seu próprio VAE temporal, acabaram usando a versão menor do Wan porque oferecia desempenho equivalente enquanto economizava custos de embedding. Os irmãos comprometeram-se a tornar seu VAE de código aberto em breve.

"Não estamos afirmando ter alcançado a fronteira. Para nós, este é um passo em direção à SOTA — uma prova de que podemos treinar esses modelos end-to-end por nós mesmos."
— Sahil e Manu, Desenvolvedores do Modelo

Arquitetura Técnica

O modelo gera 2-5 segundos de vídeo em resolução 360p ou 720p. Em termos de tamanho do modelo, a comparação mais próxima é o modelo Wan 2.1 1.3B da Alibaba, embora os irmãos relatem que seu modelo alcança captura de movimento e estética significativamente melhores em seus testes.

A maior parte de seu tempo de desenvolvimento não foi gasta na arquitetura do modelo em si, mas na construção de pipelines de curadoria que realmente funcionam. Isso envolveu rotulação manual de propriedades estéticas e fine-tuning de Modelos de Visão-Linguagem (VLMs) para filtrar dados de treinamento em escala.

Quando questionados sobre sua abordagem, os irmãos explicaram sua filosofia:

Produtos são extensões das capacidades do modelo subjacente. Se os usuários quiserem um recurso que o modelo não suporta — consistência de personagem, controles de câmera, edição, mapeamento de estilo, etc. — você fica preso. Para construir o produto que queremos, precisamos atualizar o modelo em si.

Essa perspectiva impulsiona sua decisão de assumir todo o processo de desenvolvimento, apesar dos custos computacionais significativos envolvidos.

Capacidades e Limitações

O modelo demonstra pontos fortes particulares em domínios específicos. Através de testes extensivos, os irmãos identificaram o que funciona melhor:

Estilos de desenho animado e animação
Cenas de comida e natureza
Movimentos simples de personagens

No entanto, o modelo ainda enfrenta desafios com cenários mais complexos. Áreas que não funcionam bem incluem:

Simulações de física complexa
Sequências de movimento rápido (ginástica, dança)
Renderização consistente de texto

Os irmãos são transparentes sobre a posição de seu modelo no cenário atual. Eles afirmam explicitamente: "Não estamos afirmando ter alcançado a fronteira." Em vez disso, eles veem este lançamento como uma prova de conceito — demonstrando que podem treinar esses modelos end-to-end por si mesmos.

Por Que Construir Outro Modelo?

Com ofertas comerciais como Veo da Google e Sora da OpenAI já disponíveis, a decisão dos irmãos de construir do zero pode parecer contra-intuitiva. Seu raciocínio centra-se no controle e flexibilidade do produto.

Quando modelos comerciais não suportam recursos específicos, os desenvolvedores são limitados pelo que esses modelos podem fazer. Os irmãos acreditam que para construir o produto que imaginam, eles precisam atualizar o modelo em si. Isso requer assumir o processo de desenvolvimento em vez de depender de APIs externas.

É uma aposta significativa que requer recursos computacionais de GPU substanciais e tempo para dar retorno, mas eles acreditam que é a estratégia correta a longo prazo. Sua abordagem permite que eles:

Personalizem capacidades para casos de uso específicos
Iterem rapidamente em melhorias do modelo
Controle toda a pilha tecnológica
Construam recursos que modelos comerciais não suportam

Roteiro Futuro

Os irmãos delinearam um roteiro claro para o desenvolvimento futuro. Suas prioridades imediatas incluem:

Pós-treinamento para física e deformações
Destilação para otimização de velocidade
Integração de capacidades de áudio
Escalonamento do modelo para melhor desempenho

Eles também mantiveram um "caderno de laboratório" detalhado de todos os seus experimentos no Notion, que estão dispostos a compartilhar com outros interessados nos detalhes técnicos de construir modelos do zero.

O modelo é lançado sob a licença Apache 2.0, tornando-o livremente disponível para uso comercial e não comercial. Essa abordagem de código aberto está alinhada com seu objetivo de democratizar o acesso a capacidades avançadas de IA.

Olhando para o Futuro

O lançamento deste modelo de 2 bilhões de parâmetros representa mais do que uma conquista técnica — demonstra que desenvolvedores independentes podem competir no espaço de IA avançada com dedicação e recursos suficientes. A jornada de dois anos dos irmãos, de um bot GIF de 180p a um sofisticado modelo de texto para vídeo, mostra o que é possível com esforço focado.

Embora o modelo ainda possa não igualar o desempenho de gigantes comerciais, ele serve como um passo em direção a capacidades de ponta. O compromisso dos irmãos com o desenvolvimento de código aberto