M
MercyNews
Home
Back
Dois irmãos constroem modelo de texto para vídeo do zero
Tecnologia

Dois irmãos constroem modelo de texto para vídeo do zero

Hacker News6h ago
3 min de leitura
📋

Fatos Principais

  • Sahil e Manu, dois irmãos, passaram dois anos treinando um modelo de texto para vídeo inteiramente do zero, lançando-o sob a licença Apache 2.0.
  • O modelo de 2 bilhões de parâmetros gera 2-5 segundos de vídeo em resolução 360p ou 720p, com capacidades comparáveis ao modelo Wan 2.1 1.3B da Alibaba.
  • O desenvolvimento focou fortemente na construção de pipelines de curadoria eficazes, incluindo rotulação manual de propriedades estéticas e fine-tuning de VLMs para filtragem em larga escala.
  • O modelo usa T5 para codificação de texto, Wan 2.1 VAE para compressão e uma estrutura DiT-variante treinada com flow matching.
  • Os pontos fortes atuais incluem estilos de desenho animado, cenas de comida e natureza e movimentos simples de personagens, enquanto física complexa e movimentos rápidos continuam desafiadores.
  • Os irmãos veem isso como um passo em direção a capacidades de ponta, com planos futuros para pós-treinamento, destilação e integração de áudio.

Resumo Rápido

Dois irmãos completaram uma jornada de dois anos para construir um modelo de texto para vídeo inteiramente do zero, lançando-o como software de código aberto. O projeto, liderado por Sahil e Manu, demonstra que desenvolvedores independentes podem competir no espaço de IA avançada sem recursos corporativos massivos.

O modelo resultante contém 2 bilhões de parâmetros e pode gerar clipes de vídeo curtos a partir de descrições de texto. Embora não reivindique igualar o desempenho de sistemas comerciais como Sora ou Veo, os irmãos veem seu trabalho como um passo crucial em direção a capacidades de ponta.

A Jornada de Dois Anos

Os irmãos começaram seu trabalho no início de 2024, entregando seu primeiro modelo em janeiro daquele ano — antes que o Sora da OpenAI fizesse manchetes. Sua versão inicial era um bot GIF de 180p, 1 segundo que foi baseado no Stable Diffusion XL. No entanto, eles rapidamente descobriram limitações fundamentais ao usar modelos baseados em imagem para geração de vídeo.

VAEs de imagem não entendem coerência temporal e, sem os dados de treinamento originais, é impossível fazer transições suaves entre distribuições de imagem e vídeo. Em algum momento, os irmãos determinaram que estavam melhor começando do zero do que tentando corrigir soluções existentes.

Sua segunda versão representa uma reconstrução completa desde o início. O modelo usa:

  • T5 para codificação de texto
  • Wan 2.1 VAE para compressão
  • Uma estrutura DiT-variante treinada com flow matching

Curiosamente, enquanto construíram seu próprio VAE temporal, acabaram usando a versão menor do Wan porque oferecia desempenho equivalente enquanto economizava custos de embedding. Os irmãos comprometeram-se a tornar seu VAE de código aberto em breve.

"Não estamos afirmando ter alcançado a fronteira. Para nós, este é um passo em direção à SOTA — uma prova de que podemos treinar esses modelos end-to-end por nós mesmos."

— Sahil e Manu, Desenvolvedores do Modelo

Arquitetura Técnica

O modelo gera 2-5 segundos de vídeo em resolução 360p ou 720p. Em termos de tamanho do modelo, a comparação mais próxima é o modelo Wan 2.1 1.3B da Alibaba, embora os irmãos relatem que seu modelo alcança captura de movimento e estética significativamente melhores em seus testes.

A maior parte de seu tempo de desenvolvimento não foi gasta na arquitetura do modelo em si, mas na construção de pipelines de curadoria que realmente funcionam. Isso envolveu rotulação manual de propriedades estéticas e fine-tuning de Modelos de Visão-Linguagem (VLMs) para filtrar dados de treinamento em escala.

Quando questionados sobre sua abordagem, os irmãos explicaram sua filosofia:

Produtos são extensões das capacidades do modelo subjacente. Se os usuários quiserem um recurso que o modelo não suporta — consistência de personagem, controles de câmera, edição, mapeamento de estilo, etc. — você fica preso. Para construir o produto que queremos, precisamos atualizar o modelo em si.

Essa perspectiva impulsiona sua decisão de assumir todo o processo de desenvolvimento, apesar dos custos computacionais significativos envolvidos.

Capacidades e Limitações

O modelo demonstra pontos fortes particulares em domínios específicos. Através de testes extensivos, os irmãos identificaram o que funciona melhor:

  • Estilos de desenho animado e animação
  • Cenas de comida e natureza
  • Movimentos simples de personagens

No entanto, o modelo ainda enfrenta desafios com cenários mais complexos. Áreas que não funcionam bem incluem:

  • Simulações de física complexa
  • Sequências de movimento rápido (ginástica, dança)
  • Renderização consistente de texto

Os irmãos são transparentes sobre a posição de seu modelo no cenário atual. Eles afirmam explicitamente: "Não estamos afirmando ter alcançado a fronteira." Em vez disso, eles veem este lançamento como uma prova de conceito — demonstrando que podem treinar esses modelos end-to-end por si mesmos.

Por Que Construir Outro Modelo?

Com ofertas comerciais como Veo da Google e Sora da OpenAI já disponíveis, a decisão dos irmãos de construir do zero pode parecer contra-intuitiva. Seu raciocínio centra-se no controle e flexibilidade do produto.

Quando modelos comerciais não suportam recursos específicos, os desenvolvedores são limitados pelo que esses modelos podem fazer. Os irmãos acreditam que para construir o produto que imaginam, eles precisam atualizar o modelo em si. Isso requer assumir o processo de desenvolvimento em vez de depender de APIs externas.

É uma aposta significativa que requer recursos computacionais de GPU substanciais e tempo para dar retorno, mas eles acreditam que é a estratégia correta a longo prazo. Sua abordagem permite que eles:

  • Personalizem capacidades para casos de uso específicos
  • Iterem rapidamente em melhorias do modelo
  • Controle toda a pilha tecnológica
  • Construam recursos que modelos comerciais não suportam

Roteiro Futuro

Os irmãos delinearam um roteiro claro para o desenvolvimento futuro. Suas prioridades imediatas incluem:

  • Pós-treinamento para física e deformações
  • Destilação para otimização de velocidade
  • Integração de capacidades de áudio
  • Escalonamento do modelo para melhor desempenho

Eles também mantiveram um "caderno de laboratório" detalhado de todos os seus experimentos no Notion, que estão dispostos a compartilhar com outros interessados nos detalhes técnicos de construir modelos do zero.

O modelo é lançado sob a licença Apache 2.0, tornando-o livremente disponível para uso comercial e não comercial. Essa abordagem de código aberto está alinhada com seu objetivo de democratizar o acesso a capacidades avançadas de IA.

Olhando para o Futuro

O lançamento deste modelo de 2 bilhões de parâmetros representa mais do que uma conquista técnica — demonstra que desenvolvedores independentes podem competir no espaço de IA avançada com dedicação e recursos suficientes. A jornada de dois anos dos irmãos, de um bot GIF de 180p a um sofisticado modelo de texto para vídeo, mostra o que é possível com esforço focado.

Embora o modelo ainda possa não igualar o desempenho de gigantes comerciais, ele serve como um passo em direção a capacidades de ponta. O compromisso dos irmãos com o desenvolvimento de código aberto

Continue scrolling for more

IA transforma a pesquisa e as provas matemáticas
Technology

IA transforma a pesquisa e as provas matemáticas

A inteligência artificial está se tornando uma realidade na matemática. Modelos de aprendizado de máquina agora geram teoremas originais, forçando uma reavaliação da pesquisa e do ensino.

Just now
4 min
351
Read Article
Agentes de IA reprovam em testes do mundo real
Technology

Agentes de IA reprovam em testes do mundo real

Um novo estudo abrangente testou modelos de IA em tarefas profissionais do mundo real, mostrando que a maioria dos sistemas líderes ainda não está pronta para o trabalho de escritório.

1h
5 min
6
Read Article
Análise de Final Fantasy VII Remake no Switch 2
Entertainment

Análise de Final Fantasy VII Remake no Switch 2

A análise da versão de Final Fantasy VII Remake para Nintendo Switch 2 examina o port, destacando a portabilidade e os ajustes técnicos necessários para a plataforma híbrida.

1h
5 min
6
Read Article
Falha no Microsoft 365 interrompe serviços globais para empresas
Technology

Falha no Microsoft 365 interrompe serviços globais para empresas

Uma falha de várias horas está impedindo clientes corporativos da Microsoft de acessar e-mail, arquivos e reuniões por vídeo, impactando serviços essenciais de produtividade.

1h
3 min
6
Read Article
Xbox Showcase Revela Raro Vislumbre do Criador de Pokémon
Technology

Xbox Showcase Revela Raro Vislumbre do Criador de Pokémon

Em um evento surpreendente, o desenvolvedor de Pokémon, Game Freak, apareceu em uma transmissão oficial do Xbox para discutir seu novo jogo, Beast of Reincarnation. Esta colaboração marca uma rara aparição pública do estúdio fora de seus eventos tradicionais da Nintendo.

1h
5 min
6
Read Article
Senador Markey questiona OpenAI sobre anúncios no ChatGPT
Politics

Senador Markey questiona OpenAI sobre anúncios no ChatGPT

Senador Ed Markey questiona OpenAI e outras gigantes de tecnologia sobre planos de inserir anúncios em chatbots de IA, levantando alarmes sobre segurança e privacidade.

1h
5 min
6
Read Article
Partidos Árabes da Knesset Assinam Acordo para Reviver a Lista Conjunta
Politics

Partidos Árabes da Knesset Assinam Acordo para Reviver a Lista Conjunta

Partidos árabes da Knesset assinaram acordo para reviver a Lista Conjunta. A reunificação responde à pressão pública massiva sobre o crime violento nas comunidades árabes.

1h
5 min
6
Read Article
Jack Smith defende independência política em depoimento ao Congresso
Politics

Jack Smith defende independência política em depoimento ao Congresso

O Procurador Especial Jack Smith testemunhou perante o Congresso, defendendo que suas investigações ao ex-presidente Donald Trump são politicamente independentes, apesar de questionamentos intensos.

1h
5 min
6
Read Article
Hyundai IONIQ 6 N é lançado no Reino Unido com 641 cavalos de potência
Automotive

Hyundai IONIQ 6 N é lançado no Reino Unido com 641 cavalos de potência

O Hyundai IONIQ 6 N, segundo EV de alto desempenho da marca, está disponível para encomenda no Reino Unido. Com até 641 cavalos, acelera de 0 a 100 km/h em 3,2 segundos e oferece experiência de condução interativa.

1h
5 min
6
Read Article
Game Freak aborda preocupações de desempenho para RPG não-Pokémon
Technology

Game Freak aborda preocupações de desempenho para RPG não-Pokémon

Game Freak respondeu oficialmente às preocupações de desempenho sobre seu próximo RPG não-Pokémon, Beast in Reincarnation. A desenvolvedora reconheceu a ambição do projeto e abriu diálogo técnico com a comunidade.

1h
5 min
7
Read Article
🎉

You're all caught up!

Check back later for more stories

Voltar ao inicio