Fatos Principais
- Fei-Fei Li co-fundou a World Labs em 2024 com apoio inicial de US$ 230 milhões
- Yann LeCun está lançando a Advanced Machine Intelligence (AMI Labs) após sair da Meta
- Modelos de mundo imitam construtos mentais humanos para antecipar resultados
- Moonvalley apresentou o Marey, seu primeiro modelo de geração de vídeo, em março
- Modelos de mundo exigem compreensão de ambientes 3D e realidade física
Resumo Rápido
Principais pesquisadores de IA estão desenvolvendo modelos de mundo como alternativa aos grandes modelos de linguagem. Cientistas da computação como Fei-Fei Li e Yann LeCun estão construindo sistemas que imitam construtos mentais humanos para antecipar resultados.
Ao contrário dos LLMs que determinam saídas com base em relações estatísticas entre palavras, os modelos de mundo visam entender e prever a realidade física. Esses sistemas enfrentam desafios de dados, mas oferecem aplicações em robótica, saúde e campos criativos.
O Que São Modelos de Mundo?
Modelos de mundo representam uma mudança fundamental na pesquisa de inteligência artificial. Ao contrário dos grandes modelos de linguagem que processam texto através de padrões estatísticos, esses sistemas tentam imitar os construtos mentais que os humanos criam para entender seu ambiente.
Enquanto a OpenAI, a Anthropic e grandes empresas de tecnologia investem bilhões em modelos de linguagem, um grupo menor de pesquisadores de elite está buscando o que consideram a próxima grande descoberta. O conceito central envolve criar sistemas de IA que antecipem o que acontecerá em seguida, semelhante a como os humanos usam a intuição baseada na experiência.
O professor do MIT Jay Wright Forrester explicou esse conceito em seu artigo de 1971, observando que os humanos constantemente usam modelos mentais para tomada de decisões. Esses modelos representam conceitos e relações selecionados em vez de conter a realidade real. Se a IA for superar a inteligência humana, os pesquisadores acreditam que ela deve desenvolver capacidades de modelagem semelhantes.
World Labs de Fei-Fei Li
Fei-Fei Li, a professora da Stanford famosa por inventar o ImageNet, co-fundou a World Labs em 2024 com apoio inicial de US$ 230 milhões de empresas de capital de risco, incluindo Andreessen Horowitz, New Enterprise Associates e Radical Ventures.
A missão declarada da empresa é elevar os modelos de IA do plano 2D de pixels para mundos 3D completos, tanto virtuais quanto reais, dotando-os de inteligência espacial tão rica quanto a nossa. Li define a inteligência espacial como a capacidade de entender, raciocinar, interagir e gerar mundos 3D.
Li vê aplicações para modelos de mundo em várias áreas:
- Campos criativos que exigem universos infinitos
- Robótica e interação física
- Qualquer domínio que necessite de raciocínio 3D complexo
O principal desafio é a escassez de dados. Ao contrário da linguagem, que os humanos aprimoraram ao longo de séculos, a inteligência espacial é menos desenvolvida. Li observa que criar modelos 3D detalhados do ambiente imediato é surpreendentemente difícil sem treinamento. Coletar dados suficientes exige engenharia sofisticada, aquisição, processamento e síntese.
Advanced Machine Intelligence de Yann LeCun
Yann LeCun, o cientista-chefe de IA que está saindo da Meta, está lançando a Advanced Machine Intelligence (AMI Labs) para construir modelos de mundo que ele considera mais competentes que os LLMs. LeCun argumenta que esses sistemas possuem senso comum, capacidade de raciocínio, habilidades de planejamento e memória persistente.
Em uma postagem no LinkedIn em novembro, LeCun declarou que a AMI Labs visa promover a próxima grande revolução em IA: sistemas que entendem o mundo físico, têm memória persistente, podem raciocinar e planejar sequências de ações complexas.
Em 19 de dezembro, LeCun anunciou que recrutou Alex LeBrun, co-fundador e CEO da Nabla, como CEO da AMI Labs. LeBrun afirmou que a IA para saúde está entrando em uma era em que a confiabilidade, o determinismo e a simulação são tão importantes quanto a inteligência linguística. Ele acrescentou que o acesso à tecnologia de modelos de mundo complementará os LLMs atuais e ajudará a desbloquear sistemas autônomos seguros para profissionais de saúde.
Antes de lançar a AMI Labs, LeCun trabalhou em pesquisas semelhantes na Meta usando dados de vídeo para treinar modelos. A abordagem envolve executar simulações que abstraem vídeos em diferentes níveis em vez de prever no nível do pixel. Isso cria uma representação abstrata que elimina detalhes imprevisíveis enquanto permite previsões dentro dessa representação.
Moonvalley e Aplicações da Indústria
Moonvalley, fundada por pesquisadores ex-DeepMind, está desenvolvendo discretamente modelos de mundo para IA generativa de vídeo. Em março, a empresa apresentou o Marey, seu primeiro modelo de geração de vídeo.
Mateusz Malinowski, diretor científico da Moonvalley, explicou que a empresa está pensando sobre modelos de mundo e inteligência multimodal visual. O objetivo é ir além de sistemas puramente visuais para modelos que entendem não apenas o que veem, mas como o mundo funciona.
Aplicações para modelos de mundo incluem:
- Robótica humanoides
- Planejamento no mundo real
- Cinema com modelagem de movimento
- Modelagem de corpos moles
Malinowski observou que, embora os modelos de mundo compartilhem objetivos de longo prazo, as abordagens diferem entre as empresas. A Moonvalley se concentra em usar modelos de vídeo como cidadãos de primeira classe, onde a inteligência espacial é mais implícita. Essa abordagem parece mais adequada para cinema e robótica a curto prazo devido às capacidades de modelagem de movimento e corpos moles.
"Os humanos não apenas sobrevivemos, vivemos e trabalhamos, mas construímos civilização além da linguagem."
— Fei-Fei Li
"Nossa meta é elevar os modelos de IA do plano 2D de pixels para mundos 3D completos — tanto virtuais quanto reais — dotando-os de inteligência espacial tão rica quanto a nossa."
— World Labs
"Se eu pedir que você feche os olhos agora e desenhe ou construa um modelo 3D do ambiente ao seu redor, não é tão fácil."
— Fei-Fei Li
"Precisamos de engenharia de dados, aquisição de dados, processamento de dados e síntese de dados cada vez mais sofisticados."
— Fei-Fei Li
"Promover a próxima grande revolução em IA: sistemas que entendem o mundo físico, têm memória persistente, podem raciocinar e planejar sequências de ações complexas."
— Yann LeCun
"A IA para saúde está entrando em uma nova era, uma em que a confiabilidade, o determinismo e a simulação são tão importantes quanto a inteligência linguística."
— Alex LeBrun
"A ideia básica é que você não prevê no nível do pixel. Você treina um sistema para executar uma representação abstrata do vídeo para que possa fazer previsões nessa representação abstrata, e esperamos que essa representação elimine todos os detalhes que não podem ser previstos."
— Yann LeCun
"Estamos pensando sobre modelos de mundo e inteligência multimodal visual. Queremos ir além de sistemas puramente visuais para algo mais amplo — modelos que entendem não apenas o que veem, mas como o mundo funciona."
— Mateusz Malinowski

