Points clés
- Fei-Fei Li a cofondé World Labs en 2024 avec un financement initial de 230 millions de dollars
- Yann LeCun lance Advanced Machine Intelligence (AMI Labs) après avoir quitté Meta
- Les modèles du monde imitent les constructions mentales humaines pour anticiper les résultats
- Moonvalley a dévoilé Marey, son premier modèle de génération vidéo, en mars
- Les modèles du monde nécessitent une compréhension des environnements 3D et de la réalité physique
Résumé rapide
Les principaux chercheurs en IA développent des modèles du monde comme alternative aux grands modèles de langage. Des informaticiens comme Fei-Fei Li et Yann LeCun construisent des systèmes qui imitent les constructions mentales humaines pour anticiper les résultats.
Contrairement aux LLM qui déterminent les sorties sur la base de relations statistiques entre les mots, les modèles du monde visent à comprendre et à prédire la réalité physique. Ces systèmes font face à des défis liés aux données mais offrent des applications en robotique, dans le domaine de la santé et dans les domaines créatifs.
Que sont les modèles du monde ?
Les modèles du monde représentent un changement fondamental dans la recherche en intelligence artificielle. Contrairement aux grands modèles de langage qui traitent le texte via des modèles statistiques, ces systèmes tentent d'imiter les constructions mentales que les humains créent pour comprendre leur environnement.
Alors que OpenAI, Anthropic et les grandes entreprises technologiques investissent des milliards dans les modèles de langage, un plus petit groupe de chercheurs d'élite poursuit ce qu'ils considèrent comme la prochaine percée. Le concept central consiste à créer des systèmes d'IA qui anticipent ce qui va se passer ensuite, similaire à la façon dont les humains utilisent l'intuition basée sur l'expérience.
Le professeur du MIT Jay Wright Forrester a expliqué ce concept dans son article de 1971, notant que les humains utilisent constamment des modèles mentaux pour la prise de décision. Ces modèles représentent des concepts et des relations sélectionnés plutôt que de contenir la réalité elle-même. Si l'IA doit surpasser l'intelligence humaine, les chercheurs croient qu'elle doit développer des capacités de modélisation similaires.
Les World Labs de Fei-Fei Li
Fei-Fei Li, la professeure de Stanford célèbre pour avoir inventé ImageNet, a cofondé World Labs en 2024 avec un financement initial de 230 millions de dollars de sociétés de capital-risque, dont Andreessen Horowitz, New Enterprise Associates et Radical Ventures.
La mission déclarée de l'entreprise est de faire passer les modèles d'IA du plan 2D des pixels à des mondes 3D complets, tant virtuels que réels, en leur dotant d'une intelligence spatiale aussi riche que la nôtre. Li définit l'intelligence spatiale comme la capacité de comprendre, raisonner, interagir et générer des mondes 3D.
Li voit des applications pour les modèles du monde dans plusieurs domaines :
- Les domaines créatifs nécessitant des univers infinis
- La robotique et l'interaction physique
- Tout domaine nécessitant un raisonnement 3D complexe
Le défi principal est la pénurie de données. Contrairement au langage, que les humains ont affiné au fil des siècles, l'intelligence spatiale est moins développée. Li note que créer des modèles 3D détaillés de son environnement immédiat est étonnamment difficile sans formation. La collecte de données suffisantes nécessite une ingénierie sophistiquée, l'acquisition, le traitement et la synthèse.
Advanced Machine Intelligence de Yann LeCun
Yann LeCun, l'ancien directeur scientifique en chef de l'IA de Meta, lance Advanced Machine Intelligence (AMI Labs) pour construire des modèles du monde qu'il considère plus compétents que les LLM. LeCun affirme que ces systèmes possèdent le bon sens, la capacité de raisonnement, les capacités de planification et une mémoire persistante.
Dans une publication de novembre sur LinkedIn, LeCun a déclaré qu'AMI Labs vise à provoquer la prochaine grande révolution de l'IA : des systèmes qui comprennent le monde physique, ont une mémoire persistante, peuvent raisonner et planifier des séquences d'actions complexes.
Le 19 décembre, LeCun a annoncé avoir recruté Alex LeBrun, cofondateur et PDG de Nabla, en tant que PDG d'AMI Labs. LeBrun a déclaré que l'IA dans le domaine de la santé entre dans une ère où la fiabilité, le déterminisme et la simulation comptent autant que l'intelligence linguistique. Il a ajouté que l'accès à la technologie des modèles du monde complétera les LLM d'aujourd'hui et aidera à débloquer des systèmes autonomes et sûrs pour les cliniciens.
Avant de lancer AMI Labs, LeCun a travaillé sur des recherches similaires chez Meta en utilisant des données vidéo pour former des modèles. L'approche consiste à exécuter des simulations qui abstraient les vidéos à différents niveaux plutôt que de prédire au niveau des pixels. Cela crée une représentation abstraite qui élimine les détails imprévisibles tout en permettant des prédictions au sein de cette représentation.
Moonvalley et les applications industrielles
Moonvalley, fondé par d'anciens chercheurs de DeepMind, développe en silence des modèles du monde pour l'IA générative vidéo. En mars, l'entreprise a dévoilé Marey, son premier modèle de génération vidéo.
Mateusz Malinowski, directeur scientifique de Moonvalley, a expliqué que l'entreprise réfléchit aux modèles du monde et à l'intelligence multimodale visuelle. L'objectif est d'aller au-delà des systèmes purement visuels pour créer des modèles qui comprennent non seulement ce qu'ils voient, mais comment fonctionne le monde.
Les applications des modèles du monde incluent :
- La robotique humanoïde
- La planification dans le monde réel
- La réalisation de films avec modélisation du mouvement
- La modélisation des corps mous
Malinowski a noté que, bien que les modèles du monde partagent des objectifs à long terme, les approches diffèrent entre les entreprises. Moonvalley se concentre sur l'utilisation des modèles vidéo comme acteurs de premier plan, où l'intelligence spatiale est plus implicite. Cette approche semble plus adaptée à la réalisation de films et à la robotique à court terme en raison des capacités de modélisation du mouvement et des corps mous.
« Les humains ne survivent pas seulement, ne vivent pas et ne travaillent pas, mais nous construisons une civilisation au-delà du langage. »
— Fei-Fei Li
« Nous visons à faire passer les modèles d'IA du plan 2D des pixels à des mondes 3D complets — tant virtuels que réels — en leur dotant d'une intelligence spatiale aussi riche que la nôtre. »
— World Labs
« Si je vous demande de fermer les yeux maintenant et de dessiner ou de construire un modèle 3D de l'environnement qui vous entoure, ce n'est pas si facile. »
— Fei-Fei Li
« Nous avons besoin d'ingénierie de données, d'acquisition de données, de traitement de données et de synthèse de données de plus en plus sophistiquées. »
— Fei-Fei Li
« Provocer la prochaine grande révolution de l'IA : des systèmes qui comprennent le monde physique, ont une mémoire persistante, peuvent raisonner et planifier des séquences d'actions complexes. »
— Yann LeCun
« L'IA dans le domaine de la santé entre dans une nouvelle ère, une ère où la fiabilité, le déterminisme et la simulation comptent autant que l'intelligence linguistique. »
— Alex LeBrun
« L'idée de base est que vous ne prédisez pas au niveau des pixels. Vous entraînez un système à exécuter une représentation abstraite de la vidéo afin de pouvoir faire des prédictions dans cette représentation abstraite, et espérons que cette représentation éliminera tous les détails qui ne peuvent être prédits. »
— Yann LeCun
« Nous réfléchissons aux modèles du monde et à l'intelligence multimodale visuelle. Nous voulons aller au-delà des systèmes purement visuels pour créer quelque chose de plus large — des modèles qui comprennent non seulement ce qu'ils voient, mais comment fonctionne le monde. »
— Mateusz Malinowski
