Investigadores de IA construyen modelos del mundo más allá del lenguaje

📋

Hechos Clave

Fei-Fei Li cofundó World Labs en 2024 con un respaldo inicial de 230 millones de dólares
Yann LeCun está lanzando Advanced Machine Intelligence (AMI Labs) tras salir de Meta
Los modelos del mundo imitan construcciones mentales humanas para anticipar resultados
Moonvalley presentó Marey, su primer modelo de generación de video, en marzo
Los modelos del mundo requieren comprensión de entornos 3D y realidad física

Resumen Rápido

Los principales investigadores de IA están desarrollando modelos del mundo como alternativa a los grandes modelos de lenguaje. Científicos computacionales como Fei-Fei Li y Yann LeCun están construyendo sistemas que imitan las construcciones mentales humanas para anticipar resultados.

A diferencia de los LLM que determinan salidas basándose en relaciones estadísticas entre palabras, los modelos del mundo buscan comprender y predecir la realidad física. Estos sistemas enfrentan desafíos de datos pero ofrecen aplicaciones en robótica, atención médica y campos creativos.

¿Qué son los modelos del mundo?

Los modelos del mundo representan un cambio fundamental en la investigación de inteligencia artificial. A diferencia de los grandes modelos de lenguaje que procesan texto a través de patrones estadísticos, estos sistemas intentan imitar las construcciones mentales que los humanos crean para comprender su entorno.

Mientras OpenAI, Anthropic y grandes empresas tecnológicas invierten miles de millones en modelos de lenguaje, un grupo más pequeño de investigadores de élite busca lo que consideran el próximo avance. El concepto central implica crear sistemas de IA que anticipen lo que sucederá a continuación, similar a cómo los humanos usan la intuición basada en la experiencia.

El profesor del MIT Jay Wright Forrester explicó este concepto en su artículo de 1971, señalando que los humanos usan constantemente modelos mentales para la toma de decisiones. Estos modelos representan conceptos y relaciones seleccionados en lugar de contener la realidad real. Si la IA supera la inteligencia humana, los investigadores creen que debe desarrollar capacidades de modelado similares.

World Labs de Fei-Fei Li

Fei-Fei Li, la profesora de Stanford famosa por inventar ImageNet, cofundó World Labs en 2024 con un respaldo inicial de 230 millones de dólares de firmas de capital de riesgo incluyendo Andreessen Horowitz, New Enterprise Associates y Radical Ventures.

La misión declarada de la empresa es elevar los modelos de IA del plano 2D de píxeles a mundos 3D completos, tanto virtuales como reales, dotándolos de inteligencia espacial tan rica como la nuestra. Li define la inteligencia espacial como la capacidad de comprender, razonar, interactuar y generar mundos 3D.

Li ve aplicaciones para los modelos del mundo en varias áreas:

Campos creativos que requieren universos infinitos
Robótica e interacción física
Cualquier dominio que necesite razonamiento 3D complejo

El desafío principal es la escasez de datos. A diferencia del lenguaje, que los humanos han refinado durante siglos, la inteligencia espacial está menos desarrollada. Li señala que crear modelos 3D detallados del entorno inmediato es sorprendentemente difícil sin entrenamiento. Recopilar datos suficientes requiere ingeniería sofisticada, adquisición, procesamiento y síntesis.

Advanced Machine Intelligence de Yann LeCun

Yann LeCun, el científico jefe de IA saliente de Meta, está lanzando Advanced Machine Intelligence (AMI Labs) para construir modelos del mundo que considera más competentes que los LLM. LeCun argumenta que estos sistemas poseen sentido común, capacidad de razonamiento, habilidades de planificación y memoria persistente.

En una publicación de LinkedIn en noviembre, LeCun declaró que AMI Labs busca provocar la próxima gran revolución en la IA: sistemas que comprendan el mundo físico, tengan memoria persistente, puedan razonar y planificar secuencias de acciones complejas.

El 19 de diciembre, LeCun anunció que reclutó a Alex LeBrun, cofundador y CEO de Nabla, como CEO de AMI Labs. LeBrun declaró que la IA en atención médica está entrando en una era donde la confiabilidad, el determinismo y la simulación importan tanto como la inteligencia lingüística. Agregó que el acceso a la tecnología de modelos del mundo complementará los LLM actuales y ayudará a desbloquear sistemas autónomos seguros para clínicos.

Antes de lanzar AMI Labs, LeCun trabajó en investigaciones similares en Meta usando datos de video para entrenar modelos. El enfoque implica ejecutar simulaciones que abstraen videos a diferentes niveles en lugar de predecir a nivel de píxeles. Esto crea una representación abstracta que elimina detalles impredecibles mientras permite predicciones dentro de esa representación.

Moonvalley y aplicaciones industriales

Moonvalley, fundada por ex investigadores de DeepMind, está desarrollando en silencio modelos del mundo para IA generativa de video. En marzo, la empresa presentó Marey, su primer modelo de generación de video.

Mateusz Malinowski, director científico de Moonvalley, explicó que la empresa está pensando en modelos del mundo e inteligencia multimodal visual. El objetivo es ir más allá de los sistemas puramente visuales hacia modelos que comprendan no solo lo que ven, sino cómo funciona el mundo.

Las aplicaciones para los modelos del mundo incluyen:

Robótica humanoides
Planificación del mundo real
Cine con modelado de movimiento
Modelado de cuerpos blandos

Malinowski señaló que mientras los modelos del mundo comparten objetivos a largo plazo, los enfoques difieren entre empresas. Moonvalley se enfoca en usar modelos de video como ciudadanos de primera clase, donde la inteligencia espacial es más implícita. Este enfoque parece más adecuado para cine y robótica a corto plazo debido a las capacidades de modelado de movimiento y cuerpos blandos.

"Los humanos no solo sobrevivimos, vivimos y trabajamos, sino que construimos civilización más allá del lenguaje."
— Fei-Fei Li

"Nuestro objetivo es elevar los modelos de IA del plano 2D de píxeles a mundos 3D completos — tanto virtuales como reales — dotándolos de inteligencia espacial tan rica como la nuestra."
— World Labs

"Si te pido que cierres los ojos ahora mismo y dibujes o construyas un modelo 3D del entorno que te rodea, no es tan fácil."
— Fei-Fei Li

"Requerimos ingeniería de datos, adquisición de datos, procesamiento de datos y síntesis de datos cada vez más sofisticados."
— Fei-Fei Li

"Provocar la próxima gran revolución en la IA: sistemas que comprendan el mundo físico, tengan memoria persistente, puedan razonar y planificar secuencias de acciones complejas."
— Yann LeCun

"La IA en atención médica está entrando en una nueva era, una donde la confiabilidad, el determinismo y la simulación importan tanto como la inteligencia lingüística."
— Alex LeBrun

"La idea básica es que no predices a nivel de píxeles. Entrenas un sistema para ejecutar una representación abstracta del video para que puedas hacer predicciones en esa representación abstracta, y con suerte esta representación eliminará todos los detalles que no pueden ser predichos."
— Yann LeCun

"Estamos pensando en modelos del mundo e inteligencia multimodal visual. Queremos ir más allá de los sistemas puramente visuales hacia algo más amplio — modelos que comprendan no solo lo que ven, sino cómo funciona el mundo."
— Mateusz Malinowski