📋

Ключевые факты

  • Фей-Фей Ли основала World Labs в 2024 году с первоначальным капиталом в 230 млн долларов
  • Янн Лекун запускает Advanced Machine Intelligence (AMI Labs) после ухода из Meta
  • Мировые модели имитируют ментальные конструкции человека для предсказания исходов
  • Moonvalley представила Marey, свою первую модель генерации видео, в марте
  • Мировые модели требуют понимания 3D-окружения и физической реальности

Краткое содержание

Ведущие исследователи ИИ разрабатывают мировые модели как альтернативу большим языковым моделям. Ученые-компьютерщики, такие как Фей-Фей Ли и Янн Лекун, создают системы, которые имитируют ментальные конструкции человека для предсказания исходов.

В отличие от БЯМ, которые определяют выводы на основе статистических взаимосвязей между словами, мировые модели стремятся понять и предсказать физическую реальность. Эти системы сталкиваются с проблемами данных, но предлагают применения в робототехнике, здравоохранении и творческих областях.

Что такое мировые модели?

Мировые модели представляют собой фундаментальный сдвиг в исследованиях искусственного интеллекта. В отличие от больших языковых моделей, обрабатывающих текст через статистические закономерности, эти системы пытаются имитировать ментальные конструкции, которые создают люди для понимания своего окружения.

В то время как OpenAI, Anthropic и крупные технологические компании инвестируют миллиарды в языковые модели, небольшая группа элитных исследователей преследует то, что они считают следующим прорывом. Основная концепция заключается в создании ИИ-систем, которые предсказывают, что произойдет дальше, аналогично тому, как люди используют интуицию, основанную на опыте.

Профессор Массачусетского технологического института Джей Райт Форреллер объяснил эту концепцию в своей статье 1971 года, отметив, что люди постоянно используют ментальные модели для принятия решений. Эти модели представляют выбранные концепции и взаимосвязи, а не содержат саму реальность. Исследователи считают, что если ИИ должен превзойти человеческий интеллект, он должен развить аналогичные моделирующие способности.

World Labs Фей-Фей Ли

Фей-Фей Ли, профессор Стэнфорда, знаменитая созданием ImageNet, совместно основала World Labs в 2024 году с первоначальным капиталом в 230 млн долларов от венчурных фирм, включая Andreessen Horowitz, New Enterprise Associates и Radical Ventures.

Заявленная миссия компании — поднять ИИ-модели с 2D-плоскости пикселей до полных 3D-миров, как виртуальных, так и реальных, наделяя их пространственным интеллектом, таким же богатым, как у нас. Ли определяет пространственный интеллект как способность понимать, рассуждать, взаимодействовать и генерировать 3D-миры.

Ли видит применения мировых моделей в нескольких областях:

  • Творческие области, требующие бесконечных вселенных
  • Робототехника и физическое взаимодействие
  • Любая область, требующая сложных 3D-рассуждений

Основная проблема — нехватка данных. В отличие от языка, который люди совершенствовали веками, пространственный интеллект менее развит. Ли отмечает, что создание детальных 3D-моделей непосредственного окружения без обучения — удивительно сложная задача. Сбор достаточных данных требует сложной инженерии, сбора, обработки и синтеза.

Advanced Machine Intelligence Янна Лекуна

Янн Лекун, главный ученый по ИИ в Meta, запускает Advanced Machine Intelligence (AMI Labs) для создания мировых моделей, которые, по его мнению, болееcompetentны, чем БЯМ. Лекун утверждает, что эти системы обладают здравым смыслом, способностью к рассуждению, планированию и постоянной памятью.

В ноябрьском посте в LinkedIn Лекун заявил, что AMI Labs стремится произвести следующую большую революцию в ИИ: системы, которые понимают физический мир, имеют постоянную память, могут рассуждать и планировать сложные последовательности действий.

19 декабря Лекун объявил, что он нанял Алекса Лебрюна, сооснователя и генерального директора Nabla, в качестве генерального директора AMI Labs. Лебрюн заявил, что ИИ в здравоохранении входит в эру, где надежность, детерминизм и моделирование имеют такое же значение, как языковой интеллект. Он добавил, что доступ к технологии мировых моделей дополнит сегодняшние БЯМ и поможет открыть безопасные автономные системы для клиницистов.

До запуска AMI Labs Лекун работал над аналогичными исследованиями в Meta, используя видеоданные для обучения моделей. Подход включает запуск симуляций, которые абстрагируют видео на разных уровнях, а не предсказывают на уровне пикселей. Это создает абстрактное представление, которое устраняет непредсказуемые детали, позволяя делать предсказания в рамках этого представления.

Moonvalley и отраслевые применения

Moonvalley, основанная бывшими исследователями DeepMind, тихо разрабатывает мировые модели для генеративного ИИ-видео. В марте компания представила Marey, свою первую модель генерации видео.

Матеуш Малиновский, научный директор Moonvalley, объяснил, что компания думает о мировых моделях и визуальном мультимодальном интеллекте. Цель — выйти за пределы чисто визуальных систем в модели, которые понимают не только то, что они видят, но и то, как работает мир.

Применения мировых моделей включают:

  • Гуманоидная робототехника
  • Планирование в реальном мире
  • Кинопроизводство с моделированием движения
  • Моделирование мягких тел

Малиновский отметил, что, хотя мировые модели разделяют долгосрочные цели, подходы различаются между компаниями. Moonvalley фокусируется на использовании видео-моделей как первоклассных граждан, где пространственный интеллект более имплицитен. Этот подход кажется более подходящим для кинопроизводства и робототехники в краткосрочной перспективе из-за возможностей моделирования движения и мягких тел.

"Люди не только выживают, живут и работают, но и строят цивилизацию за пределами языка."

— Фей-Фей Ли

"Мы стремимся поднять ИИ-модели с 2D-плоскости пикселей до полных 3D-миров — как виртуальных, так и реальных — наделяя их пространственным интеллектом, таким же богатым, как у нас."

— World Labs

"Если я попрошу вас прямо сейчас закрыть глаза и нарисовать или построить 3D-модель вашего окружения, это не так просто."

— Фей-Фей Ли

"Нам требуется все более сложная инженерия данных, сбор данных, обработка данных и синтез данных."

— Фей-Фей Ли

"Произвести следующую большую революцию в ИИ: системы, которые понимают физический мир, имеют постоянную память, могут рассуждать и планировать сложные последовательности действий."

— Янн Лекун

"ИИ в здравоохранении входит в новую эру, где надежность, детерминизм и моделирование имеют такое же значение, как языковой интеллект."

— Алекс Лебрюн

"Основная идея в том, что вы не предсказываете на уровне пикселей. Вы обучаете систему запускать абстрактное представление видео, чтобы вы могли делать предсказания в этом абстрактном представлении, и, надеюсь, это представление устранит все детали, которые нельзя предсказать."

— Янн Лекун

"Мы думаем о мировых моделях и визуальном мультимодальном интеллекте. Мы хотим выйти за пределы чисто визуальных систем в нечто более широкое — модели, которые понимают не только то, что они видят, но и то, как работает мир."

— Матеуш Малиновский