Исследователи ИИ создают мировые модели, выходящие за рамки языка

📋

Ключевые факты

Фей-Фей Ли основала World Labs в 2024 году с первоначальным капиталом в 230 млн долларов
Янн Лекун запускает Advanced Machine Intelligence (AMI Labs) после ухода из Meta
Мировые модели имитируют ментальные конструкции человека для предсказания исходов
Moonvalley представила Marey, свою первую модель генерации видео, в марте
Мировые модели требуют понимания 3D-окружения и физической реальности

Краткое содержание

Ведущие исследователи ИИ разрабатывают мировые модели как альтернативу большим языковым моделям. Ученые-компьютерщики, такие как Фей-Фей Ли и Янн Лекун, создают системы, которые имитируют ментальные конструкции человека для предсказания исходов.

В отличие от БЯМ, которые определяют выводы на основе статистических взаимосвязей между словами, мировые модели стремятся понять и предсказать физическую реальность. Эти системы сталкиваются с проблемами данных, но предлагают применения в робототехнике, здравоохранении и творческих областях.

Что такое мировые модели?

Мировые модели представляют собой фундаментальный сдвиг в исследованиях искусственного интеллекта. В отличие от больших языковых моделей, обрабатывающих текст через статистические закономерности, эти системы пытаются имитировать ментальные конструкции, которые создают люди для понимания своего окружения.

В то время как OpenAI, Anthropic и крупные технологические компании инвестируют миллиарды в языковые модели, небольшая группа элитных исследователей преследует то, что они считают следующим прорывом. Основная концепция заключается в создании ИИ-систем, которые предсказывают, что произойдет дальше, аналогично тому, как люди используют интуицию, основанную на опыте.

Профессор Массачусетского технологического института Джей Райт Форреллер объяснил эту концепцию в своей статье 1971 года, отметив, что люди постоянно используют ментальные модели для принятия решений. Эти модели представляют выбранные концепции и взаимосвязи, а не содержат саму реальность. Исследователи считают, что если ИИ должен превзойти человеческий интеллект, он должен развить аналогичные моделирующие способности.

World Labs Фей-Фей Ли

Фей-Фей Ли, профессор Стэнфорда, знаменитая созданием ImageNet, совместно основала World Labs в 2024 году с первоначальным капиталом в 230 млн долларов от венчурных фирм, включая Andreessen Horowitz, New Enterprise Associates и Radical Ventures.

Заявленная миссия компании — поднять ИИ-модели с 2D-плоскости пикселей до полных 3D-миров, как виртуальных, так и реальных, наделяя их пространственным интеллектом, таким же богатым, как у нас. Ли определяет пространственный интеллект как способность понимать, рассуждать, взаимодействовать и генерировать 3D-миры.

Ли видит применения мировых моделей в нескольких областях:

Творческие области, требующие бесконечных вселенных
Робототехника и физическое взаимодействие
Любая область, требующая сложных 3D-рассуждений

Основная проблема — нехватка данных. В отличие от языка, который люди совершенствовали веками, пространственный интеллект менее развит. Ли отмечает, что создание детальных 3D-моделей непосредственного окружения без обучения — удивительно сложная задача. Сбор достаточных данных требует сложной инженерии, сбора, обработки и синтеза.

Advanced Machine Intelligence Янна Лекуна

Янн Лекун, главный ученый по ИИ в Meta, запускает Advanced Machine Intelligence (AMI Labs) для создания мировых моделей, которые, по его мнению, болееcompetentны, чем БЯМ. Лекун утверждает, что эти системы обладают здравым смыслом, способностью к рассуждению, планированию и постоянной памятью.

В ноябрьском посте в LinkedIn Лекун заявил, что AMI Labs стремится произвести следующую большую революцию в ИИ: системы, которые понимают физический мир, имеют постоянную память, могут рассуждать и планировать сложные последовательности действий.

19 декабря Лекун объявил, что он нанял Алекса Лебрюна, сооснователя и генерального директора Nabla, в качестве генерального директора AMI Labs. Лебрюн заявил, что ИИ в здравоохранении входит в эру, где надежность, детерминизм и моделирование имеют такое же значение, как языковой интеллект. Он добавил, что доступ к технологии мировых моделей дополнит сегодняшние БЯМ и поможет открыть безопасные автономные системы для клиницистов.

До запуска AMI Labs Лекун работал над аналогичными исследованиями в Meta, используя видеоданные для обучения моделей. Подход включает запуск симуляций, которые абстрагируют видео на разных уровнях, а не предсказывают на уровне пикселей. Это создает абстрактное представление, которое устраняет непредсказуемые детали, позволяя делать предсказания в рамках этого представления.

Moonvalley и отраслевые применения

Moonvalley, основанная бывшими исследователями DeepMind, тихо разрабатывает мировые модели для генеративного ИИ-видео. В марте компания представила Marey, свою первую модель генерации видео.

Матеуш Малиновский, научный директор Moonvalley, объяснил, что компания думает о мировых моделях и визуальном мультимодальном интеллекте. Цель — выйти за пределы чисто визуальных систем в модели, которые понимают не только то, что они видят, но и то, как работает мир.

Применения мировых моделей включают:

Гуманоидная робототехника
Планирование в реальном мире
Кинопроизводство с моделированием движения
Моделирование мягких тел

Малиновский отметил, что, хотя мировые модели разделяют долгосрочные цели, подходы различаются между компаниями. Moonvalley фокусируется на использовании видео-моделей как первоклассных граждан, где пространственный интеллект более имплицитен. Этот подход кажется более подходящим для кинопроизводства и робототехники в краткосрочной перспективе из-за возможностей моделирования движения и мягких тел.

"Люди не только выживают, живут и работают, но и строят цивилизацию за пределами языка."
— Фей-Фей Ли

"Мы стремимся поднять ИИ-модели с 2D-плоскости пикселей до полных 3D-миров — как виртуальных, так и реальных — наделяя их пространственным интеллектом, таким же богатым, как у нас."
— World Labs

"Если я попрошу вас прямо сейчас закрыть глаза и нарисовать или построить 3D-модель вашего окружения, это не так просто."
— Фей-Фей Ли

"Нам требуется все более сложная инженерия данных, сбор данных, обработка данных и синтез данных."
— Фей-Фей Ли

"Произвести следующую большую революцию в ИИ: системы, которые понимают физический мир, имеют постоянную память, могут рассуждать и планировать сложные последовательности действий."
— Янн Лекун

"ИИ в здравоохранении входит в новую эру, где надежность, детерминизм и моделирование имеют такое же значение, как языковой интеллект."
— Алекс Лебрюн

"Основная идея в том, что вы не предсказываете на уровне пикселей. Вы обучаете систему запускать абстрактное представление видео, чтобы вы могли делать предсказания в этом абстрактном представлении, и, надеюсь, это представление устранит все детали, которые нельзя предсказать."
— Янн Лекун

"Мы думаем о мировых моделях и визуальном мультимодальном интеллекте. Мы хотим выйти за пределы чисто визуальных систем в нечто более широкое — модели, которые понимают не только то, что они видят, но и то, как работает мир."
— Матеуш Малиновский