Два брата создали текстово-видео модель с нуля

📋

Ключевые факты

Сахил и Ману, два брата, потратили два года на обучение текстово-видео модели с нуля и выпустили её под лицензией Apache 2.0.
Модель с 2 миллиардами параметров генерирует 2-5 секунд видео в разрешении 360p или 720p, её возможности сравнимы с моделью Alibaba Wan 2.1 1.3B.
Разработка была сосредоточена на создании эффективных конвейеров курирования, включая ручную разметку эстетических свойств и тонкую настройку VLM для масштабной фильтрации.
Модель использует T5 для кодирования текста, Wan 2.1 VAE для сжатия и архитектуру на основе DiT-варианта, обученную с помощью сопоставления потоков.
Текущие сильные стороны включают мультяшные/анимационные стили, сцены с едой и природой, а также простые движения персонажей, в то время как сложная физика и быстрые движения остаются проблемными.
Братья рассматривают это как ступеньку к передовым возможностям, с планами по пост-обучению, дистилляции и интеграции аудио.

Краткое изложение

Два брата завершили двухлетний путь создания текстово-видео модели с нуля и выпустили её как программное обеспечение с открытым исходным кодом. Проект, возглавляемый Сахилом и Ману, демонстрирует, что независимые разработчики могут конкурировать в сфере передового ИИ без огромных корпоративных ресурсов.

Полученная модель содержит 2 миллиарда параметров и может генерировать короткие видеоклипы по текстовым описаниям. Хотя она не претендует на соответствие производительности коммерческих систем, таких как Sora или Veo, братья рассматривают свою работу как важную ступеньку к передовым возможностям.

Двухлетнее путешествие

Братья начали свою работу в начале 2024 года, выпустив свою первую модель в январе того же года — до того, как OpenAI Sora стал хитом. Их первым релизом был 180p, 1-секундный GIF-бот, основанный на Stable Diffusion XL. Однако они быстро обнаружили фундаментальные ограничения при использовании моделей, основанных на изображениях, для генерации видео.

Временные VAE изображений не понимают временную согласованность, и без исходных данных обучения невозможно плавно переходить между распределениями изображений и видео. В какой-то момент братья определили, что им лучше начать заново, чем пытаться исправить существующие решения.

Их вторая версия представляет собой полную перестройку с нуля. Модель использует:

T5 для кодирования текста
Wan 2.1 VAE для сжатия
Архитектуру на основе DiT-варианта, обученную с помощью сопоставления потоков

Интересно, что, хотя они создали свой собственный временной VAE, в итоге они использовали меньшую версию Wan, так как она обеспечивала эквивалентную производительность при экономии затрат на встраивание. Братья обязались вскоре опубликовать свой VAE с открытым исходным кодом.

"Мы не утверждаем, что достигли рубежа. Для нас это ступенька к SOTA — доказательство того, что мы можем обучать эти модели с нуля и до конца".
— Сахил и Ману, разработчики модели

Техническая архитектура

Модель генерирует 2-5 секунд видео в разрешении 360p или 720p. По размеру модели ближайшим сравнением является модель Alibaba Wan 2.1 1.3B, хотя братья сообщают, что их модель достигает значительно лучшего захвата движения и эстетики в их тестах.

Большая часть времени разработки была потрачена не на саму архитектуру модели, а на создание конвейеров курирования, которые действительно работают. Это включало ручную разметку эстетических свойств и тонкую настройку моделей Vision-Language (VLM) для фильтрации данных обучения в масштабе.

На вопрос об их подходе братья объяснили свою философию:

Продукты являются расширением возможностей базовой модели. Если пользователи хотят функцию, которую модель не поддерживает — согласованность персонажей, управление камерой, редактирование, отображение стилей и т.д. — вы застреваете. Чтобы построить желаемый продукт, нам нужно обновить саму модель.

Эта перспектива определяет их решение взять на себя весь процесс разработки, несмотря на значительные вычислительные затраты.

Возможности и ограничения

Модель демонстрирует особые сильные стороны в определённых областях. Обширное тестирование позволило братьям определить, что работает лучше всего:

Мультяшные и анимационные стили
Сцены с едой и природой
Простые движения персонажей

Однако модель всё ещё сталкивается с трудностями в более сложных сценариях. Области, которые работают плохо, включают:

Сложные физические симуляции
Последовательности быстрого движения (гимнастика, танцы)
Согласованная отрисовка текста

Братья открыто говорят о положении своей модели в текущем ландшафте. Они прямо заявляют: "Мы не утверждаем, что достигли рубежа". Вместо этого они рассматривают этот релиз как доказательство концепции — демонстрацию того, что они могут обучать эти модели с нуля и до конца.

Зачем создавать ещё одну модель?

При наличии коммерческих предложений, таких как Google Veo и OpenAI Sora, решение братьев создавать модель с нуля может показаться нелогичным. Их рассуждения сосредоточены на контроле над продуктом и гибкости.

Когда коммерческие модели не поддерживают определённые функции, разработчики ограничены тем, что эти модели могут делать. Братья считают, что для создания продукта, который они задумывают, им нужно обновить саму модель. Это требует владения процессом разработки, а не зависимости от внешних API.

Это значительный риск, требующий существенных вычислительных ресурсов GPU и времени, чтобы окупиться, но они считают его правильной долгосрочной стратегией. Их подход позволяет им:

Настроить возможности для конкретных случаев использования
Быстро итерировать улучшения модели
Контролировать весь технологический стек
Создавать функции, которые не поддерживаются коммерческими моделями

Дорожная карта на будущее

Братья наметили чёткую дорожную карту для будущего развития. Их непосредственные приоритеты включают:

Пост-обучение для физики и деформаций
Дистилляция для оптимизации скорости
Интеграцию аудио-возможностей
Масштабирование модели для улучшения производительности

Они также вели подробный "лабораторный журнал" всех своих экспериментов в Notion, которым они готовы поделиться с другими, заинтересованными в технических деталях создания моделей с нуля.

Модель выпущена под лицензией Apache 2.0, что делает её свободно доступной для коммерческого и некоммерческого использования. Этот подход с открытым исходным кодом согласуется с их целью демократизировать доступ к передовым возможностям ИИ.

Взгляд в будущее

Релиз этой модели с 2 миллиардами параметров представляет собой не только техническое достижение — он демонстрирует, что независимые разработчики могут конкурировать в сфере передового ИИ при наличии достаточной преданности и ресурсов. Двухлетний путь братьев от 180p GIF-бота до сложной текстово-видео модели показывает, что возможно при сосредоточенном усилии.

Хотя модель может пока не соответствовать производительности коммерческих гигантов, она служит ступенькой к передовым возможностям. Приверженность братьев разработке с открытым исходным кодом