M
MercyNews
Home
Back
Два брата создали текстово-видео модель с нуля
Технологии

Два брата создали текстово-видео модель с нуля

Hacker News7h ago
3 мин чтения
📋

Ключевые факты

  • Сахил и Ману, два брата, потратили два года на обучение текстово-видео модели с нуля и выпустили её под лицензией Apache 2.0.
  • Модель с 2 миллиардами параметров генерирует 2-5 секунд видео в разрешении 360p или 720p, её возможности сравнимы с моделью Alibaba Wan 2.1 1.3B.
  • Разработка была сосредоточена на создании эффективных конвейеров курирования, включая ручную разметку эстетических свойств и тонкую настройку VLM для масштабной фильтрации.
  • Модель использует T5 для кодирования текста, Wan 2.1 VAE для сжатия и архитектуру на основе DiT-варианта, обученную с помощью сопоставления потоков.
  • Текущие сильные стороны включают мультяшные/анимационные стили, сцены с едой и природой, а также простые движения персонажей, в то время как сложная физика и быстрые движения остаются проблемными.
  • Братья рассматривают это как ступеньку к передовым возможностям, с планами по пост-обучению, дистилляции и интеграции аудио.

Краткое изложение

Два брата завершили двухлетний путь создания текстово-видео модели с нуля и выпустили её как программное обеспечение с открытым исходным кодом. Проект, возглавляемый Сахилом и Ману, демонстрирует, что независимые разработчики могут конкурировать в сфере передового ИИ без огромных корпоративных ресурсов.

Полученная модель содержит 2 миллиарда параметров и может генерировать короткие видеоклипы по текстовым описаниям. Хотя она не претендует на соответствие производительности коммерческих систем, таких как Sora или Veo, братья рассматривают свою работу как важную ступеньку к передовым возможностям.

Двухлетнее путешествие

Братья начали свою работу в начале 2024 года, выпустив свою первую модель в январе того же года — до того, как OpenAI Sora стал хитом. Их первым релизом был 180p, 1-секундный GIF-бот, основанный на Stable Diffusion XL. Однако они быстро обнаружили фундаментальные ограничения при использовании моделей, основанных на изображениях, для генерации видео.

Временные VAE изображений не понимают временную согласованность, и без исходных данных обучения невозможно плавно переходить между распределениями изображений и видео. В какой-то момент братья определили, что им лучше начать заново, чем пытаться исправить существующие решения.

Их вторая версия представляет собой полную перестройку с нуля. Модель использует:

  • T5 для кодирования текста
  • Wan 2.1 VAE для сжатия
  • Архитектуру на основе DiT-варианта, обученную с помощью сопоставления потоков

Интересно, что, хотя они создали свой собственный временной VAE, в итоге они использовали меньшую версию Wan, так как она обеспечивала эквивалентную производительность при экономии затрат на встраивание. Братья обязались вскоре опубликовать свой VAE с открытым исходным кодом.

"Мы не утверждаем, что достигли рубежа. Для нас это ступенька к SOTA — доказательство того, что мы можем обучать эти модели с нуля и до конца".

— Сахил и Ману, разработчики модели

Техническая архитектура

Модель генерирует 2-5 секунд видео в разрешении 360p или 720p. По размеру модели ближайшим сравнением является модель Alibaba Wan 2.1 1.3B, хотя братья сообщают, что их модель достигает значительно лучшего захвата движения и эстетики в их тестах.

Большая часть времени разработки была потрачена не на саму архитектуру модели, а на создание конвейеров курирования, которые действительно работают. Это включало ручную разметку эстетических свойств и тонкую настройку моделей Vision-Language (VLM) для фильтрации данных обучения в масштабе.

На вопрос об их подходе братья объяснили свою философию:

Продукты являются расширением возможностей базовой модели. Если пользователи хотят функцию, которую модель не поддерживает — согласованность персонажей, управление камерой, редактирование, отображение стилей и т.д. — вы застреваете. Чтобы построить желаемый продукт, нам нужно обновить саму модель.

Эта перспектива определяет их решение взять на себя весь процесс разработки, несмотря на значительные вычислительные затраты.

Возможности и ограничения

Модель демонстрирует особые сильные стороны в определённых областях. Обширное тестирование позволило братьям определить, что работает лучше всего:

  • Мультяшные и анимационные стили
  • Сцены с едой и природой
  • Простые движения персонажей

Однако модель всё ещё сталкивается с трудностями в более сложных сценариях. Области, которые работают плохо, включают:

  • Сложные физические симуляции
  • Последовательности быстрого движения (гимнастика, танцы)
  • Согласованная отрисовка текста

Братья открыто говорят о положении своей модели в текущем ландшафте. Они прямо заявляют: "Мы не утверждаем, что достигли рубежа". Вместо этого они рассматривают этот релиз как доказательство концепции — демонстрацию того, что они могут обучать эти модели с нуля и до конца.

Зачем создавать ещё одну модель?

При наличии коммерческих предложений, таких как Google Veo и OpenAI Sora, решение братьев создавать модель с нуля может показаться нелогичным. Их рассуждения сосредоточены на контроле над продуктом и гибкости.

Когда коммерческие модели не поддерживают определённые функции, разработчики ограничены тем, что эти модели могут делать. Братья считают, что для создания продукта, который они задумывают, им нужно обновить саму модель. Это требует владения процессом разработки, а не зависимости от внешних API.

Это значительный риск, требующий существенных вычислительных ресурсов GPU и времени, чтобы окупиться, но они считают его правильной долгосрочной стратегией. Их подход позволяет им:

  • Настроить возможности для конкретных случаев использования
  • Быстро итерировать улучшения модели
  • Контролировать весь технологический стек
  • Создавать функции, которые не поддерживаются коммерческими моделями

Дорожная карта на будущее

Братья наметили чёткую дорожную карту для будущего развития. Их непосредственные приоритеты включают:

  • Пост-обучение для физики и деформаций
  • Дистилляция для оптимизации скорости
  • Интеграцию аудио-возможностей
  • Масштабирование модели для улучшения производительности

Они также вели подробный "лабораторный журнал" всех своих экспериментов в Notion, которым они готовы поделиться с другими, заинтересованными в технических деталях создания моделей с нуля.

Модель выпущена под лицензией Apache 2.0, что делает её свободно доступной для коммерческого и некоммерческого использования. Этот подход с открытым исходным кодом согласуется с их целью демократизировать доступ к передовым возможностям ИИ.

Взгляд в будущее

Релиз этой модели с 2 миллиардами параметров представляет собой не только техническое достижение — он демонстрирует, что независимые разработчики могут конкурировать в сфере передового ИИ при наличии достаточной преданности и ресурсов. Двухлетний путь братьев от 180p GIF-бота до сложной текстово-видео модели показывает, что возможно при сосредоточенном усилии.

Хотя модель может пока не соответствовать производительности коммерческих гигантов, она служит ступенькой к передовым возможностям. Приверженность братьев разработке с открытым исходным кодом

Continue scrolling for more

ИИ преобразует математические исследования и доказательства
Technology

ИИ преобразует математические исследования и доказательства

Искусственный интеллект перешел из статуса непостоянного обещания в реальность, преобразуя математические исследования. Модели машинного обучения теперь генерируют оригинальные теоремы.

Just now
4 min
350
Read Article
Microsoft сообщает о сбоях в работе сервиса электронной почты Outlook
Technology

Microsoft сообщает о сбоях в работе сервиса электронной почты Outlook

Пользователи сообщили о сбоях в работе сервиса электронной почты Outlook в социальных сетях. Этот инцидент произошел спустя несколько месяцев после крупного отключения, которое длилось более 21 часа.

2h
5 min
6
Read Article
Акции Intel упали из-за слабых прогнозов
Economics

Акции Intel упали из-за слабых прогнозов

Intel сообщила о четвертном квартальном отчете, который превзошел ожидания Wall Street, но предоставила слабые прогнозы на текущий квартал, что вызвало падение акций компании.

2h
5 min
6
Read Article
Ms. Rachel Apologizes for Liking Antisemitic Instagram Comment: ‘I’m a Human Who Makes Mistakes’
Society

Ms. Rachel Apologizes for Liking Antisemitic Instagram Comment: ‘I’m a Human Who Makes Mistakes’

Rachel Accurso, the prominent children’s entertainer known as Ms. Rachel, came under fire after screenshots circulated online that showed her Instagram account liking a comment that read, “Free america from the Jews.” The antisemitic comment appeared under a now-deleted post shared by Accurso that read “Free Palestine, Free Sudan, Free Congo, Free Iran.” The screenshots […]

3h
3 min
0
Read Article
Intel прогнозирует замедление роста на фоне проблем в цепочках поставок
Economics

Intel прогнозирует замедление роста на фоне проблем в цепочках поставок

Intel опубликовала разочаровывающий прогноз роста, связав его с сохраняющимися ограничениями в цепочках поставок, которые сдерживают производственные мощности. Компания описала эти проблемы как «отраслевые», указывая на более широкие вызовы в секторе полупроводников.

3h
5 min
6
Read Article
Прогнозы Илона Маска на Давосе: Проверка реальности
Technology

Прогнозы Илона Маска на Давосе: Проверка реальности

Илон Маск выступил на Давосе с амбициозными прогнозами о роботах, космосе и старении. Однако история показывает, что его прогнозы часто не сбываются в срок.

3h
5 min
9
Read Article
Экономический арсенал Европы: Единый рынок как стратегическое оружие
Politics

Экономический арсенал Европы: Единый рынок как стратегическое оружие

Аналитик утверждает, что ЕС начал полностью использовать экономическую мощь своего единого рынка, используя его как стратегический инструмент для навигации в сложных геополитических переговорах.

3h
5 min
6
Read Article
Министр культуры Израиля раскритиковал номинированные на Оскар фильмы
Politics

Министр культуры Израиля раскритиковал номинированные на Оскар фильмы

Министр культуры Израиля Мики Зохар раскритиковал два номинированных на Оскар фильма, заявив, что они «усиливают повествование врагов» и вредят репутации страны.

3h
5 min
6
Read Article
США подают заявку на проведение Всемирной выставки 2035 года в Майами
Politics

США подают заявку на проведение Всемирной выставки 2035 года в Майами

США официально объявили о заявке на проведение Всемирной выставки 2035 года. Президент Трамп предложил Майами в качестве города-хозяина для этого крупного международного события.

3h
5 min
6
Read Article
Трамп подал в суд на JPMorgan на $5 млрд из-за закрытия счетов
Politics

Трамп подал в суд на JPMorgan на $5 млрд из-за закрытия счетов

Бывший президент Дональд Трамп подал иск на $5 млрд против JPMorgan Chase, обвинив банк в закрытии его счетов после штурма Капитолия 6 января. Банк отверг обвинения.

3h
7 min
7
Read Article
🎉

You're all caught up!

Check back later for more stories

На главную