DeepDream для видео достигает временной согласованности

📋

Ключевые факты

Реализация использует оптический поток для преобразования предыдущих галлюцинаций в текущий кадр.
Маскирование окклюзии предотвращает появление призраков и перенос галлюцинаций при движении объектов.
Инструмент поддерживает несколько предварительно обученных классификаторов изображений, включая GoogLeNet.
Он работает на оборудовании GPU, CPU и Apple Silicon.
Расширенные параметры, такие как слои, октавы и итерации, остаются функциональными.

Краткое содержание

Разработчик обновил реализацию PyTorch DeepDream, добавив поддержку видео с временной согласованностью. Эта модификация позволяет создавать плавные DeepDream видео с минимальным мерцанием, которое является распространенной проблемой в стандартных реализациях.

Проект отличается высокой гибкостью, поддерживает расширенные параметры и несколько предварительно обученных классификаторов изображений, включая GoogLeNet. Он предназначен для работы на различных аппаратных платформах, включая GPU, CPU и процессоры Apple Silicon.

Техническая реализация

Основная инновация заключается в применении алгоритмов временной согласованности. Модифицируя оригинальный форк PyTorch DeepDream, разработчик обеспечивает плавное развитие визуальных галлюцинаций по кадрам видео, а не генерацию независимых, шумных результатов для каждого кадра.

Этот подход значительно уменьшает эффект стробирования или мерцания, часто наблюдаемый в AI-сгенерированном видео.

Ключевые особенности и алгоритмы 🧠

Реализация основывается на двух основных методах компьютерного зрения для поддержания визуальной стабильности:

Оптический поток: Эта техника преобразует галлюцинации из предыдущих кадров в текущий кадр, обеспечивая согласованный визуальный базис.
Маскирование окклюзии: Предотвращает появление призраков и перенос галлюцинаций при движении объектов, гарантируя, что артефакты не остаются некорректно.

Эти функции работают вместе для создания высококачественного, стабильного видео.

Гибкость и совместимость

Несмотря на сложную обработку видео, инструмент сохраняет гибкость оригинальной реализации DeepDream. Пользователи по-прежнему могут настраивать расширенные параметры, такие как слои, октавы и итерации, для кастомизации визуального стиля вывода.

Более того, код поддерживает несколько предварительно обученных классификаторов изображений, с явным упоминанием GoogLeNet. Совместимость распространяется на широкий спектр оборудования, функционируя на стандартных GPU, CPU и архитектуре Apple Silicon.

Доступность и использование

Проект доступен в публичном репозитории, где разработчик поделился кодом. Примеры видео, демонстрирующие временную согласованность и визуальные эффекты, включены в репозиторий для ознакомления.

Заинтересованные пользователи могут получить доступ к репозиторию, чтобы скачать код и посмотреть результаты работы оптического потока и техники маскирования окклюзии в действии.