Серия «ИИ-видео»

6

Эпохи развития генерации видео

Мифологические времена

Генерация изображений долгое время была мечтой. Сначала это делали GAN-сети, но позже появилась более совершенная технология "Diffusion". Первые сгенерированные изображения были ужасающими. Ничего стабильного, ничего правильного, но при этом отдаленно похоже на живое. Если вам не нравится, когда на AI-картинке по шесть пальцев на руках, то на первых сгенерированных изображениях неправильно было вообще всё.

О генерации видео тогда никто даже не заикался.

Пещерный период

В 2022 году модели генерации изображений стали выдавать первые приемлемые результаты и начали привлекать внимание. Почти сразу же появились и первые идеи по генерации видео. Но о генераторах видео мало писали, ведь результаты были очень далеки от идеала.

Одной из реально работающих сетей была китайская нейросеть CogVideo (2022). Вот пример видео, сгенерированного этой сетью:

Видео, сгенерированное мной в сентябре 2022 года

Бронзовый век

В 2023 появилась тоже китайская нейросеть AnimateDiff (2023). Сейчас её стало возможно запустить в "пространстве Zero": AnimateDiff на Hugging Face.

На примере AnimateDiff хорошо видно, как устроены сети генерации видео - они состоят из двух моделей. Одна отвечает за движение объектов в кадре, а другая генерирует кадры, используя предыдущий кадр в качестве образца и задачу от модели движения.

Примеры видео, сгенерированных мной в 2023 году в AnimateDiff:

Человек собирает грибы

Чёрный кот есть пирожные

Античность

В начале 2024 года Stable Video представила генератор видео, который мог генерировать видео, представляющие художественный интерес. Первые видео, выложенные в моём блоге, были сделаны именно в Stable Video. Плюсы: это уже можно было смотреть. Минусы: анимация была странной и некрасивой.

Примеры видео:

Старинный зал

Акула

Средние века

С марта 2024 сервис генерации видео предоставил Haiper. Он был изначально бесплатен, что привлекло много пользователей.

Плюсы: Происходящее в кадре стало более "живым" за счёт быстрых движений. Минусы: логотип Haiper постоянно был в кадре (как выяснилось, совершенно напрасно, как раз тогда, когда Haiper, наконец сделал платные тарифы, убирающие логотип, появились более продвинутые сети и про Haiper все забыли 😂). Также скорость происходящего на видео часто превышала возможности генератора, что приводило к сбоям.

Нуарное сотворение вселенной

Аквариум

Возрождение

В апреле-мае 2024 получила распространение RunWayML Gen-2.

Плюсы: видео начали получаться красивыми и адекватными. Минусы: всё ещё недостаточная скорость движения происходящего в кадре.

Примеры видео:

Поход за грибами

Музыкальные инструменты под водой

Новое время

Май-июнь 2024: Luma.AI. Эта нейросеть начала "оживлять мемы" и делать другие шутливые вещи.

Плюсы: движение в кадре стало быстрым и естественным. Минусы: предметы часто "превращались в непонятное" (морфинг).

Примеры видео:

Алые паруса

Ромб

Новейшее время

Июль 2024: сервис RunWayML Alpha Gen-3. Немного сыроватый, выпущенный "как есть", чтобы перебить интерес к LumaAI. Однако технически уже превосходит Luma. Главная возможность - генерация видео до 60 секунд (через продление генерации).

Пример видео:

Шторм на Марсе

Ускорение смены эпох вызвано знаменитым роликом-демонстрацией работы нейросети Sora от OpenAI "Air Head":

Sora так и не была выложена в общий доступ, а работа с ней оказалась сложной. Подробнее о проблемах с Sora можно прочитать здесь. Для ролика с шариком потребовалось много попыток и серьёзная пост-обработка. С таким уровнем пост-обработки и в Stable Video можно было бы сделать что-то подобное.

Эпохи развития генерации видео Искусственный интеллект, Видеомонтаж, Ретроспектива, Обзор, Нейровидео, Видео, Без звука, Вертикальное видео, YouTube, Длиннопост

(Sora постоянно пыталась изобразить лицо на шарике, не понимая задумку авторов)

Поэтому можно уверенно сказать, что RunWayML Alpha Gen-3 достиг уровня Sora (в том числе и по возможной длительности ролика - до 1 минуты). А может быть даже и перегнал.

Заключение

В конце немного о моём канале: я давно слежу за генерацией видео и хотел создать канал с творческой генерацией. Это не обучающий канал, а именно канал с результатами работы. Поэтому у меня часто были объединены работы разных генераторов, придуман осмысленный сюжет и добавлено озвучивание.

Я очень благодарен зрителям, с которыми мы вместе прошли весь этот путь совершенствования видео от Античности до Новейшего времени. В некотором смысле считаю свою задумку выполненной. Пока новые видео не планирую больше делать, кроме как когда появится новый технологический период и мы перейдём в будущее 😇

Показать полностью 1 12
7

Конг и Годзилла, 1950-е

В тихом, заросшем джунглями уголке острова, где ещё не ступала нога человека, два титана - Конг и Годзилла - проводили свой очередной день. Они были не просто чудовищами, но и добрыми друзьями.

Обычно их дни проходили спокойно, но в один из дней что-то пошло не так...

Показать полностью
Отличная работа, все прочитано!