Ученые создали нейросеть, способную переводить текст в видео
Американские ученые разработали нейронную сеть, позволяющую генерировать видеоряд по короткому отрывку текста, например, «игра в гольф на траве» или «кайтсерфинг на море». Длина видео — 32 кадра (около 1 секунды), разрешение — 64×64 пикселя.
Генерация происходит в два этапа. На первой стадии нейросеть улавливает суть текста и переводит его в мутное изображение с пятном в том месте, где должно происходить основное действие. Следующий шаг — генерация самого действия.
Авторы научили вторую нейросеть критиковать работу первой и с повышением качества видео поднимать требования. Если задача состоит в том, чтобы проиллюстрировать существующий «парусный спорт на море», второй алгоритм будет ожидать видеоролика, сопоставимого с реальным. Но рамками физического мира нейросеть не ограничена и способна генерировать видео абсурдных действий, к примеру,
«парусный спорт на снегу»:
и «игра в гольф в бассейне»:
Исследователи тренировали нейросети на десяти видах сцен. Простой алгоритм классификации правильно определял действие из предложенных вариантов в половине случаев.
Но американские учёные, видимо, не знали о существовании такого феномена нейросети, как @mainka...
Источники: раз, два.