Если вы хотите получать не случайные картинки, а чёткие и логичные сцены, важно уметь правильно строить промт.
Для этого мною используется техника разбивки сцены на слои.
Не претеендую, конечно, на абсолютную истину. Но такая техника позволяет не просто перечислить отдельные элементы, а выстроить их в цельную, продуманную композицию и менять конкретные элементы, если результат генерации вас не сильно устраивает. Такой подход к созданию промтов позволяет контролировать результат и получать именно ту сцену, которую вы задумали. Ну и разумеется, это применимо только для генераторов с большим контекстным окном, на вроде Sora. Для Stable Diffusion лучше применять предобученные Lora, а у Midjourney длина промта меньше и имеет смысл выстраивать его из ключевых слов, а не "человеческого" описания. Но перейдем к сути техники именно для Sora.
Что такое слои?
Любая картинка состоит из нескольких планов и элементов, каждый из которых отвечает за свою часть впечатления.
Первый слой — фон. Это место действия, которое формирует общее настроение и пространство. Важно не просто указать "комната" или "улица", а описать фактуру, объекты, атмосферу. Фон не должен быть мёртвым — если возможно, добавляйте динамику: открытую дверь, ветер, колышущиеся занавески, движение листвы. Это делает сцену живой.
Второй слой — главный персонаж. Кто он, что делает, как выглядит. Нужно описать не только внешность, но и позу, выражение лица, жесты. Чем конкретнее, тем лучше. Не "кот на столе", а "пушистый рыжий кот, сидящий на столе и лижущий лапку".
Третий слой — освещение. Оно определяет характер сцены. Откуда падает свет? Дневной он или ночной? Мягкий или жёсткий? Освещение выделяет главные элементы и формирует восприятие всей сцены.
Четвёртый слой — дополнительные объекты. Это мелкие, но важные детали, которые создают ощущение достоверности. Посуда, скатерть, яблоки, книги — всё, что делает пространство обжитым.
Пятый слой — цветовая гамма. Какие цвета доминируют? Какие оттенки должны выделяться? Это задаёт настроение и стилистическое единство.
Шестой слой — настроение. Что должен чувствовать зритель, глядя на картинку? Уют, тревога, ирония, торжественность — всё это влияет на выбор ракурсов, мимики и цвета.
Седьмой слой — стиль. Это финальная инструкция для генератора. Реализм, иллюстрация, плакат, комикс — нужно всегда точно указать.
Такой подход позволяет ещё до генерации чётко представить картинку в голове. Промт становится не просто списком объектов, а сценарием изображения.
Рассмотрим пример, как эта техника работает на практике.
Как видно, каждый слой отвечает за свою часть восприятия. Фон и динамика — за пространство и жизнь. Персонаж — за сюжет. Освещение — за акценты. Дополнительные объекты — за правдоподобие. Цвет — за единство. Настроение — за эмоциональный отклик. Стиль — за общее визуальное направление.
Вот результат генерации по промту.
Также держите скелет оного, в качестве шпаргалки:
Base
Background:
Main subject:
Lighting:
Additional objects:
Color palette:
Style:
Keywords: