Проблема с генерацией персонажей и стиля. Нужна помощь. Lora
Привет! Я создаю геймифицированный проект, основанный на уникальном визуальном мире — с маскотами, лором, уровнями, скинами, кастомизацией и мини-комиксами.
Я уже придумал визуальную концепцию и лор, прописал сезоны и развитие маскотов, написал сценарии мини-комиксов, однако упёрся в создание контента.
Ввиду скромных бюджетов (делаю на свои деньги) решил обратиться к AI для генерации картинок и персонажей.
Я уже 3 месяца в свободное от работы время пытаюсь стабильно генерировать персонажей с помощью LoRA / Stable Diffusion / ComfyUI и сервисов типа SeeArt, однако у меня это не получается.
Моя цель — создать два стабильных визуальных стиля:
Главный герой маскот
Визуальный стиль
Прошу помощи либо вашего совета🙏
Что я уже пробовал?
DALLE и Sora.
Начинал с базовых AI, получил набор базовых генераций, благодаря которым у меня есть чёткое представление о том, как всё должно выглядеть — датасет, сценарии и готовая вселенная.
Однако, сколько я не пытался рисовать целые комиксы либо отдельные сцены, постоянно прыгало освещение, стиль либо фильтр – а особенно персонажи. Задался вопросом как это можно стабилизировать? Так я узнал о Lora.
2. ComfyUI, kohya
Месяц я пытался развернуть ComfyUI, kohya на своем компьютере (GTX 3070Ti) при помощи ChatGPT, однако без познаний в кодинге постоянно лезли какие-то ошибки и я бросил это.
3. Civitai + Seeart
Дальше я обратился к готовым сервисам для создания Lora.
Еле как сгенерировал два отдельных датасета под персонажа и под визуальный стиль (по 17 картинок) и пошел перебирать различные настройки для создания Lora через Civitai, weights, shakker.
Сначала делал на основе FLUX-модели, однако все время получал не то. Когда попробовал SDXL начал получать +/- подходящие Lora.
В итоге через пару недель сделал Lora через shakker и загрузил в seeart.
Дальше пару недель я перебирал все возможные настройки, ControlNet функции, ослаблял либо усиливал силу моих Lora – в итоге сделал несколько выводов:
Canny (ControlNet) – просто накладывает моего идеального маскота поверх изображения без понимания композиции кадра
Depth (ControlNet) – нарушает форму пина хотя рисует окружение в нужной мне стилистике.
Остальные ControlNet функции тоже оказались для меня не актуальными.
Пока так и не удалось добиться:
Стабильного визуального стиля (от изображения к изображению меняется форма, стиль, пропорции)
Контроля над персонажем (невозможно повторить одного и того же маскота в нужной позе/ракурсе)
Производства комиксов с единой стилистикой
Я не художник и не ML-инженер, но у меня есть чёткое представление о том, как всё должно выглядеть — референсы, сценарии и готовая вселенная.
Понимаю, что можно развернуть системы типа ComfyUI на арендованном GPU и углубится в создание персональных инструментов, однако чувствую, что уже много потратил на это времени.
Помогите советами:
Действительно ли реализация подобной идеи через AI затрачивает столько усилий или только я хожу "вокруг да около"?
Какая модель и есть ли точные решения для того, чтобы это развернуть на моем либо арендованном GPU, чтобы мог создавать сцены, комиксы как на конвеере?
Есть ли инженеры-фрилансеры, которые занимаются разработкой и установкой SD с кастомной LoRA/ControlNet, чтобы я дальше сам мог генерировать сцены с персонажами?
Либо вообще стоит нанять AI-художника для создания сцен / персонажей и не тратить свое время? Сколько это стоит?
Буду очень признателен вашей обратной связи!