картинка для привлечения внимания
Последние три месяца я выступаю CTO в проекте по генеративным медитациям. Вот он, если интересно. Процесс выглядит так:
🔘 Выбираешь практику (каждая практика — это отдельный ИИ-агент) →
🔘 вводишь свой запрос (он фильтруется LLM-кой на предмет качества/запрещёнки) →
🔘 запрос анализируется и оценивается по множеству параметров →
🔘 LLM генерирует индивидуальную медитацию на основе заданной методологии →
🔘 ElevenLabs генерирует озвучку по множеству кусочков →
🔘 затем специальный хитрый алгоритм аккуратно склеивает аудио с нужными паузами и музыкой.
На выходе получается весьма хорошо. Совсем глубоко раскрыть ноу-хау я не могу, но поделюсь важными находками, которые помогут многим в их проектах:
1. YandexGPT и GigaChat хуже расставляют ударения и окончания, чем зарубежный GPT. Даже на русском языке. Поэтому пока не стоит сильно надеяться на наши нейросетки — по крайней мере в таких задачах.
2. GPT-4.1 лучше всех «слушается» промпта, проверено. Почти идеально. Это проверял и в ИИ-саппорте/ИИ-продажнике, и во многих других задачах. GPT-4.5 и Claude-4 генерируют более оригинальный текст, но хуже следуют инструкциям в промпте.
3. ElevenLabs на текущий момент сильно несовершенна:
• Каждую аудиогенерацию нужно дробить на куски не больше 180-200 символов (а то и меньше), иначе модель начинает галлюцинировать.
• Даже профессиональные (PRO) голоса имеют свои дефекты: у одних возникают проблемы при использовании тире, у других — при простых фразах типа «как будто было так...». Это надо внимательно отслеживать для каждого голоса индивидуально. А сгенерированные голоса могут быть ещё хуже — если голос сгенерировался неудачно, то он переодически может вставлять китайский или идиш.
• Встроенный словарь ударений в ElevenLabs не работает через API, поэтому приходится вручную расставлять букву «ё» и отдельно ударения (например, слова «ноги», «бёдра» и подобные постоянно вызывают проблемы у модели).
• Но и при использовании LLM засада — модели тоже не всегда идеальное расставляют ударения, нужно это ещё делать это аккуратно, а то может стать ещё хуже. Поэтому нужно использовать цепочку LLM, где одна делает текст, вторая расставляет ударения и "ё".
Несмотря на всё это, ElevenLabs — лучшее решение для русского языка на данный момент, проверено практикой. Наши отечественные голосовые модели пока отстают от ElevenLabs примерно на 2 года.
(Google тоже крутая, да, но пока нельзя клонировать голос. А ещё сейчас тестирую fish.audio — тоже неплохо, но пока не elevenlabs, где-то на уровне playHT)
Таким образом, простое решение «взять текст и через API получить идеальную без галлюцнаций озвучку за 1 запрос» пока не работает без костылей и дополнительной настройки.
Хотя, может, у вас есть инсайты? 😉
Вот примеры медитаций, закинул на гугл диск: PRO голос 1, PRO голос 2, генеративный голос
У западных аналогов по генеративным медитациям вообще медитации без интонации и голос говорит очень быстро.
Загляните в мой тг-канал, где делюсь инсайтыми по ИИ-разработке, вайбкодингу и генеративке.