
Искусственный интеллект
Как сделать генеративную медитацию, и какие подводные камни в генерации голоса
Последние три месяца я выступаю CTO в проекте по генеративным медитациям. Вот он, если интересно. Процесс выглядит так:
🔘 Выбираешь практику (каждая практика — это отдельный ИИ-агент) →
🔘 вводишь свой запрос (он фильтруется LLM-кой на предмет качества/запрещёнки) →
🔘 запрос анализируется и оценивается по множеству параметров →
🔘 LLM генерирует индивидуальную медитацию на основе заданной методологии →
🔘 ElevenLabs генерирует озвучку по множеству кусочков →
🔘 затем специальный хитрый алгоритм аккуратно склеивает аудио с нужными паузами и музыкой.
На выходе получается весьма хорошо. Совсем глубоко раскрыть ноу-хау я не могу, но поделюсь важными находками, которые помогут многим в их проектах:
1. YandexGPT и GigaChat хуже расставляют ударения и окончания, чем зарубежный GPT. Даже на русском языке. Поэтому пока не стоит сильно надеяться на наши нейросетки — по крайней мере в таких задачах.
2. GPT-4.1 лучше всех «слушается» промпта, проверено. Почти идеально. Это проверял и в ИИ-саппорте/ИИ-продажнике, и во многих других задачах. GPT-4.5 и Claude-4 генерируют более оригинальный текст, но хуже следуют инструкциям в промпте.
3. ElevenLabs на текущий момент сильно несовершенна:
• Каждую аудиогенерацию нужно дробить на куски не больше 180-200 символов (а то и меньше), иначе модель начинает галлюцинировать.
• Даже профессиональные (PRO) голоса имеют свои дефекты: у одних возникают проблемы при использовании тире, у других — при простых фразах типа «как будто было так...». Это надо внимательно отслеживать для каждого голоса индивидуально. А сгенерированные голоса могут быть ещё хуже — если голос сгенерировался неудачно, то он переодически может вставлять китайский или идиш.
• Встроенный словарь ударений в ElevenLabs не работает через API, поэтому приходится вручную расставлять букву «ё» и отдельно ударения (например, слова «ноги», «бёдра» и подобные постоянно вызывают проблемы у модели).
• Но и при использовании LLM засада — модели тоже не всегда идеальное расставляют ударения, нужно это ещё делать это аккуратно, а то может стать ещё хуже. Поэтому нужно использовать цепочку LLM, где одна делает текст, вторая расставляет ударения и "ё".
Несмотря на всё это, ElevenLabs — лучшее решение для русского языка на данный момент, проверено практикой. Наши отечественные голосовые модели пока отстают от ElevenLabs примерно на 2 года.
(Google тоже крутая, да, но пока нельзя клонировать голос. А ещё сейчас тестирую fish.audio — тоже неплохо, но пока не elevenlabs, где-то на уровне playHT)
Таким образом, простое решение «взять текст и через API получить идеальную без галлюцнаций озвучку за 1 запрос» пока не работает без костылей и дополнительной настройки.
Хотя, может, у вас есть инсайты? 😉
Вот примеры медитаций, закинул на гугл диск: PRO голос 1, PRO голос 2, генеративный голос
У западных аналогов по генеративным медитациям вообще медитации без интонации и голос говорит очень быстро.
--
Загляните в мой тг-канал, где делюсь инсайтыми по ИИ-разработке, вайбкодингу и генеративке.
Китай заморозил ИИ, Apple убивает языковые барьеры, немытые массы vs элита ИИ
В этом выпуске новостей про искусственный интеллект вы узнаете, почему бывший сооснователь OpenAI призвал принимать реальность такой, какая она есть, как Китай временно перестроился ради образовательной честности, каким образом NVIDIA хочет построить 100 дата-центров для искусственного интеллекта и другие интересные новости.
Зум картинок
Вышла нейронка, которая ИДЕАЛЬНО зазумит любой объект — Chain-of-Zoom позволит рассмотреть даже самые мелкие детали на ваших фотках.
Умный ИИ нарезает картинку на куски и апскейлит их шаг за шагом, чтобы сохранить детали. На выходе получается идеальный зум, которому позавидует даже последний iPhone.
Как переводится "еврейка". Перевожу рассказ на английский нейросетью
Продолжаю мучить нейросеть Grok (это та, которой заведует Илон Маск).
Я попросил Грока перевести свой рассказ "Лосьоны Сатаны" (первый рассказ из цикла "Новенькая") с русского на английский.
Заодно я спросил, понял ли Грок, о чем там речь. И он понял! Вот что говорит:
Я не силен в английском, поэтому не могу оценить качество перевода, тем более художественный текст. Вроде бы неплохо, Грок переводит даже сленг и оформляет диалоги на манер западной fiction. Однако я не мог не заметить ТАКОЕ:
Оригинал:
– Ну ты еврейка, – сказал я, отсчитывая деньги.
Она улыбнулась, видимо, сочтя это комплиментом.
Перевод:
“Well, you’re quite the businesswoman,” I said, counting out the money.
She smiled, apparently taking it as a compliment.
“Как тебе такое, Валерий Муллагалеев?!” Elon Musk said :)
Есть и неоднозначные моменты, попахивающие потерей оттенков стилистики. Например:
К новой девчонке приглядывались все. Некоторые – особенно пристально. Среди некоторых был и я.
Everyone was sizing up the new girl. Some — especially closely. I was one of those.
Я нарочно использовал слово "некоторые" дважды (так звучит забавнее, на мой взгляд), но в переводе использованы разные слова. Не знаю, грамотно ли по-английски сказать "one of some"...
Если кто-то хорошо шпрехает инглиш и хотел бы полистать текст, указать на казусы или просто ошибки перевода, то здесь в телеге ссылка на гуглдок с возможностью делать примечания (англ. и рус. версии рассказа).
ИИ под государственным крылом?
Россия делает решительный шаг в будущее, запуская Центр развития искусственного интеллекта. Это попытка объединить разрозненные усилия государства, бизнеса и регионов под одной крышей. Цель: сделать ИИ доступным каждому россиянину и укрепить позиции страны на мировых технологических рынках. Амбициозно? Безусловно.
Да, задачи масштабные: от цифровизации ЖКХ до борьбы с кибермошенниками, от медицины до образования. Но кто сказал, что мы к этому не готовы? Уже сегодня ИИ помогает решать реальные проблемы — вопрос лишь в том, как масштабировать эти успехи. Именно здесь центр может сыграть ключевую роль, выстраивая диалог между наукой, бизнесом и властью.
Если этот центр действительно станет движущей силой изменений, сможем ли мы через пять лет гордиться российскими ИИ-решениями, которые станут эталоном для всего мира? Или всё же останемся зрителями на технологическом поле?
(с)ТГК "Гражданский Радар"
Как создавать вирусные AI-видео с помощью Google Veo3: пошаговый подробный гайд от PJ Ace
Намедни я наткнулся на 2(!) серийное интервью с известным фильммейкером и контент-креатором PJ Ace. Этот сударь регулярно выпускает AI-видеоролики, которые набирают миллионы просмотров. В чём его секрет? Давайте разберём по шагам, опираясь на его личный опыт.
Шаг 1. Поиск вдохновения и идея
PJ Ace говорит, что важно начать с изучения уже успешного контента. Посмотрите, что сейчас популярно на TikTok, Instagram и YouTube Shorts. Отмечайте, какие форматы и темы привлекают наибольшее внимание.
Пример:
* PJ увидел видео, где библейский персонаж Даниил снимает себя на селфи-камеру в львином рву и шутит, словно блогер.
* Он решил сделать похожее видео с другими библейскими персонажами в юмористическом контексте.
Шаг 2. Сильный "крючок" (Hook)
Первое впечатление решает всё. PJ рекомендует сразу показывать что-то неожиданное, провокационное или смешное, чтобы зритель остановил прокрутку.
Примеры крючков:
* Иисус улыбается и держит селфи-камеру на кресте.
* Ной в ливень стоит перед ковчегом и напевает строчку из популярного рэп-хита.
Шаг 3. Использование известных историй и контраста
Как вы уже заментили, сам креатор выбрал библейскую тематику - Ной, Моисей, дева Мария, Иисус. Используйте широко известные сюжеты, но помещайте их в непривычные или комичные ситуации.
Примеры:
* Давид готовится бросить камень в Голиафа и ведёт себя как блогер, снимающий челлендж.
* Моисей делает селфи перед разделённым Красным морем и иронично комментирует происходящее.
Шаг 4. Сценарий с ChatGPT
Сначала PJ пишет базовый сценарий и шутки, затем передаёт их ChatGPT. AI помогает уточнить детали, предложить дополнительные шутки и сформулировать промпты.
Пример промпта (для Даниила во львином рву):
"Молодой мужчина с бородой и длинными волосами, в древней одежде, улыбается и шепчет в камеру: «Этот лев спит, он по утрам сварливый». Камера показывает спящих львов на заднем фоне."
Шаг 5. Структура промпта для Veo3
Очень важно следовать чёткой структуре промпта:
* Тип кадра (например, селфи-стиль)
* Подробное описание персонажа (возраст, внешний вид, эмоции)
* Точный диалог
* Действия и жесты
* Технические детали (фон, освещение, звук, тип камеры)
Максимально подробный промпт выглядит так:
A cinematic handheld selfie-style video shot, showing a soggy, exhausted Middle Eastern man in his 30s with shoulder-length wet hair, a tangled beard, and shredded linen robes clinging to his frame. He’s seated awkwardly on a slick, uneven surface deep inside the belly of a massive sea creature. The fleshy, ribbed walls pulse slightly around him, dimly lit by a faint blue-green glow coming from slits in the whale’s tissue above. Water drips steadily in the background. He holds the camera close, his face lit softly by the glow, his expression weary and mildly guilty. He talks with a country accent.
He says: "Update, still swallowed. I would like to formally apologize to God, the sailors, and this whale, sorry dude, I just took a poop over there."
He glances offscreen and winces slightly, then gives the camera a sheepish shrug before shifting uncomfortably.
Time of Day: indeterminate interior, faint bioluminescent glow from above
Lens: natural wide framing, dim exposure optimized for low light and moisture
POV: Selfie camera held close to face, angled upward slightly to capture Jonah and the ribbed organic chamber behind him
Audio: (implied) dripping water, faint groaning of the whale’s body, distant liquid movement
Background: wet, fleshy whale interior with ribbed walls and dim, humid atmosphere
Я создал для вас GPT, которое по данной структуре создаст для вас промпт
Вот прям внутри openai, если у вас есть подписка
Вот я сделал для вас бота, который делает это же, он бесплатный, но ограничен 50 запросами в день
Шаг 6. Генерация и выбор кадров
PJ рекомендует делать по несколько версий каждого кадра (2-3 минимум). Генерируйте кадры по одному и выбирайте те, которые:
* Имеют естественную актёрскую игру
* Реально смешные и вызывают смех у зрителей (можете тестировать на близких)
* Обладают хорошим техническим качеством
Шаг 7. Монтаж
Используйте простые редакторы (Final Cut или CapCut). PJ советует минимизировать эффекты и сосредоточиться на юморе и естественности.
Шаг 8. Публикация и продвижение
Регулярность — ключ к успеху. PJ Ace советует публиковать видео каждые 2-3 дня. Оптимальный формат — короткие вертикальные ролики.
Стратегия публикации:
* TikTok для быстрого роста аудитории
* X (Twitter), Нельзяграм (в нашем случае это Threads + Нельзяграм)
Обязательно используйте водяной знак на видео, чтобы защитить авторство.
P.S. От себя добавлю, что самые хорошо шутящие модели — Claude 4 Sonnet и Opus, чтобы вообще сгенерировать смешные идеи.
Само интервью часть 1, часть 2, и статья от PJ Ace, и mindmap по содержанию интервью
а также ссылка на его ТикТок
--
Как я генерю прикольные видео с озвучкой в нейросети Veo 3. Прям на русском
Недавно узнал про нейросеть Veo 3 — она делает видео по тексту. Да не просто видео, а со звуком и озвучкой персонажей. Причем работает и на русском языке. Можно добавить музыку, фразы, атмосферу. Всё прямо из головы — и за пару минут.
Доступна она прямо в Телеграм-боте. Без VPN, без регистрации. Просто заходишь и сразу работаешь.
Как работает?
Придумал сценарий (хоть кривой, хоть косой)
Отправил в бота
Через 5 минут готово
Прикольные видео созданные в нейросети veo 3 (точные промпты)
Спецназовец говорит - "Ну что, вот вам и моё пробное видео в Вео 3, круто, не правда ли?". Садится на мотоцикл и уезжает, дым, искры и взрывы на фоне разбитого здания.
Мужчина в костюме супергероя неуверенно стоит на крыше, оглядывается и говорит: "Кажется, я забыл, как летать". Затем неловко падает вниз, в последний момент его ловит дрон.
Блондинка в красном кружевном платье с глубоким декольте, с красной кружевной шапочке и яркой красной помадой, ярким красным маникюром на руках, обнимает серого волка. Прижимает волка к себе, и говорит: "Ну что, Серый? Попался?"
Девушка в розовых лосинах в фитнес зале. Внезапно перед ней появляется красный демон в костюме Adidas и говорит женским голосом: "20 приседаний, или забираю твою душу!" Девушка в ужасе приседает.
С этим роликом у меня уже просят ссылку, как я это сделал. Людям нравится трэш и юмор.
Можно делать вирусные короткие ролики, абсурдные, смешные, странные — и люди это лайкают. А можно даже подстроить под бизнес: пиццерия, доставка, ремонт, курсы, фитнес — любые услуги можно так подать. Например, продвигать товары через смешные сценки. Главное, чтобы цепляло и было весело.
Пробуйте! Кидайте в комменты свои сценарии — запилю ещё пост с лучшими идеями.
(Сделано в боте в Телеграмм: работает без VPN и регистрации)
P.S. Если пойдет — напишу пост как зарабатывать на таких видосах.
Крутой союз Gemini и Veo, Цукерберг давал Китаю ИИ, $180К за переход в NVIDIA
В этом выпуске новостей про искусственный интеллект вы узнаете, почему OpenAI обязали хранить все ваши данные, как компания Марка Цукерберга тайно помогала Китаю развивать искусственный интеллект, каким образом Sparkify генерирует крутые короткие видео и другие интересные новости.