Горячее
Лучшее
Свежее
Подписки
Сообщества
Блоги
Эксперты
Войти
Забыли пароль?
или продолжите с
Создать аккаунт
Я хочу получать рассылки с лучшими постами за неделю
или
Восстановление пароля
Восстановление пароля
Получить код в Telegram
Войти с Яндекс ID Войти через VK ID
Создавая аккаунт, я соглашаюсь с правилами Пикабу и даю согласие на обработку персональных данных.
ПромокодыРаботаКурсыРекламаИгрыПополнение Steam
Пикабу Игры +1000 бесплатных онлайн игр
Болты и гайки - это головоломка, в которой вам нужно откручивать болты с досок! Ваша задача - выбрать правильный болт для откручивания, чтобы вы могли открутить все доски! Соревнуйтесь с друзьями и коллегами!

Болты и Гайки

Казуальные, Головоломки, Логическая

Играть

Топ прошлой недели

  • CharlotteLink CharlotteLink 1 пост
  • Syslikagronom Syslikagronom 7 постов
  • BydniKydrashki BydniKydrashki 7 постов
Посмотреть весь топ

Лучшие посты недели

Рассылка Пикабу: отправляем самые рейтинговые материалы за 7 дней 🔥

Нажимая кнопку «Подписаться на рассылку», я соглашаюсь с Правилами Пикабу и даю согласие на обработку персональных данных.

Спасибо, что подписались!
Пожалуйста, проверьте почту 😊

Новости Пикабу Помощь Кодекс Пикабу Реклама О компании
Команда Пикабу Награды Контакты О проекте Зал славы
Промокоды Скидки Работа Курсы Блоги
Купоны Biggeek Купоны AliExpress Купоны М.Видео Купоны YandexTravel Купоны Lamoda
Мобильное приложение

Транскрипция

С этим тегом используют

Английский язык Искусственный интеллект Нейронные сети Перевод Расшифровка Полезное Технологии Все
140 постов сначала свежее
4
Neurosonya
Neurosonya
5 дней назад
Лига фрилансеров
Серия Полезность

Конвертация аудио и видео в текст. Как сделать транскрипцию совещания и затем определить итоги совещания⁠⁠

1/2

Пост полезности, как сделать транскрипцию совещания и затем определить итоги совещания.

Помогут в этом инструменты высокой точности, которые переводят аудио или видео в текст. В сети расфорсился инструмент Transkriptor, который обещает расшифровать ваши аудио и видео с 99% точностью.

Я проверила на своем видео из прошлого поста, действительно, сервис точный, есть приложение, так что удобно использовать на совещаниях. Запись экрана тоже хорошо расшифровывает, можно скачать и загрузить файлы разных форматов. Там же на платформе есть ИИ.

А теперь к минусам Transkriptor:

Бесплатно подойдет для роликов до 2 минут, далее подписка от 20$ в месяц или 100$ за год, за это дается 2400 минут в месяц. Кстати, потом дают скидку и уже 10$ в месяц за все.

Я рекомендую сервис для профессионального использования, когда другие не справляются или для рабочих совещаний. Так же я вам подготовила бесплатную альтернативу, я и сама любитель сэкономить)

Бесплатная альтернатива:

Хорошие бесплатные возможности дает Yescribe.ai - бесплатно можно загрузить 3 файла в день по 30 минут и точность тоже 99%. Тоже около 100 языков, включая русский.

А потом я рекомендую транскрипцию встречи вставить в ChatGPT, чтобы он привел сумбурные записи в структурированную запись с четко определенными моментами по итогу совещания. А поможет вам в этом этот промпт 😉

Подпишитесь на НейроProfit и узнайте, как можно использовать нейросети для бизнеса, учебы и работы, не теряя свое время.

Больше полезных, а главное проверенных сервисов для учебы, работы и бизнеса в моем Закрытом клубе. Там же мы учимся промптить, разбираемся в языковых моделях, помогаем друг другу с задачами. Смысл в том, что вы платите только один раз! Вам не нужно торопиться, пока подписка действует, вы можете учиться в своем темпе, и в любой момент задать вопрос в чате) А то всё быстро устаревает, а на постоянные обучения денег не напасешься, я это понимаю.

Показать полностью 2
[моё] Бесплатно Удаленная работа Фриланс Искусственный интеллект Нейронные сети Транскрипция Text-to-speech Заметки Совещание Протокол Работа Бизнес Малый бизнес Помощь Предпринимательство Технологии Будущее Услуги
2
1
user4740118
user4740118
20 дней назад

Транскрибация аудио в текст с помощью ИИ⁠⁠

Допустим, у вас есть видео с какой-нибудь важной для вас информацией, к примеру, о жизни в 19 веке. Вы хотите, чтобы LLM вам создал на основе информации из видео конспект.

В этот момент вы понимаете, что просто запихнуть в чат диалога видео не получится и начинаете думать как это сделать.

Я ненавижу любые платные программы или программы частично бесплатные. В исключении у меня только Topaz Gigapixel AI для улучшения изображений, так как у этой программы хорошие результаты. Но во всех других ситуациях я хочу использовать только бесплатные инструменты и, желательно, офлайн. Но вернёмся к сути.

Вот моя инструкция о том, как сделать транскрибацию аудио из видео в текст:

После того как мы скачали видео нам нужно извлечь аудио. Для этого есть много сайтов и вот один из них:

https://audio-extractor.net/ru/

Если вам нужно обрезать аудио, то вот для примера сайт:

https://mp3cut.net/ru/

После того как мы извлекли аудио, нам нужно его перевести в текст. Для этого есть несколько решений. Я выделил две бесплатные программы для этой задачи.

НО перед началом стоит мне сказать, что все эти две эти программы в своей основе используют ИИ-модель Whisper от OpenAI.

Небольшая справка о Whisper от OpenAI:

Whisper — это современная модель машинного обучения, разработанная OpenAI. Она предназначена для распознавания речи и транскрипции. Программа была впервые представлена в сентябре 2022 года как открытый проект. Whisper умеет транскрибировать речь на английском и других языках, а также переводить с некоторых неанглийских языков на английский.

Ключевые особенности Whisper:

Тип: программное обеспечение для транскрипции, кодировщик-декодер, базовая модель, акустическая модель.

Лицензия: MIT License.

Архитектура: трансформер с кодированием-декодированием.

Обучение: модель была обучена на 680 000 часов многоязычных и многозадачных данных с использованием полууправляемого подхода.

Теперь, после этой небольшой справки, перейдём к двум программам, с помощью которых мы будем запускать Whisper локально на компьютере. Хочу ещё добавить то что я капец как устал искать эти две бесплатные программы для офлайн транскрибации так как обычно все результаты поиска были завалены платными сайтами.

Функционал и управление в этих программах интуитивно понятны, и я не хочу высасывать из пальца описание того, что нужно делать в каждой программе. Скажу только то, что советую вам перед началом транскрибации скачать модель whisper-large-v3. Также хочу вас предупредить о том, что итоговый результат не всегда идеальный, так что проверяйте его.

Первой программой будет Vibe (https://thewh1teagle.github.io/vibe/) (https://github.com/thewh1teagle/vibe):

Транскрибация аудио в текст с помощью ИИ Искусственный интеллект, Нейронные сети, Транскрипция, Аудио, Запись, Расшифровка, Гифка, Длиннопост
Транскрибация аудио в текст с помощью ИИ Искусственный интеллект, Нейронные сети, Транскрипция, Аудио, Запись, Расшифровка, Гифка, Длиннопост
Транскрибация аудио в текст с помощью ИИ Искусственный интеллект, Нейронные сети, Транскрипция, Аудио, Запись, Расшифровка, Гифка, Длиннопост
Транскрибация аудио в текст с помощью ИИ Искусственный интеллект, Нейронные сети, Транскрипция, Аудио, Запись, Расшифровка, Гифка, Длиннопост

Второй программой является aTrain (https://github.com/JuergenFleiss/aTrain) (https://apps.microsoft.com/detail/9n15q44szns2?hl=ru-RU&...):

Транскрибация аудио в текст с помощью ИИ Искусственный интеллект, Нейронные сети, Транскрипция, Аудио, Запись, Расшифровка, Гифка, Длиннопост
Транскрибация аудио в текст с помощью ИИ Искусственный интеллект, Нейронные сети, Транскрипция, Аудио, Запись, Расшифровка, Гифка, Длиннопост
Транскрибация аудио в текст с помощью ИИ Искусственный интеллект, Нейронные сети, Транскрипция, Аудио, Запись, Расшифровка, Гифка, Длиннопост

Вот и всё, теперь у вас есть готовая транскрибация.

Спасибо за внимание!

Транскрибация аудио в текст с помощью ИИ Искусственный интеллект, Нейронные сети, Транскрипция, Аудио, Запись, Расшифровка, Гифка, Длиннопост
Показать полностью 8
[моё] Искусственный интеллект Нейронные сети Транскрипция Аудио Запись Расшифровка Гифка Длиннопост
6
Вопрос из ленты «Эксперты»
NikkyChun
1 месяц назад

Посоветуйте онлайн сервис или программу для скачивания текста лекций с видео ютуб⁠⁠

Посоветуйте онлайн сервис или программу для скачивания текста лекций с видео ютуб

Вопрос Спроси Пикабу Транскрипция Искусственный интеллект Текст
4
0
user9911831
2 месяца назад

ЗвукоПоток: Транскрибация и сумаризация аудио⁠⁠

Привет всем!

Хочу рассказать о новом направлении развития моего телеграм-бота ЗвукоПоток. За последнее время я пересмотрел приоритеты в его развитии, основываясь на собственных потребностях и отзывах пользователей.

Почему меняется направление: Я сам столкнулся с тем, что на работе стало слишком много созвонов, и мне нужен инструмент для быстрой расшифровки и создания кратких итогов. Поэтому я решил сфокусироваться на том, что действительно помогает мне самому.

Что теперь умеет бот:

  • Транскрибация аудио в текст (работает с голосовыми сообщениями)

  • Создание кратких резюме аудиозаписей (особенно полезно для длинных совещаний, но чуда не ждите модель маленькая и звезд с неба не хватает но мне кажется что норм. зато очень экономная)

  • Поддержка разных языков с автоматическим определением

  • Обработка аудио из VK и Google Drive

О YouTube: К сожалению, я вынужден был отключить поддержку YouTube. Постоянные блокировки и необходимость обходить ограничения отнимают слишком много времени и сил. Заниматься этой борьбой больше не хочется.

Важно понимать: Это не коммерческий продукт, а мой личный проект, которым я просто делюсь. Бот полностью бесплатный, без каких-либо скрытых платежей. Сервер у меня небольшой, поэтому есть технические ограничения.

Бот по-прежнему можно найти в Telegram по имени: ЗвукоПоток

Буду рад, если кому-то он окажется полезным так же, как и мне. И спасибо всем, кто пользуется ботом и относится с пониманием к его ограничениям.

Показать полностью
[моё] Telegram Транскрипция Работа Чат-бот Текст
1
22
wonderlove
wonderlove
2 месяца назад
Искусственный интеллект

Озвучка диалогов с помощью нейросети FishSpeech⁠⁠

Озвучка диалогов с помощью нейросети FishSpeech Нейронные сети, Искусственный интеллект, Digital, Видеомонтаж, Озвучка, Звук, Звукорежиссура, Машинное обучение, Монтаж, Обработка звука, Транскрипция, Русская озвучка, Видео, Видео ВК, Короткие видео, Длиннопост

Озвучка диалогов из текста может сильно упростить и ускорить работу во многих ситуациях: подкасты, аудиокниги, обучающие материалы, рекламные ролики, создание игр, reels и даже фильмов.

Часто записать аудио крайне трудно: нет доступа к микрофону, шумная обстановка или ограниченные временные рамки. Или просто лень.

Поэтому сегодня на обзоре нейросеть Fishspeech, которая реалистично озвучит текст, сохраняя интонации и эмоциональную окраску. Так ещё можно добавлять свои голоса или использовать уже готовые 50+ голосов от сообщества Нейро-Софт. Вообще сказка! Давайте к обзору.


❯ Основные особенности FishSpeech🐠

Fish Speech Dialogue — современный инструмент для озвучивания диалогов и реплик с использованием разнообразных голосов.

Благодаря портативной версии не нужна установка базового Fish Speech MOD, а функциональность доступна «из коробки»:

  • Поддержка до 10 говорящих. Идеально для одиночных реплик и сложных диалогов.

  • Автоматическое распределение голосов. Экономит время, подбирая подходящие голоса для каждого персонажа.

  • Библиотека из 50+ голосов от сообщества. От Жириновского до Яндекс Алисы.

  • Форматирование диалогов. Автоматическое оформление в формате «Говорящий: текст».

  • Различные форматы сохранения. Поддерживаются WAV, MP3 и FLAC.

  • Мультиязычный интерфейс. Доступны русский и английский.

  • Автообновления и интеграция с GitHub.

❯ Обзор интерфейса

Озвучка диалогов с помощью нейросети FishSpeech Нейронные сети, Искусственный интеллект, Digital, Видеомонтаж, Озвучка, Звук, Звукорежиссура, Машинное обучение, Монтаж, Обработка звука, Транскрипция, Русская озвучка, Видео, Видео ВК, Короткие видео, Длиннопост

Интерфейс FishSpeech Dialogue

Нас встречает такой интерфейс. В самой верхней строке можно выбрать язык интерфейса, изначально будет английский.

Левое окно «Статистика диалога» — основное рабочее поле. В верхней части окна отображается количество говорящих, число реплик и общее количество символов. Нижняя часть содержит текст диалога.

Диалоги необходимо оформлять так: каждая реплика должна начинаться с имени говорящего и двоеточия. Пример видно на скриншоте выше.

В правой части интерфейса находится блок с итоговым результатом и кнопка «Сгенерировать диалог».

Плавно спускаемся ниже.

Озвучка диалогов с помощью нейросети FishSpeech Нейронные сети, Искусственный интеллект, Digital, Видеомонтаж, Озвучка, Звук, Звукорежиссура, Машинное обучение, Монтаж, Обработка звука, Транскрипция, Русская озвучка, Видео, Видео ВК, Короткие видео, Длиннопост

Количество говорящих — это автоматический параметр, который определяется системой в зависимости от структуры диалога.

Для каждого говорящего доступна отдельная панель настроек. Здесь можно:

  1. Указать имя говорящего, которое должно совпадать с именем в тексте диалога.

  2. Выбрать референсный голос из доступных вариантов.

  3. Загрузить собственную аудиодорожку и использовать голос из неё. Также необходимо подписать транскрипцию. В этом случае нейросеть будет использовать загруженный голос для генерации диалога. Транскрипцию пишем сплошным текстом.

Последняя функция очень полезна. Когда ваш профессиональный диктор заболел, можно чуть схитрить и продолжить процесс записи и озвучки :D

В самом низу находятся расширенные настройки:

Озвучка диалогов с помощью нейросети FishSpeech Нейронные сети, Искусственный интеллект, Digital, Видеомонтаж, Озвучка, Звук, Звукорежиссура, Машинное обучение, Монтаж, Обработка звука, Транскрипция, Русская озвучка, Видео, Видео ВК, Короткие видео, Длиннопост

Честно, расширенные параметры я не щупал, меня интересовал лишь принцип работы и результаты. Но я попросил ассистента Perplexity пояснить, что это, кому интересно, вот выжимка:

Озвучка диалогов с помощью нейросети FishSpeech Нейронные сети, Искусственный интеллект, Digital, Видеомонтаж, Озвучка, Звук, Звукорежиссура, Машинное обучение, Монтаж, Обработка звука, Транскрипция, Русская озвучка, Видео, Видео ВК, Короткие видео, Длиннопост

В общем, всё до безумия просто. Пишем или генерируем диалог, выбираем голоса и получаем озвучку. Давайте посмотрим на неё в деле.

❯ Примеры и возможности

Начнём с простого — рассуждения Винни-Пуха.

Давайте усложним и представим миниатюру: бытовой диалог Джонни Сильверхенда и Яндекс Алисы.

Сгенерируем диалог с тремя участниками - Шерлок Холмс, Сергей Дружко и Кот Матроскин. Такого вы ещё не слышали.

Далее я решил попробовать сгенерировать что-нибудь на английском с голосом Матроскина. И вышло очень даже неплохо и похоже.

Дмитрий Нагиев и Чебурашка:

Ну и напоследок я попросил свою знакомую записать пару голосовых для теста. Дальше скачал их в формате .ogg, конвертировал в .mp3 и загрузил в нейросеть. Для транскрипции я использую крутую нейронку Whisper, скачать её можно на GitHub. Там всё интуитивно понятно, думаю, разберётесь. Вот что получилось.

Ещё пара примеров:

Как итог, FishSpeech — удобный инструмент, который помогает озвучивать тексты даже в ситуациях, когда запись голоса невозможна. Простота и гибкость делают его отличным решением для создания игр, подкастов, аудиокниг и других проектов, где важна качественная озвучка.

Скачать портативную версию FishSpeech с установкой в один клик для самых ленивых вы можете тут.

Озвучка диалогов с помощью нейросети FishSpeech Нейронные сети, Искусственный интеллект, Digital, Видеомонтаж, Озвучка, Звук, Звукорежиссура, Машинное обучение, Монтаж, Обработка звука, Транскрипция, Русская озвучка, Видео, Видео ВК, Короткие видео, Длиннопост

Подписывайтесь на 👾Нейро-Софт, канал с портативными версиями ваших любимых нейросетей!

Показать полностью 6 8
[моё] Нейронные сети Искусственный интеллект Digital Видеомонтаж Озвучка Звук Звукорежиссура Машинное обучение Монтаж Обработка звука Транскрипция Русская озвучка Видео Видео ВК Короткие видео Длиннопост
6
5
Shingatsuru
Shingatsuru
3 месяца назад

Ночная тишина⁠⁠

Снег и морозы —
Город крепко спит в ночи.
Лис пьет крепкий чай.

大雪や
街眠る夜
狐茶や

О:юки я / Мати нэмуру ёру / Кицунэ тя я

Ночная тишина Хокку, Мысли, Зима, Холод, Чай, Арты нейросетей, Шедеврум (Яндекс), Японский язык, Транскрипция, Лиса
[моё] Хокку Мысли Зима Холод Чай Арты нейросетей Шедеврум (Яндекс) Японский язык Транскрипция Лиса
0
3
Shingatsuru
Shingatsuru
3 месяца назад

Холодно⁠⁠

Я люблю зиму,
Но не люблю холода.
Вот чай с зефиром.

冬愛す
寒さは嫌い
茶と菓子

Транскрипция на русском, как просили:
Фую айсу / Самуса ва кирай / Тя то каси

Холодно Хокку, Мысли, Зима, Холод, Чай, Арты нейросетей, Шедеврум (Яндекс), Японский язык, Транскрипция
[моё] Хокку Мысли Зима Холод Чай Арты нейросетей Шедеврум (Яндекс) Японский язык Транскрипция
7
Stas9191
Stas9191
4 месяца назад

Ибеба - Будущее транскрибации или куда я попал?⁠⁠

Приветствую всех снова, недавно был опубликован мною пост о транскрибации видео и аудио потоков в текст, скажем так демо версия) без дизайна, без оптимизации и вобще смотрелось это ужасно)))

За неделю много чего случилось, бессонные ночи, занятые выходные дни, и все же реализовал то что хотел)

Дизайн, фронт, бек и девопс фитчи все приходилось совмещать одному)

Теперь хочу поделиться нововведениями с вами)

  1. У приложения появилось название и логотип)

  2. Добавлен прелоудер для пред загрузки зависимостей

  3. Аутентификация на сайте и проверка лицензии (решил добавить сразу) что бы понимать кому это вобще надо)

  4. Добавлены авто-обновления приложения перед каждым запуском

  5. Изменился дизайн (симпатично но думаю доработать)

  6. Добавлены функции для автоматического прослушивания аудио потоков в тексте (плеер снизу)

  7. Добавлен функционал прослушивания выбранного сегмента (плеер снизу)

  8. Добавлена функция объединить (если вдруг ИИ не верно распознал текст предложения)

  9. Возможность отредактировать любой текст

  10. Возможность отредактировать спикера (автоматически определяется ИИ количество говорящих)

  11. Возможность добавить спикера (если не хватает участников в беседе вы можете их заменить)

  12. Удаление текстового потока

  13. Экспорт в такие форматы как Word, Json, Src, Txt

И многое другое, смотрите видео, оставляйте комментарии, в феврале будет первый запуск с бесплатной лицензией на 2 - 3 месяца для теста основного функционала для релиза

** Приложение достаточно требовательно к ресурсам, так как использует вашу видео кару или процессор для транскрибации. Если ваш ПК не соответствует рекомендуемым требованиям, скорее всего оно вам не подойдет.

** Рекомендуемые требования будут изложены после теста, но минимально вам необходимо

Минимум: I5 13 поколения или RTX4 серии...

Сразу скажу:

  1. Приложение не отправляет ваши аудио видео и текстовые сообщения кому либо

  2. Приложение не использует стороннее API , все происходит на вашем PC

  3. Приложение будет использовать только наше API для проверки аутентификации и лицензии

Показать полностью 2
[моё] Транскрипция Журналисты Интервью Обработка Видео RUTUBE
3
Посты не найдены
О Нас
О Пикабу
Контакты
Реклама
Сообщить об ошибке
Сообщить о нарушении законодательства
Отзывы и предложения
Новости Пикабу
RSS
Информация
Помощь
Кодекс Пикабу
Награды
Команда Пикабу
Бан-лист
Конфиденциальность
Правила соцсети
О рекомендациях
Наши проекты
Блоги
Работа
Промокоды
Игры
Скидки
Курсы
Зал славы
Mobile
Мобильное приложение
Партнёры
Промокоды Biggeek
Промокоды Маркет Деливери
Промокоды Яндекс Путешествия
Промокоды М.Видео
Промокоды в Ленте Онлайн
Промокоды Тефаль
Промокоды Сбермаркет
Промокоды Спортмастер
Постила
Футбол сегодня
На информационном ресурсе Pikabu.ru применяются рекомендательные технологии