Допустим, у вас есть видео с какой-нибудь важной для вас информацией, к примеру, о жизни в 19 веке. Вы хотите, чтобы LLM вам создал на основе информации из видео конспект.
В этот момент вы понимаете, что просто запихнуть в чат диалога видео не получится и начинаете думать как это сделать.
Я ненавижу любые платные программы или программы частично бесплатные. В исключении у меня только Topaz Gigapixel AI для улучшения изображений, так как у этой программы хорошие результаты. Но во всех других ситуациях я хочу использовать только бесплатные инструменты и, желательно, офлайн. Но вернёмся к сути.
Вот моя инструкция о том, как сделать транскрибацию аудио из видео в текст:
После того как мы скачали видео нам нужно извлечь аудио. Для этого есть много сайтов и вот один из них:
Если вам нужно обрезать аудио, то вот для примера сайт:
После того как мы извлекли аудио, нам нужно его перевести в текст. Для этого есть несколько решений. Я выделил две бесплатные программы для этой задачи.
НО перед началом стоит мне сказать, что все эти две эти программы в своей основе используют ИИ-модель Whisper от OpenAI.
Небольшая справка о Whisper от OpenAI:
Whisper — это современная модель машинного обучения, разработанная OpenAI. Она предназначена для распознавания речи и транскрипции. Программа была впервые представлена в сентябре 2022 года как открытый проект. Whisper умеет транскрибировать речь на английском и других языках, а также переводить с некоторых неанглийских языков на английский.
Ключевые особенности Whisper:
Тип: программное обеспечение для транскрипции, кодировщик-декодер, базовая модель, акустическая модель.
Лицензия: MIT License.
Архитектура: трансформер с кодированием-декодированием.
Обучение: модель была обучена на 680 000 часов многоязычных и многозадачных данных с использованием полууправляемого подхода.
Теперь, после этой небольшой справки, перейдём к двум программам, с помощью которых мы будем запускать Whisper локально на компьютере. Хочу ещё добавить то что я капец как устал искать эти две бесплатные программы для офлайн транскрибации так как обычно все результаты поиска были завалены платными сайтами.
Функционал и управление в этих программах интуитивно понятны, и я не хочу высасывать из пальца описание того, что нужно делать в каждой программе. Скажу только то, что советую вам перед началом транскрибации скачать модель whisper-large-v3. Также хочу вас предупредить о том, что итоговый результат не всегда идеальный, так что проверяйте его.
Вот и всё, теперь у вас есть готовая транскрибация.