Горячее
Лучшее
Свежее
Подписки
Сообщества
Блоги
Эксперты
Войти
Забыли пароль?
или продолжите с
Создать аккаунт
Я хочу получать рассылки с лучшими постами за неделю
или
Восстановление пароля
Восстановление пароля
Получить код в Telegram
Войти с Яндекс ID Войти через VK ID
Создавая аккаунт, я соглашаюсь с правилами Пикабу и даю согласие на обработку персональных данных.
ПромокодыРаботаКурсыРекламаИгрыПополнение Steam
Пикабу Игры +1000 бесплатных онлайн игр

Отель Эмили. Пасьянс

Карточные, Казуальные, Головоломки

Играть

Топ прошлой недели

  • Oskanov Oskanov 8 постов
  • alekseyJHL alekseyJHL 6 постов
  • XpyMy XpyMy 1 пост
Посмотреть весь топ

Лучшие посты недели

Рассылка Пикабу: отправляем самые рейтинговые материалы за 7 дней 🔥

Нажимая кнопку «Подписаться на рассылку», я соглашаюсь с Правилами Пикабу и даю согласие на обработку персональных данных.

Спасибо, что подписались!
Пожалуйста, проверьте почту 😊

Новости Пикабу Помощь Кодекс Пикабу Реклама О компании
Команда Пикабу Награды Контакты О проекте Зал славы
Промокоды Скидки Работа Курсы Блоги
Купоны Biggeek Купоны AliExpress Купоны М.Видео Купоны YandexTravel Купоны Lamoda
Мобильное приложение

Распознавание

С этим тегом используют

Искусственный интеллект Нейронные сети Помощь Музыка Технологии Юмор Вертикальное видео Все
330 постов сначала свежее
QuadratusAI
QuadratusAI
1 месяц назад

Как мы запустили голосовой стартап без команды мечты и миллионов⁠⁠

🔸 О чём будет эта статья:

Это история о запуске голосового продукта без инвестиций, без команды на 10 человек и без мак ноутбуков. Только идея, немного Python, желание автоматизировать то, что кажется очевидным, и Telegram-бот, который родился из расчетного долгого времени разработки.

Мы расскажем:

  • Как всё началось с простой мысли: «А что, если голос можно превратить в текст для быстрой записи?»
    Когда я понял, что традиционные методы записи не так эффективны, пришла идея использовать голос для быстрого и структурированного фиксирования мыслей.

  • Почему я не стал ждать «идеального момента»
    Желание решать проблему подтолкнуло меня к действиям без ожидания идеальных условий.

  • С какими трудностями столкнулся
    Трудности с реализацией и организацией были, но они только ускорили процесс поиска решений.

  • Как писал MVP на коленке
    Сделать быстро и с минимальными затратами — так появился первый прототип.

  • Как тестировали на друзьях и случайных людях
    Обратная связь от знакомых помогла улучшить продукт.

  • Почему Telegram оказался идеальной точкой входа
    Телеграм был простым и удобным инструментом для быстрого запуска проекта.


💡 Зачем это читать:

Если ты когда-то хотел запустить свой продукт, но откладывал из-за «недостатка ресурсов» — это история для тебя.

Если тебе интересно, как рождаются реально полезные вещи — из боли, рутин, неудобства — тебе сюда.

Если ты хочешь понять, как мыслит команда, которая делает сервис для реальных людей, а не питчей — ты на месте.


🛠️ О чём конкретно будем рассказывать:

  1. Зачем вообще всё это понадобилось
    – как идея родилась из личной рутины
    – голосовые, заметки, неуспевание фиксировать мысли
    – «хочу просто сказать и получить нормальный текст»

  2. С чего было начало технической части
    – Python + библиотеки для распознавания речи
    – эксперименты с Vosk, Whisper
    – первые сломанные скрипты и первая фраза, которую система распознала

  3. Почему Telegram и MVP за пару дней
    – запуск без фронта и лишней сложности
    – простой бот, отправляешь голос — получаешь текст
    – реакция друзей: «Эммм… Это ты сделал?»
    – как фиксили баги в реальном времени

  4. Работа с текстом: сделать не просто транскрипт, а читаемый текст
    – как начали «чистить» речь
    – от удаления "э-э", "ну", до перестроения структуры.
    – И создания правильного форматирования с разбиением на абзацы

  5. Сайт, демка, первые фидбеки
    – как собирали сайт для демонстрации
    – кто первые пользователи, как реагировали
    – какой фидбек оказался самым неожиданным

  6. Что было самым сложным
    – не техническая часть
    – не бот
    – а сделать так, чтобы продукт был «невидимым», простым и реально полезным

  7. Что будет дальше
    – продолжаем тестирование и доработку
    – активно собираем фидбек, чтобы сделать продукт ещё лучше
    – в ближайших статьях расскажем о новых фичах и о том, как развиваем систему дальше


  1. Как пришла мысль разработки продукта?

Я по профессии специалист по компьютерным сетям и программист. Основная часть моего времени уходит на работу с кодом, но иногда хочется разобраться и в чём-то новом. Так я решил изучить тему право интеллектуальной собственности — просто для себя.

Чтение началось бодро: статьи, материалы, заметки. Но через какое-то время заметил, что информации становится слишком много. Прочитал абзац — вроде понятно. Перешёл к следующему — и тут понял, что не могу вспомнить, что было в предыдущем. Всё смешивается. Начал ловить себя на том, что читаю одно и то же несколько раз, потому что просто не удерживается в голове.

Тогда я решил записывать. Казалось бы, логично: фиксировать ключевые мысли, чтобы потом не забыть. Сразу вспомнились студенческие конспекты — быстро записать и забыть. Но когда стал делать это сейчас, уже осознанно, стало понятно, что такое способ обучение крайне не эффективный.

Во-первых, я начал писать от руки — и быстро столкнулся с тем, что потом с трудом разбираю свой почерк. Иногда вообще не могу понять, что хотел сказать. Во-вторых, редактировать такие записи практически невозможно. Ошибся — надо зачеркивать. Хочешь вставить мысль — уже негде. Всё выглядит одинаково важным, найти нужное потом тяжело.

Я решил поискать, как люди в целом ведут конспекты, чтобы делать это эффективнее. Обратился к ChatGPT — он выдал список из семи основных техник:

7 популярных методов конспектирования:

  1. Метод Корнелла
    Разделение страницы на три части: ключевые слова, основные записи и краткое резюме. Это помогает структурировать информацию и облегчить повторение.

  2. Метод обрисовки (Outline)
    Классическая иерархия: заголовки и подпункты, удобен для логической структуры.

  3. Картирование (Mind Map)
    Основная тема в центре, от неё расходятся подтемы, помогает визуализировать связи.

  4. Метод боксов (Boxing Method)
    Информация делится на блоки, каждый с одной темой, что ускоряет поиск.

  5. Метод предложений (Sentence Method)
    Короткие предложения без структуры, удобно для быстрого фиксирования информации.

  6. Метод таблиц
    Информация в виде таблицы с терминами, определениями, примерами и комментариями, удобно для сравнений.

  7. Цифровой метод (Zettelkasten)
    Каждая мысль — отдельная карточка, между ними устанавливаются связи, идеален для долгосрочной базы знаний.

Каждый метод интересен по-своему, но все они требуют усилий: остановиться, переосмыслить, оформить. Иногда на это уходит больше времени, чем на само чтение — особенно если хочется не просто написать, а понять и потом использовать.

Я понял, что в моём ритме это не работает. Нужно было что-то быстрее и проще — тогда я начал экспериментировать.

Я заметил, что лучше всего усваиваю материал, когда пересказываю его. Даже не кому-то, а самому себе. Это помогает закрепить смысл в голове. Так родилась идея проговаривать ключевые мысли вслух.

Я стал читать абзац, а затем кратко пересказывать его на своём языке — без заучивания, просто чтобы проверить, понял ли я суть. В этот момент включал запись на телефоне. Получались короткие голосовые заметки по 20–30 секунд.

Позже я прослушивал их или переводил в текст с помощью распознавания речи. Это оказалось неожиданно удобно: голосовые фрагменты не перегружены деталями, в них остаётся главное — и это мои собственные формулировки.

Так я пришёл к формату, который действительно сработал: понятный пересказ — в аудио. Без лишней структуры и ручной писанины. А при необходимости — всё можно превратить в текст, структурировать, сохранить или передать системе, которая поможет с анализом.

Этот подход оказался значительно эффективнее привычных заметок. Я больше не пытался записать всё подряд — только то, что действительно понял. Это экономило время и помогало лучше усваивать материал.

Со временем появилась потребность автоматизировать процесс — и тогда я решил сделать веб-сервис, который бы помог сохранять и обрабатывать голосовые заметки. Для быстрого запуска я сначала настроил сохранение записей в Telegram, как самый простой и доступный способ. Подробно о реализации, сложностях и технических деталях расскажу чуть ниже.

Главное, что я понял — самый простой способ иногда оказывается самым эффективным. Важно просто найти тот формат, который подходит именно тебе.

2. С чего было начало технической части

Всё началось с идеи, которую я придумал в голове, и с опросов среди друзей, чтобы понять, кому этот продукт может быть полезен. Я быстро понял, что идея голосовых заметок и их автоматического преобразования в текст могла бы быть полезной в разных сферах: от образования и бизнеса до повседневных задач. Это стало основой для следующего шага.

Затем я начал изучать основные фреймворки для работы с распознаванием речи. В первую очередь обратил внимание на Python и библиотеки для распознавания голоса, такие как Vosk и Whisper, а также на коммерческие решения от крупных компаний, таких как Яндекс. Это дало мне представление о том, что доступно в плане технологий.

Мой первоначальный план был прост: я хотел превратить голос в текст, затем обработать текст с помощью алгоритмов для выделения ключевых слов и идей, а затем передать это пользователю через веб-интерфейс. Я выбрал Django для бекенда, так как он казался идеальным выбором для быстрого старта.

Приблизительный макет проекта Визуал

Как мы запустили голосовой стартап без команды мечты и миллионов Опрос, Python, IT, Чат-бот, Программирование, Стартап, Распознавание, Telegram, Mvp, Ux, Обратная связь, Продукты, Прототип, Автоматизация, Длиннопост

Я начал с экспериментов с различными фреймворками, включая Vosk и Whisper. Решение использовать локальные нейросети для распознавания голоса оказалось одним из наиболее подходящих вариантов, так как оно позволило работать без зависимости от облачных сервисов. Однако, после нескольких тестов и установки моделей для распознавания, я понял, что интеграция будет сложнее, чем я ожидал.

Вариант тестов английской модели (легкие быстрые модели для экспериментов)

Как мы запустили голосовой стартап без команды мечты и миллионов Опрос, Python, IT, Чат-бот, Программирование, Стартап, Распознавание, Telegram, Mvp, Ux, Обратная связь, Продукты, Прототип, Автоматизация, Длиннопост
Как мы запустили голосовой стартап без команды мечты и миллионов Опрос, Python, IT, Чат-бот, Программирование, Стартап, Распознавание, Telegram, Mvp, Ux, Обратная связь, Продукты, Прототип, Автоматизация, Длиннопост

Далее я провел оценку времени, которое займет реализация всего проекта: от разработки фронтенда и бекенда до интеграции голосового распознавания и создания пользовательского интерфейса. Примерные расчёты показали, что на весь процесс может уйти от 3 до 6 месяцев.

Рассчитав, что времени на реализацию будет достаточно, я решил сосредоточиться на тестировании технологии и на том, как она работает в реальных условиях. И в какой-то момент, уже наблюдая за развитием технологий в этом сегменте, я увидел, что те компании, о которых я думал, уже сделали то, что я собирался только начать.

3. Почему Telegram и MVP за пару дней QuadratusAI

После серии тестов с распознаванием речи на базе Vosk и Whisper, а также после анализа конкурентов, стало ясно: времени на полноценную реализацию проекта — с фронтендом, бэкендом, пользовательским интерфейсом и всей обвязкой — нет. Разработка сайта с названием QuadratusAI, его подключение к распознаванию и создание визуального интерфейса могла бы занять месяцы. Это был бы хороший следующий шаг после получения обратной связи, но не первоочередной.

Я понял, что нужно запускаться максимально быстро, без лишних слоёв сложности. Так родилась идея Telegram-бота — простого, понятного и доступного для всех моих знакомых. Никакого веб-интерфейса, никаких регистраций — только Telegram, только голос и текст.

Я сел в выходные и полностью сосредоточился на создании минимального жизнеспособного продукта (MVP). На тот момент у меня не было опыта написания ботов для Telegram, и весь код оказался в одном файле — громоздком и запутанном. Я не до конца понимал, как правильно организовать взаимодействие с Telegram API, как обрабатывать разные события и команды. Несмотря на это, базовая логика работала: ты отправляешь голосовое сообщение — получаешь текст в ответ.

Первые пользователи, в основном друзья, были удивлены:
«Эммм… Это ты сделал?» — такой была типичная реакция.
Параллельно с этим шла "боевой режим" — баги и ошибки устранялись прямо во время использования. Например, где-то не обрабатывались ошибки при скачивании файла, где-то Telegram возвращал неожиданный формат. Всё это приходилось чинить на лету.

Позже я начал добавлять функциональность — например, подключил облачную текстовую нейросеть, чтобы дополнительно очищать распознанный текст, убирать артефакты речи, структурировать его. Следующим шагом стало выделение ключевых слов и добавление эмодзи, чтобы текст выглядел более живо и дружелюбно в формате Telegram-сообщений.

Также в планах появилось ещё множество идей: распознавание спикеров, интеллектуальная фильтрация, интеграция с внешними сервисами. Но запуск через Telegram дал главное — возможность быстро проверить гипотезу, получить реальные отклики и продолжать развивать идею без длительных задержек на подготовку.

Как мы запустили голосовой стартап без команды мечты и миллионов Опрос, Python, IT, Чат-бот, Программирование, Стартап, Распознавание, Telegram, Mvp, Ux, Обратная связь, Продукты, Прототип, Автоматизация, Длиннопост

QuadratusAI Bot

4. Работа с текстом: сделать не просто транскрипт, а читаемый текст

Распознавать речь — это только половина задачи. Вторая, не менее важная часть — превратить сырую транскрипцию в читабельный, структурированный текст, пригодный для восприятия.

На этом этапе началась работа с «очисткой» речи: удаление слов-паразитов, таких как «э-э», «ну», «короче», избавление от лишних пауз, повторов и артефактов устной речи. Одной только транскрипции было недостаточно — нужна была перестройка структуры фраз, чтобы текст был логически связанным и не терял смысла.

Все эти задачи решались через разные промты и тесты — постоянно пробовались новые интерпретации, варианты запросов к языковой модели. Цель была одна: оставить суть, вычистив шум. И шёл поиск оптимального баланса: чтобы и смысл сохранялся, и текст становился ближе к «человеческому» письму — со склонениями, правильным порядком слов и логикой изложения.

5. Сайт, демка, первые фидбеки

После создания рабочего Telegram-бота появилась идея подготовить демонстрационный сайт QuadratusAI.

Цель — презентовать проект, собрать первые отзывы и протестировать реакцию аудитории. Также это был шаг в сторону будущего полноценного веб-интерфейса.

Как мы запустили голосовой стартап без команды мечты и миллионов Опрос, Python, IT, Чат-бот, Программирование, Стартап, Распознавание, Telegram, Mvp, Ux, Обратная связь, Продукты, Прототип, Автоматизация, Длиннопост

Пример с использованием DeepSeek

Как мы запустили голосовой стартап без команды мечты и миллионов Опрос, Python, IT, Чат-бот, Программирование, Стартап, Распознавание, Telegram, Mvp, Ux, Обратная связь, Продукты, Прототип, Автоматизация, Длиннопост

Генерация сайта с помощью нейросетей

Для ускорения процесса разработки было решено использовать нейросети и ChatGPT.
План состоял в следующем: описать идею, получить сгенерированный HTML/CSS/JS-код и как можно быстрее развернуть результат.

Однако на практике генерация сайта оказалась далекой от идеала. В ответах модели были ошибки, неполные блоки, либо слишком сложная структура.
Была предпринята попытка использовать полный стек генерации, включая React + TypeScript, но пришлось дорабатывать код вручную, местами редактируя результат через Cursor (IDE), а местами просто «допиливая» вручную по частям.

Как мы запустили голосовой стартап без команды мечты и миллионов Опрос, Python, IT, Чат-бот, Программирование, Стартап, Распознавание, Telegram, Mvp, Ux, Обратная связь, Продукты, Прототип, Автоматизация, Длиннопост

Вместо задуманного чистого HTML + CSS + JS получилось решение на React + TypeScript + CSS, так как только в такой связке нейросеть выдавала более-менее стабильный результат.

Наполнение и оформление

После исправления основных багов началась работа по наполнению:

  • Вставка и оформление скриншотов демо-бота.

  • Подготовка визуальных блоков с описанием возможностей.

  • Перевод описания на английский язык для международной аудитории.

Сайт был размещён на бесплатном хостинге для сбора первых фидбеков.
Итоговая сборка и отладка заняли примерно неделю — иронично, но, как потом показалось, было бы быстрее написать всё с нуля вручную. Тем не менее, опыт стал важным шагом в проверке инструментов и подходов.

6. Что было самым сложным

Самым сложным в проекте оказалось не разработка, не интеграции и даже не баги. Эти проблемы решаются с помощью технологий и терпения. Настоящая сложность была в том, чтобы продукт был настолько простым, что пользователь даже не задумывался, как он работает.

Задача заключалась в создании интуитивно понятного и мгновенного взаимодействия без лишних шагов и ожидания. Чтобы пользователь не думал, куда нажимать или что ждать.

Архитектура была разделена на два компонента:

Первый — Telegram-бот. Он лёгкий и минималистичный, принимает голосовые сообщения и отправляет обратно текст. Обработка голоса не происходит на этом сервере, что делает его быстрым и простым.

Второй — сервер для обработки данных. Здесь происходит распознавание речи, очистка текста от лишних слов, структурирование и добавление эмоджи. Этот сервер выполняет все сложные операции, но скрыт от пользователя.

Такой подход позволил разделить критическую логику от пользовательского интерфейса. Это обеспечило гибкость в масштабировании и обновлениях без риска повлиять на работу фронтенда. Система может тестироваться и улучшаться без видимых изменений для пользователя.

Результат — простота использования: отправил голосовое сообщение — получил готовый текст. Без загрузок и прогресс-баров. Вся сложная логика скрыта, что делает продукт «невидимым» для пользователя.

7. Что будет дальше

Мы уже добились немалых результатов. Простой, но мощный инструмент, который когда-то казался идеей, теперь полностью работает, избавляя от множества рутинных задач. Всё, что нужно сделать, это просто сказать — и система превращает ваш голос в чистый, структурированный текст.

От разработки до тестирования — мы сосредоточились на том, чтобы пользователю не приходилось думать о том, как всё работает. Бот в Telegram работает без лишних шагов и интерфейсов. Система обрабатывает голос, очищает его от ненужных слов, выделяет ключевые моменты и возвращает результат, как если бы это была самая естественная часть общения.

Но мы не останавливаемся. Уже сейчас мы собираем фидбек и работаем над улучшением функционала. Скоро появятся дополнительные возможности, которые сделают продукт ещё проще и удобнее. Мы уверены, что эта простота и эффективность помогут вам избежать сложностей с записью мыслей и идей в любой ситуации.

Пробуйте, и вы сами увидите, как это может быть полезно в повседневной жизни. Заходите на сайт, тестируйте в боте — и почувствуйте, как это работает.

Как вы чаще всего фиксируете свои идеи или заметки?
Всего голосов:

Сам бот: https://t.me/AudioFastAi_bot

Страница с проектом: https://quadratus-ai.netlify.app

Телеграмм канал: https://t.me/QuadratusAI

Показать полностью 7 1
[моё] Опрос Python IT Чат-бот Программирование Стартап Распознавание Telegram Mvp Ux Обратная связь Продукты Прототип Автоматизация Длиннопост
4
6
tov.Imyarek
1 месяц назад

Распознавание сканов и их перевод через связку OCR+ИИ⁠⁠

Столкнулся с задачей перевести на русский язык скан старого аргентинского документа. Проблема в том, что я не знаком с испанским языком, а распознавание символов происходит с ошибками. Проблема решена связкой (OCR) abbyy finereader + ИИ (deepseek). Об этом, собственно, пост.

Ниже приведён пример страницы документа:

Распознавание сканов и их перевод через связку OCR+ИИ Документы, Искусственный интеллект, Распознавание, Гайд, DeepSeek, Abbyy FineReader, Яндекс, Длиннопост


Работа со сканом. Улучшение изображения


Открываем документ в редакторе OCR Abbyy Finereader (инструменты - редактор OCR), сталкиваемся с ошибкой "неверное разрешение изображения".

Распознавание сканов и их перевод через связку OCR+ИИ Документы, Искусственный интеллект, Распознавание, Гайд, DeepSeek, Abbyy FineReader, Яндекс, Длиннопост

Не забудьте выставить язык распознавания, в данном случае - испанский

Будем исправлять. Заодно отредактируем сами изображения сканов, чтобы облегчить работу программе для распознавания символов. Нажимаем "Открыть редактор изображений". В этот редактор так же можно перейти через панель инструментов сверху.

Открывается, собственно, редактор:

Распознавание сканов и их перевод через связку OCR+ИИ Документы, Искусственный интеллект, Распознавание, Гайд, DeepSeek, Abbyy FineReader, Яндекс, Длиннопост

Я рекомендую идти по панели инструментов, которая расположена справа, в обратном порядке, т.е. снизу вверх.

1. Для начала выбираем ластик и несчадно вырезаем абсолютно всё, кроме текста, который нам нужен: печати, подписи, штампы, номера страниц и т.п.

Распознавание сканов и их перевод через связку OCR+ИИ Документы, Искусственный интеллект, Распознавание, Гайд, DeepSeek, Abbyy FineReader, Яндекс, Длиннопост

2. Далее - Уровни. Смещаем исходные уровни таким образом, чтобы крайние ползунки попадали на начало и конец уровней. С помощью чёрного ползунка выходного уровня "подтягиваем" контраст скана. На данном этапе наша задача - добиться хорошего соотношения контрастности изображения с фоновыми шумами от бумаги.

Распознавание сканов и их перевод через связку OCR+ИИ Документы, Искусственный интеллект, Распознавание, Гайд, DeepSeek, Abbyy FineReader, Яндекс, Длиннопост

Не забывайте применять изменения для страницы к переходу на следующий пункт

3. В случае с яркостью и контрастностью изображения наша задача фактически полностью "отбелить" задний фон, но при этом максимально сохранить читаемость символов. Для этого в процессе передвигания ползунков лучше приближать текст так, чтобы следить за читаемостью символов.

Распознавание сканов и их перевод через связку OCR+ИИ Документы, Искусственный интеллект, Распознавание, Гайд, DeepSeek, Abbyy FineReader, Яндекс, Длиннопост

Я случайно применил изменения, поэтому положения ползунков обнулились((( Но, думаю, тут принцип понятен

4. Далее мы заходим в Разрешение изображений, нажимаем "определить оптимальное" и применяем то, что нам посоветовала программа.

После этого мы можем выйти из редактора изображений и провести распознавание документа.

Распознавание сканов и их перевод через связку OCR+ИИ Документы, Искусственный интеллект, Распознавание, Гайд, DeepSeek, Abbyy FineReader, Яндекс, Длиннопост

"Абракадабра" выделена черным"

Мы видим, что качества распознавания нам далеко недостаточно для машинного перевода. Часто встречаются артефакты, вот кусок текста для примера:

"Artíci>lo 4fl.~ El présente decreto será refrendado por los oadoraa ^jinistros Secretarios qq loe Departamentos de Defensa Racional y \de Relacionas Exteriores y Culto 7 firmado por los salteras secreta"

Не расстраиваемся. Жмём файл - сохранить как - документ TXT и сохраняем файл в удобное место. Этот файл содержит наш распознанный текст.


Исправляем ошибки распознавания в DeepSeek

Заходим на chat.deepseek.com, включаем DeepThink(R1), прикрепляем к чату наш txt-файл и пишем промпт:

В файле результат распознавания скана документа на испанском языке. Исправь ошибки распознавания исходя из контекста. В конце проанализируй связность получившегося текста и оцени степень уверенности в правильности распознавания и своих исправлений от 0 до 1. Выведи весь итог в plaintext, контейнер, чтобы я мог его скопировать.

Распознавание сканов и их перевод через связку OCR+ИИ Документы, Искусственный интеллект, Распознавание, Гайд, DeepSeek, Abbyy FineReader, Яндекс, Длиннопост

Итог работы промпта

В данном случае модель выдала такую оценку
**Степень уверенности:** 0.9 (Незначительные неясности остаются в деталях, например, «C-776» — возможна опечатка в номере, но общая точность высокая.)

В остальном всё замечательно. Благодаря plaintext можем в один клик скопировать или скачать полученный результат на компьютер и использовать его для перевода на русский. Для перевода, по моему мнению, лучше всего подходит переводчик от Яндекса, но это уже дело вкуса.


Перевод и структурирование текста

В Яндекс.Браузере переходим в нейропереводчик (в адресной строке browser://neuro-translate/) и вставляем туда свой текст, переводим и получаем нечто следующее:

Распознавание сканов и их перевод через связку OCR+ИИ Документы, Искусственный интеллект, Распознавание, Гайд, DeepSeek, Abbyy FineReader, Яндекс, Длиннопост

Сплошной текст читается тяжело

Чтобы структурировать текст я пользуюсь нейроредактором (browser://neuro-editor), использую промпт "не изменяя текст структурируй его". В процессе оформления структуры текста яндекс нейро убирает мелкие неточности перевода, что улучшает сам текст.

Итого мы получили готовый документ, с которым можно работать:

Распознавание сканов и их перевод через связку OCR+ИИ Документы, Искусственный интеллект, Распознавание, Гайд, DeepSeek, Abbyy FineReader, Яндекс, Длиннопост

Надеюсь, кому-то было полезно.

Сам документ содержит сведения о деятельности Аргентины в рамках антикоммунистической оси в период Холодной Войны. В частности, в документе ведется речь о том, что ВС Аргентины вмешивались в конфликт в Карибском бассейне, действуя против Кубы, СССР и Китая.

P.S. Дописав пост понял, что он огромный. Это из-за скриншотов. На самом деле весь процесс занимает 5-10 минут максимум. И, конечно, забыл: это личный опыт, наверняка есть способы лучше, проще, быстрее и т.д., но я о них пока не знаю. Поделитесь - буду благодарен.

Показать полностью 10
Документы Искусственный интеллект Распознавание Гайд DeepSeek Abbyy FineReader Яндекс Длиннопост
4
11
Hawchik
2 месяца назад

Робот котрый стреляет жвачкой⁠⁠

Распознавая открытый рот

Робототехника Изобретения Жвачка Изобретатели Технари Техника Инновации Стрельба Распознавание Робот Видео Вертикальное видео
4
1650
UniQOn
UniQOn
2 месяца назад

Весы с ИИ⁠⁠

Помните, как украинцы в Европе удивлялись светофорам с кнопкой и кофемашинам, утверждая, что в России такого точно нет и быть не может? Такие вещи у нас уже, конечно же, давно есть, но у меня есть чем их ещё удивить.

Жена пошла сегодня в супермаркет (не буду давать название, чтобы не было рекламой) в одном из регионов нашей необъятной. Взяла шампиньоны и пошла к весам. А на весах написано, что они с ИИ.

Т.е. теперь не надо искать овощи/фрукты по номеру или алфавиту. Она просто положила шампиньоны на весы и весы на экране сами выдали возможные варианты продутктов, которые на них лежат. Среди вариантов были шампиньоны, чеснок и почему-то бананы. Ну, думаю через пару версий это доработают и весы будут опредеять товар более точно.

В общем, будущее наступило :)

P.S.: Жена моя, тег "моё".

P.P.S.: Не знаю, ставить ли тег "политика". Пост вроде не об этом.

[моё] Магазин Искусственный интеллект Будущее Текст Политика Весы Распознавание
353
1
SemenSafarov
SemenSafarov
3 месяца назад

Помогите распознать автора музыки. Нейронки не смогли⁠⁠

Выложил кусок, буду признателен за помощь!

Распознавание Музыка Классическая музыка Текст YouTube (ссылка) Ищу музыку Видео Вертикальное видео Короткие видео
4
0
ForestGavt
ForestGavt
3 месяца назад
Лига Новых Технологий

Распознание по лицу с орбиты уже существует⁠⁠

Китайцы изобрели камеру, способную распознавать лица из космоса. Такая камера может стать самым мощным шпионским устройством за всю историю.

Распознание по лицу с орбиты уже существует Технологии, Распознавание, Слежка, На орбите, Инновации, Лазер, Видеонаблюдение, Китайские учёные

Камера работает на основе лазера, который позволяет распознавать объекты размером от 1,7 мм на расстоянии в 100 км. Буквально, можно распознать лицо человека с низкой околоземной орбиты.

От китайских шпионов нас спасут только облака. Переезжаем в Санкт-Петербург, Петропавловск-Камчатский, на Курилы, русские Алеутские острова и Торсхавн. Любители плохого воздуха могут выбрать крупные загазованные города Индии.

Показать полностью 1
Технологии Распознавание Слежка На орбите Инновации Лазер Видеонаблюдение Китайские учёные
18
test.driver
test.driver
3 месяца назад

Помогите найти музыку из видео⁠⁠

Ищу музыку Вертикальное видео Короткие видео Распознавание Музыка Видео
6
12
ForestGavt
ForestGavt
3 месяца назад
Искусственный интеллект

ИИ учат распознавать эмоции животных⁠⁠

Великие британские учёные исследователи активно натаскивают нейронки для распознавания эмоций животных. Точность алгоритмов уже приблизилась к 90%.

ИИ учат распознавать эмоции животных Искусственный интеллект, Животные, Распознавание, Эмоции

Выяснилось, мимика кошек и собак оказалась заметно похожа на человеческую. ИИ уже научился замечать стресс и боль, теперь его натаскивают видеть более сложные эмоции: счастье, спокойствие, грусть, страх.

Приложение для сканирование кошачьих лиц морд обещают выпустить уже совсем скоро.

Искусственный интеллект Животные Распознавание Эмоции
12
Посты не найдены
О Нас
О Пикабу
Контакты
Реклама
Сообщить об ошибке
Сообщить о нарушении законодательства
Отзывы и предложения
Новости Пикабу
RSS
Информация
Помощь
Кодекс Пикабу
Награды
Команда Пикабу
Бан-лист
Конфиденциальность
Правила соцсети
О рекомендациях
Наши проекты
Блоги
Работа
Промокоды
Игры
Скидки
Курсы
Зал славы
Mobile
Мобильное приложение
Партнёры
Промокоды Biggeek
Промокоды Маркет Деливери
Промокоды Яндекс Путешествия
Промокоды М.Видео
Промокоды в Ленте Онлайн
Промокоды Тефаль
Промокоды Сбермаркет
Промокоды Спортмастер
Постила
Футбол сегодня
На информационном ресурсе Pikabu.ru применяются рекомендательные технологии