Распознавание: истории из жизни, советы, новости, юмор и картинки — Горячее

3 дня назад

Охота на музыку⁠⁠

По следам темы Сила Пикабу, ищу трек. ПаМаГитИ...

У меня было, что ухватишь по радио кусочек, он сам всплывает под настроение, а потом забывается, ищешь годами, чуть ли не десятками лет. Можно подслушать в мимо проезжающей машине - и все. Ты навеки будешь искать. сейчас ищу 2 темы. Они забываются. Под настроение заиграют в голове, вот оно, знакомое. Но хрен найдешь. Иногда тебе снится эта музыка, очнулся отдохнувший и все забыл, но так легко на душе))

И все равно я ее находил. Через трек айди (сони эрикссон), через шазам теперь. Или просто помогли люди - всякое бывает...

Благодаря вам я понял куда копать. Спасибо.

Аноним

6 дней назад

Помогите прочитать надпись и раскрасить фото⁠⁠

Тут фото документа. Помогите разобрать наименование изъятого, особенно последние 2 строчки - это довоенная опись при аресте.

По возможности раскрасить фотки. Тк через бесплатный ии не очень результат мне понравился.

Обратная сторона фотокарточек. Никак не могу разобрать что написано на штемпеле кроме "Бенфельдъ" и вроде как слово "фотограф" на последней.

Заранее всем спасибо.

Показать полностью 4

[моё] Фотография Черно-белое фото Колоризация Распознавание Помощь Старое фото Документы Длиннопост

LuckyVladS

28 дней назад

Искусственный интеллект

ИИ учится расшифровывать телефонные разговоры с помощью радаров — новая угроза приватности в 2025 году⁠⁠

О чем речь

Исследователи из Пенсильванского университета впервые продемонстрировали на практике, как телефонные разговоры можно сугубо дистанционно расшифровать с помощью миллиметровых радаров и нейросетей нового поколения. Это не гипотеза — технология действительно работает и ставит под вопрос привычные представления о конфиденциальности.

Как работает «Wireless-Tap»

В 2022 году прототип системы мог распознавать всего 10 слов с высокой точностью. Сегодня «Wireless-Tap» способен обработать до 10 000 слов, превращая ключевые сигналы в цельную фразу, даже если телефон лежит в трёх метрах от радара.

Подробнее

Коммерческие радары, которые используются в автомобилях и устройствах движения, фиксируют микровибрации корпуса телефона в момент беседы.

Команда Penn State адаптировала для этой цели модель Whisper от OpenAI: её обучили на синтетических радиоданных, специально создав уникальные наборы для «шумных» сигналов. Такой подход позволил перейти от распознавания отдельных ключевых слов к транскрибированию целых диалогов.

Технические тонкости и вызовы

Главная проблема — радиосигнал крайне «шумный» и по качеству несопоставим с обычной речью: сигнал ниже 5 дБ. Обычные модели распознавания речи здесь попросту не работают. Поэтому разработчики применили метод low-rank adaptation и модифицировали лишь 1% параметров нейросети OpenAI Whisper, чтобы она адаптировалась к данным радара. Для обучения пришлось генерировать искусственные датасеты, поскольку реальных записей такого типа в открытых источниках не существует.

Приватность и общественные риски

Авторы проекта подчёркивают: их цель — продемонстрировать потенциальные риски, а не создавать инструменты слежки. Даже если точность не абсолютна, ИИ способен «дорисовывать» смысловые пробелы за счёт контекстуального анализа, как это делают профессиональные чтецы по губам.

Современные ИИ-системы всё чаще вызывают опасения у специалистов по безопасности: с расширением доступа к данным и новыми возможностями существует риск их неправомерного применения. Технологии могут быть использованы не только для промышленного мониторинга или медицинских задач — они уже потенциально грозят привычным границам приватности.

Почему это важно для профессионалов и бизнеса

Становится очевидно: даже привычные «безопасные» пространства больше не гарантируют конфиденциальность. Если массовые радары способны считывать разговоры с помощью ИИ, нужно пересматривать подход к цифровой безопасности и приватности. Рынок ИИ решений развивается стремительно, и сегодня стоит не только следить за новостями, но и переосмысливать базовые установки цифровой гигиены.

Хотите изучить подробнее:

- новость на сайте Penn State

- статья Wired о рисках приватности и ИИ.

🎧 У нас есть подкаст «Голос из Матрицы» — полностью созданный нейросетью. От голоса до сценария.

Слушай бесплатно на любимой платформе:

🔹 Яндекс Музыка

🔹 Звук

🔹 Mave

🔹 Pocket Casts

Показать полностью

[моё] Искусственный интеллект Приватность Распознавание Информационная безопасность Текст

PhilippSlinkin

2 месяца назад

Искусственный интеллект

История нейросетей - от перцептрона до ChatGPT⁠⁠

Хорошее видео по истории развития нейросетей с 1940х годов по наше время.
Разобраны основные работы ученых которые толкали развитие искусственного интеллекта от первых моделей алгоритмов на транзисторах, до современных нелинейных решений, которые умеют различать объекты на фотографиях и суть слов в предложениях.

Ссылка на vkvideo: https://vkvideo.ru/video-231072534_456239017
Ссылка на YouTube: https://youtu.be/T2ZlOCGRA2Q

Искусственный интеллект Нейронные сети История (наука) Кибернетика Распознавание Видео YouTube YouTube (ссылка) Видео ВК IT Программирование

Vdesyatke

2 месяца назад

Без токсиков

Будущее наступило старик⁠⁠

Сфоткал вчера в Перекрестке. Приятно удивлён.

Хотел написать «текнолоджия», но нихуя, это вполне себе прям «технология».

PS: чтоб не показалось, что это реклама X5, то скажу, что в этом магазине (Самара, Водников 28/30) постоянно воняет мертвечиной, а обращения в поддержку не дали никакого результата.

Показать полностью 1

[моё] Супермаркет Перекресток X5 Retail Group Искусственный интеллект Распознавание Нейронные сети Мат

QuadratusAI

4 месяца назад

Как мы запустили голосовой стартап без команды мечты и миллионов⁠⁠

🔸 О чём будет эта статья:

Это история о запуске голосового продукта без инвестиций, без команды на 10 человек и без мак ноутбуков. Только идея, немного Python, желание автоматизировать то, что кажется очевидным, и Telegram-бот, который родился из расчетного долгого времени разработки.

Мы расскажем:

Как всё началось с простой мысли: «А что, если голос можно превратить в текст для быстрой записи?»
Когда я понял, что традиционные методы записи не так эффективны, пришла идея использовать голос для быстрого и структурированного фиксирования мыслей.
Почему я не стал ждать «идеального момента»
Желание решать проблему подтолкнуло меня к действиям без ожидания идеальных условий.
С какими трудностями столкнулся
Трудности с реализацией и организацией были, но они только ускорили процесс поиска решений.
Как писал MVP на коленке
Сделать быстро и с минимальными затратами — так появился первый прототип.
Как тестировали на друзьях и случайных людях
Обратная связь от знакомых помогла улучшить продукт.
Почему Telegram оказался идеальной точкой входа
Телеграм был простым и удобным инструментом для быстрого запуска проекта.

💡 Зачем это читать:

Если ты когда-то хотел запустить свой продукт, но откладывал из-за «недостатка ресурсов» — это история для тебя.

Если тебе интересно, как рождаются реально полезные вещи — из боли, рутин, неудобства — тебе сюда.

Если ты хочешь понять, как мыслит команда, которая делает сервис для реальных людей, а не питчей — ты на месте.

🛠️ О чём конкретно будем рассказывать:

Зачем вообще всё это понадобилось
– как идея родилась из личной рутины
– голосовые, заметки, неуспевание фиксировать мысли
– «хочу просто сказать и получить нормальный текст»
С чего было начало технической части
– Python + библиотеки для распознавания речи
– эксперименты с Vosk, Whisper
– первые сломанные скрипты и первая фраза, которую система распознала
Почему Telegram и MVP за пару дней
– запуск без фронта и лишней сложности
– простой бот, отправляешь голос — получаешь текст
– реакция друзей: «Эммм… Это ты сделал?»
– как фиксили баги в реальном времени
Работа с текстом: сделать не просто транскрипт, а читаемый текст
– как начали «чистить» речь
– от удаления "э-э", "ну", до перестроения структуры.
– И создания правильного форматирования с разбиением на абзацы
Сайт, демка, первые фидбеки
– как собирали сайт для демонстрации
– кто первые пользователи, как реагировали
– какой фидбек оказался самым неожиданным
Что было самым сложным
– не техническая часть
– не бот
– а сделать так, чтобы продукт был «невидимым», простым и реально полезным
Что будет дальше
– продолжаем тестирование и доработку
– активно собираем фидбек, чтобы сделать продукт ещё лучше
– в ближайших статьях расскажем о новых фичах и о том, как развиваем систему дальше

Как пришла мысль разработки продукта?

Я по профессии специалист по компьютерным сетям и программист. Основная часть моего времени уходит на работу с кодом, но иногда хочется разобраться и в чём-то новом. Так я решил изучить тему право интеллектуальной собственности — просто для себя.

Чтение началось бодро: статьи, материалы, заметки. Но через какое-то время заметил, что информации становится слишком много. Прочитал абзац — вроде понятно. Перешёл к следующему — и тут понял, что не могу вспомнить, что было в предыдущем. Всё смешивается. Начал ловить себя на том, что читаю одно и то же несколько раз, потому что просто не удерживается в голове.

Тогда я решил записывать. Казалось бы, логично: фиксировать ключевые мысли, чтобы потом не забыть. Сразу вспомнились студенческие конспекты — быстро записать и забыть. Но когда стал делать это сейчас, уже осознанно, стало понятно, что такое способ обучение крайне не эффективный.

Во-первых, я начал писать от руки — и быстро столкнулся с тем, что потом с трудом разбираю свой почерк. Иногда вообще не могу понять, что хотел сказать. Во-вторых, редактировать такие записи практически невозможно. Ошибся — надо зачеркивать. Хочешь вставить мысль — уже негде. Всё выглядит одинаково важным, найти нужное потом тяжело.

Я решил поискать, как люди в целом ведут конспекты, чтобы делать это эффективнее. Обратился к ChatGPT — он выдал список из семи основных техник:

7 популярных методов конспектирования:

Метод Корнелла
Разделение страницы на три части: ключевые слова, основные записи и краткое резюме. Это помогает структурировать информацию и облегчить повторение.
Метод обрисовки (Outline)
Классическая иерархия: заголовки и подпункты, удобен для логической структуры.
Картирование (Mind Map)
Основная тема в центре, от неё расходятся подтемы, помогает визуализировать связи.
Метод боксов (Boxing Method)
Информация делится на блоки, каждый с одной темой, что ускоряет поиск.
Метод предложений (Sentence Method)
Короткие предложения без структуры, удобно для быстрого фиксирования информации.
Метод таблиц
Информация в виде таблицы с терминами, определениями, примерами и комментариями, удобно для сравнений.
Цифровой метод (Zettelkasten)
Каждая мысль — отдельная карточка, между ними устанавливаются связи, идеален для долгосрочной базы знаний.

Каждый метод интересен по-своему, но все они требуют усилий: остановиться, переосмыслить, оформить. Иногда на это уходит больше времени, чем на само чтение — особенно если хочется не просто написать, а понять и потом использовать.

Я понял, что в моём ритме это не работает. Нужно было что-то быстрее и проще — тогда я начал экспериментировать.

Я заметил, что лучше всего усваиваю материал, когда пересказываю его. Даже не кому-то, а самому себе. Это помогает закрепить смысл в голове. Так родилась идея проговаривать ключевые мысли вслух.

Я стал читать абзац, а затем кратко пересказывать его на своём языке — без заучивания, просто чтобы проверить, понял ли я суть. В этот момент включал запись на телефоне. Получались короткие голосовые заметки по 20–30 секунд.

Позже я прослушивал их или переводил в текст с помощью распознавания речи. Это оказалось неожиданно удобно: голосовые фрагменты не перегружены деталями, в них остаётся главное — и это мои собственные формулировки.

Так я пришёл к формату, который действительно сработал: понятный пересказ — в аудио. Без лишней структуры и ручной писанины. А при необходимости — всё можно превратить в текст, структурировать, сохранить или передать системе, которая поможет с анализом.

Этот подход оказался значительно эффективнее привычных заметок. Я больше не пытался записать всё подряд — только то, что действительно понял. Это экономило время и помогало лучше усваивать материал.

Со временем появилась потребность автоматизировать процесс — и тогда я решил сделать веб-сервис, который бы помог сохранять и обрабатывать голосовые заметки. Для быстрого запуска я сначала настроил сохранение записей в Telegram, как самый простой и доступный способ. Подробно о реализации, сложностях и технических деталях расскажу чуть ниже.

Главное, что я понял — самый простой способ иногда оказывается самым эффективным. Важно просто найти тот формат, который подходит именно тебе.

2. С чего было начало технической части

Всё началось с идеи, которую я придумал в голове, и с опросов среди друзей, чтобы понять, кому этот продукт может быть полезен. Я быстро понял, что идея голосовых заметок и их автоматического преобразования в текст могла бы быть полезной в разных сферах: от образования и бизнеса до повседневных задач. Это стало основой для следующего шага.

Затем я начал изучать основные фреймворки для работы с распознаванием речи. В первую очередь обратил внимание на Python и библиотеки для распознавания голоса, такие как Vosk и Whisper, а также на коммерческие решения от крупных компаний, таких как Яндекс. Это дало мне представление о том, что доступно в плане технологий.

Мой первоначальный план был прост: я хотел превратить голос в текст, затем обработать текст с помощью алгоритмов для выделения ключевых слов и идей, а затем передать это пользователю через веб-интерфейс. Я выбрал Django для бекенда, так как он казался идеальным выбором для быстрого старта.

Приблизительный макет проекта Визуал

Как мы запустили голосовой стартап без команды мечты и миллионов Опрос, Python, IT, Чат-бот, Программирование, Стартап, Распознавание, Telegram, Mvp, Ux, Обратная связь, Продукты, Прототип, Автоматизация, Длиннопост

Я начал с экспериментов с различными фреймворками, включая Vosk и Whisper. Решение использовать локальные нейросети для распознавания голоса оказалось одним из наиболее подходящих вариантов, так как оно позволило работать без зависимости от облачных сервисов. Однако, после нескольких тестов и установки моделей для распознавания, я понял, что интеграция будет сложнее, чем я ожидал.

Вариант тестов английской модели (легкие быстрые модели для экспериментов)

Далее я провел оценку времени, которое займет реализация всего проекта: от разработки фронтенда и бекенда до интеграции голосового распознавания и создания пользовательского интерфейса. Примерные расчёты показали, что на весь процесс может уйти от 3 до 6 месяцев.

Рассчитав, что времени на реализацию будет достаточно, я решил сосредоточиться на тестировании технологии и на том, как она работает в реальных условиях. И в какой-то момент, уже наблюдая за развитием технологий в этом сегменте, я увидел, что те компании, о которых я думал, уже сделали то, что я собирался только начать.

3. Почему Telegram и MVP за пару дней QuadratusAI

После серии тестов с распознаванием речи на базе Vosk и Whisper, а также после анализа конкурентов, стало ясно: времени на полноценную реализацию проекта — с фронтендом, бэкендом, пользовательским интерфейсом и всей обвязкой — нет. Разработка сайта с названием QuadratusAI, его подключение к распознаванию и создание визуального интерфейса могла бы занять месяцы. Это был бы хороший следующий шаг после получения обратной связи, но не первоочередной.

Я понял, что нужно запускаться максимально быстро, без лишних слоёв сложности. Так родилась идея Telegram-бота — простого, понятного и доступного для всех моих знакомых. Никакого веб-интерфейса, никаких регистраций — только Telegram, только голос и текст.

Я сел в выходные и полностью сосредоточился на создании минимального жизнеспособного продукта (MVP). На тот момент у меня не было опыта написания ботов для Telegram, и весь код оказался в одном файле — громоздком и запутанном. Я не до конца понимал, как правильно организовать взаимодействие с Telegram API, как обрабатывать разные события и команды. Несмотря на это, базовая логика работала: ты отправляешь голосовое сообщение — получаешь текст в ответ.

Первые пользователи, в основном друзья, были удивлены:
«Эммм… Это ты сделал?» — такой была типичная реакция.
Параллельно с этим шла "боевой режим" — баги и ошибки устранялись прямо во время использования. Например, где-то не обрабатывались ошибки при скачивании файла, где-то Telegram возвращал неожиданный формат. Всё это приходилось чинить на лету.

Позже я начал добавлять функциональность — например, подключил облачную текстовую нейросеть, чтобы дополнительно очищать распознанный текст, убирать артефакты речи, структурировать его. Следующим шагом стало выделение ключевых слов и добавление эмодзи, чтобы текст выглядел более живо и дружелюбно в формате Telegram-сообщений.

Также в планах появилось ещё множество идей: распознавание спикеров, интеллектуальная фильтрация, интеграция с внешними сервисами. Но запуск через Telegram дал главное — возможность быстро проверить гипотезу, получить реальные отклики и продолжать развивать идею без длительных задержек на подготовку.

QuadratusAI Bot

4. Работа с текстом: сделать не просто транскрипт, а читаемый текст

Распознавать речь — это только половина задачи. Вторая, не менее важная часть — превратить сырую транскрипцию в читабельный, структурированный текст, пригодный для восприятия.

На этом этапе началась работа с «очисткой» речи: удаление слов-паразитов, таких как «э-э», «ну», «короче», избавление от лишних пауз, повторов и артефактов устной речи. Одной только транскрипции было недостаточно — нужна была перестройка структуры фраз, чтобы текст был логически связанным и не терял смысла.

Все эти задачи решались через разные промты и тесты — постоянно пробовались новые интерпретации, варианты запросов к языковой модели. Цель была одна: оставить суть, вычистив шум. И шёл поиск оптимального баланса: чтобы и смысл сохранялся, и текст становился ближе к «человеческому» письму — со склонениями, правильным порядком слов и логикой изложения.

5. Сайт, демка, первые фидбеки

После создания рабочего Telegram-бота появилась идея подготовить демонстрационный сайт QuadratusAI.

Цель — презентовать проект, собрать первые отзывы и протестировать реакцию аудитории. Также это был шаг в сторону будущего полноценного веб-интерфейса.

Пример с использованием DeepSeek

Генерация сайта с помощью нейросетей

Для ускорения процесса разработки было решено использовать нейросети и ChatGPT.
План состоял в следующем: описать идею, получить сгенерированный HTML/CSS/JS-код и как можно быстрее развернуть результат.

Однако на практике генерация сайта оказалась далекой от идеала. В ответах модели были ошибки, неполные блоки, либо слишком сложная структура.
Была предпринята попытка использовать полный стек генерации, включая React + TypeScript, но пришлось дорабатывать код вручную, местами редактируя результат через Cursor (IDE), а местами просто «допиливая» вручную по частям.

Вместо задуманного чистого HTML + CSS + JS получилось решение на React + TypeScript + CSS, так как только в такой связке нейросеть выдавала более-менее стабильный результат.

Наполнение и оформление

После исправления основных багов началась работа по наполнению:

Вставка и оформление скриншотов демо-бота.
Подготовка визуальных блоков с описанием возможностей.
Перевод описания на английский язык для международной аудитории.

Сайт был размещён на бесплатном хостинге для сбора первых фидбеков.
Итоговая сборка и отладка заняли примерно неделю — иронично, но, как потом показалось, было бы быстрее написать всё с нуля вручную. Тем не менее, опыт стал важным шагом в проверке инструментов и подходов.

6. Что было самым сложным

Самым сложным в проекте оказалось не разработка, не интеграции и даже не баги. Эти проблемы решаются с помощью технологий и терпения. Настоящая сложность была в том, чтобы продукт был настолько простым, что пользователь даже не задумывался, как он работает.

Задача заключалась в создании интуитивно понятного и мгновенного взаимодействия без лишних шагов и ожидания. Чтобы пользователь не думал, куда нажимать или что ждать.

Архитектура была разделена на два компонента:

Первый — Telegram-бот. Он лёгкий и минималистичный, принимает голосовые сообщения и отправляет обратно текст. Обработка голоса не происходит на этом сервере, что делает его быстрым и простым.

Второй — сервер для обработки данных. Здесь происходит распознавание речи, очистка текста от лишних слов, структурирование и добавление эмоджи. Этот сервер выполняет все сложные операции, но скрыт от пользователя.

Такой подход позволил разделить критическую логику от пользовательского интерфейса. Это обеспечило гибкость в масштабировании и обновлениях без риска повлиять на работу фронтенда. Система может тестироваться и улучшаться без видимых изменений для пользователя.

Результат — простота использования: отправил голосовое сообщение — получил готовый текст. Без загрузок и прогресс-баров. Вся сложная логика скрыта, что делает продукт «невидимым» для пользователя.

7. Что будет дальше

Мы уже добились немалых результатов. Простой, но мощный инструмент, который когда-то казался идеей, теперь полностью работает, избавляя от множества рутинных задач. Всё, что нужно сделать, это просто сказать — и система превращает ваш голос в чистый, структурированный текст.

От разработки до тестирования — мы сосредоточились на том, чтобы пользователю не приходилось думать о том, как всё работает. Бот в Telegram работает без лишних шагов и интерфейсов. Система обрабатывает голос, очищает его от ненужных слов, выделяет ключевые моменты и возвращает результат, как если бы это была самая естественная часть общения.

Но мы не останавливаемся. Уже сейчас мы собираем фидбек и работаем над улучшением функционала. Скоро появятся дополнительные возможности, которые сделают продукт ещё проще и удобнее. Мы уверены, что эта простота и эффективность помогут вам избежать сложностей с записью мыслей и идей в любой ситуации.

Пробуйте, и вы сами увидите, как это может быть полезно в повседневной жизни. Заходите на сайт, тестируйте в боте — и почувствуйте, как это работает.

Как вы чаще всего фиксируете свои идеи или заметки?

В блокнот или на бумаге

В заметки телефона

Голосом (диктофон/бот)

Вообще не фиксирую — забываю 😅

Сам бот: https://t.me/AudioFastAi_bot

Страница с проектом: https://quadratus-ai.netlify.app

Телеграмм канал: https://t.me/QuadratusAI

Показать полностью 7 1

[моё] Опрос Python IT Чат-бот Программирование Стартап Распознавание Telegram Mvp Ux Обратная связь Продукты Прототип Автоматизация Длиннопост

tov.Imyarek

4 месяца назад

Распознавание сканов и их перевод через связку OCR+ИИ⁠⁠

Столкнулся с задачей перевести на русский язык скан старого аргентинского документа. Проблема в том, что я не знаком с испанским языком, а распознавание символов происходит с ошибками. Проблема решена связкой (OCR) abbyy finereader + ИИ (deepseek). Об этом, собственно, пост.

Ниже приведён пример страницы документа:

Работа со сканом. Улучшение изображения

Открываем документ в редакторе OCR Abbyy Finereader (инструменты - редактор OCR), сталкиваемся с ошибкой "неверное разрешение изображения".

Не забудьте выставить язык распознавания, в данном случае - испанский

Будем исправлять. Заодно отредактируем сами изображения сканов, чтобы облегчить работу программе для распознавания символов. Нажимаем "Открыть редактор изображений". В этот редактор так же можно перейти через панель инструментов сверху.

Открывается, собственно, редактор:

Я рекомендую идти по панели инструментов, которая расположена справа, в обратном порядке, т.е. снизу вверх.

1. Для начала выбираем ластик и несчадно вырезаем абсолютно всё, кроме текста, который нам нужен: печати, подписи, штампы, номера страниц и т.п.

2. Далее - Уровни. Смещаем исходные уровни таким образом, чтобы крайние ползунки попадали на начало и конец уровней. С помощью чёрного ползунка выходного уровня "подтягиваем" контраст скана. На данном этапе наша задача - добиться хорошего соотношения контрастности изображения с фоновыми шумами от бумаги.

Не забывайте применять изменения для страницы к переходу на следующий пункт

3. В случае с яркостью и контрастностью изображения наша задача фактически полностью "отбелить" задний фон, но при этом максимально сохранить читаемость символов. Для этого в процессе передвигания ползунков лучше приближать текст так, чтобы следить за читаемостью символов.

Я случайно применил изменения, поэтому положения ползунков обнулились((( Но, думаю, тут принцип понятен

4. Далее мы заходим в Разрешение изображений, нажимаем "определить оптимальное" и применяем то, что нам посоветовала программа.

После этого мы можем выйти из редактора изображений и провести распознавание документа.

"Абракадабра" выделена черным"

Мы видим, что качества распознавания нам далеко недостаточно для машинного перевода. Часто встречаются артефакты, вот кусок текста для примера:

"Artíci>lo 4fl.~ El présente decreto será refrendado por los oadoraa ^jinistros Secretarios qq loe Departamentos de Defensa Racional y \de Relacionas Exteriores y Culto 7 firmado por los salteras secreta"

Не расстраиваемся. Жмём файл - сохранить как - документ TXT и сохраняем файл в удобное место. Этот файл содержит наш распознанный текст.

Исправляем ошибки распознавания в DeepSeek

Заходим на chat.deepseek.com, включаем DeepThink(R1), прикрепляем к чату наш txt-файл и пишем промпт:

В файле результат распознавания скана документа на испанском языке. Исправь ошибки распознавания исходя из контекста. В конце проанализируй связность получившегося текста и оцени степень уверенности в правильности распознавания и своих исправлений от 0 до 1. Выведи весь итог в plaintext, контейнер, чтобы я мог его скопировать.

Итог работы промпта

В данном случае модель выдала такую оценку
**Степень уверенности:** 0.9 (Незначительные неясности остаются в деталях, например, «C-776» — возможна опечатка в номере, но общая точность высокая.)

В остальном всё замечательно. Благодаря plaintext можем в один клик скопировать или скачать полученный результат на компьютер и использовать его для перевода на русский. Для перевода, по моему мнению, лучше всего подходит переводчик от Яндекса, но это уже дело вкуса.

Перевод и структурирование текста

В Яндекс.Браузере переходим в нейропереводчик (в адресной строке browser://neuro-translate/) и вставляем туда свой текст, переводим и получаем нечто следующее:

Сплошной текст читается тяжело

Чтобы структурировать текст я пользуюсь нейроредактором (browser://neuro-editor), использую промпт "не изменяя текст структурируй его". В процессе оформления структуры текста яндекс нейро убирает мелкие неточности перевода, что улучшает сам текст.

Итого мы получили готовый документ, с которым можно работать:

Надеюсь, кому-то было полезно.

Сам документ содержит сведения о деятельности Аргентины в рамках антикоммунистической оси в период Холодной Войны. В частности, в документе ведется речь о том, что ВС Аргентины вмешивались в конфликт в Карибском бассейне, действуя против Кубы, СССР и Китая.

P.S. Дописав пост понял, что он огромный. Это из-за скриншотов. На самом деле весь процесс занимает 5-10 минут максимум. И, конечно, забыл: это личный опыт, наверняка есть способы лучше, проще, быстрее и т.д., но я о них пока не знаю. Поделитесь - буду благодарен.

Показать полностью 10

Документы Искусственный интеллект Распознавание Гайд DeepSeek Abbyy FineReader Яндекс Длиннопост

Hawchik

5 месяцев назад

Робот котрый стреляет жвачкой⁠⁠

Распознавая открытый рот

Робототехника Изобретения Жвачка Изобретатели Технари Техника Инновации Стрельба Распознавание Робот Видео Вертикальное видео

Посты не найдены

1 2 3 4 5 6 7 8 9 10 11 20 30 40