Парсер: истории из жизни, советы, новости, юмор и картинки — Горячее

3 месяца назад

Помощники для ChatGPT и других LLM, а так же для ИИ-агентов⁠⁠

Сегодня необычные сервисы, а помощники для LLM и ИИ-агентов, чтобы они анализировали ваши файлы без галлюцинаций и ошибок. Обычные ИИ плохо справляются с PDF и картиками: путают колонки, не понимают таблицы и заголовки. Следующие инструменты читают документы как человек — учитывают структуру, формат, сноски, даже логику. Эти же инструменты превращают документ в качественно распознанный и разбитый по структуре текст, который уже можно загрузить в Большие Языковые модели (LLM) для дальнейшего взаимодействия без галлюцинаций. Этакие парсеры документов.

Проще, зачем они нужны? Для создания:

• систем поиска по внутренним документам (вопрос-ответ по внутренним документам)

• интеллектуального анализа юридических, медицинских, технических файлов

• создания базы знаний из PDF/HTML/DOCX, изображений и тд

Вот два таких сервиса:

1) LlamaParse

Помощники для ChatGPT и других LLM, а так же для ИИ-агентов Искусственный интеллект, Нейронные сети, Программирование, Парсинг, Парсер, Pdf, Бесплатно, Технологии, Чат-бот, Digital, Полезное, Информация, Таблица, Картинки, Картинка с текстом, Microsoft Excel, Документы, Разработка, Бизнес, Видео, Без звука, Короткие видео, Длиннопост

LlamaParse — умный парсер документов и файлов от LlamaIndex. Очень круто извлекает сложные таблицы. Можно интегрировать через API в приложения. Бесплатно можно обработать до 1 000 страниц в день.

LlamaParse поддерживает:

• Документы: PDF, DOC, DOCX, RTF, TXT, EPUB, XML, HTML, Pages, Keynote и др.

• Презентации: PPT, PPTX, ODP

• Таблицы: XLS, XLSX, CSV, ODS, TSV

• Изображения: JPEG, PNG, GIF, BMP, SVG, TIFF, WebP

• Аудио: MP3, MP4, WAV, M4A и др. (до 20 МБ)

Полный список доступен в официальной документации Supported Document Types

Например: Вы загружаете инструкцию по продукту, договор или научную статью → LlamaParse анализирует структуру и разбивает по логике → вы используете это в GPT-боте, который теперь может грамотно отвечать на вопросы по документу.

Больше проверенной информации и пользы в моем телеграм канале.

2) Contextual

Contextual - тоже самое, вы загружаете документ со сложными таблицами, рисунками и диаграммами, сервис так же преобразовывает это в текстовый файл с метаданными, понятный для любой LLM. Бесплатно можно обработать до 500 страниц.

Contextual AI поддерживает:

• Документы: PDF, DOC, DOCX, PPT, PPTX, HTML-файлы

Можно использовать документы Microsoft Office напрямую в системах Contextual AI, без необходимости предварительно конвертировать их в PDF.

Подпишитесь на НейроProfit и узнайте, как можно использовать нейросети для бизнеса, учебы и работы, не теряя свое время.

Хотите больше полезных сервисов для работы, учебы и бизнеса, видеоуроков, обратную связь и сильное окружение - Добро пожаловать в:

Показать полностью 1 1

parsingmaster

4 месяца назад

Молодые предприниматели

История в трёх актах от риэлтора, после которой вы тоже захотите парсинг⁠⁠

Акт 1. День сурка

Вы проснулись в теле риэлтора. Опять. В той же кровати. В той же пижаме. С тем же пейзажем за окном. И с той же небритой физиономией в зеркале.

Впереди – 2,5 часа адского ctrl+с, ctrl+v.

Каждое утро у вас перед глазами сайты застройщиков. Вы вручную выдёргиваете их объявления и заливаете на Авито. Первое, второе, третье объявление... Коллега с дёргающимся глазом пьёт третью кружку растворимого кофе, от запаха которого вас уже тошнит.

Вы вручную проверяете, что уже продано. Убираете эти объявления. И так каждый день.

История в трёх актах от риэлтора, после которой вы тоже захотите парсинг Парсинг, Риэлтор, Услуги, Покупка недвижимости, IT, Клиенты, Предпринимательство, Доход, Рутина, Автоматизация, Ручная работа, Парсер, Малый бизнес, Длиннопост

Акт 2. «Я не чёртов ксерокс»

Вы задумываетесь о смысле своей работы и хватаетесь за калькулятор:

2,5 часа драгоценного времени каждый день
55 часов в месяц – целая неделя работы на адское копирование
82 рабочих дня в году вы просто тратите на рутину

«Я не секретарь и не чёртов ксерокс. Мне платят за сделки, а не за копирование. Что-то нужно менять», – внутренний голос заставляет вас гуглить, как это исправить.

Читайте также наш кейс о том, как быстро проверить нишу начинающему бизнесмену с помощью парсинга и выйти в топ на Авито за месяц.

Акт 3. Спасение

Вы узнаёте о парсинге:

Зачем вручную мониторить сайты, если можно автоматизировать сбор данных? Зачем тратить часы на публикации, если их можно выгружать одним кликом?

Луч надежды впереди. Вы договариваетесь, чтобы всё рутинное копирование было автоматизировано.

И всего через несколько дней вы спасены:

Парсер собирает информацию с 6 сайтов застройщиков
Все данные автоматически собираются в Google-таблицу
Объявления сами публикуются на Авито, а проданные квартиры исчезают из публикаций

Кажется, и кофе коллеги уже не такой вонючий... И окно закрыть можно – выходить резко не захочется.

Этот кейс – реальный в Parsing Master. Мы помогли владельцу агентства недвижимости автоматизировать всю рутину с помощью парсинга и выдернуть сотрудников из дня сурка)

Живите счастливо, риэлторы!

Показать полностью 3

Парсинг Риэлтор Услуги Покупка недвижимости IT Клиенты Предпринимательство Доход Рутина Автоматизация Ручная работа Парсер Малый бизнес Длиннопост

Mathos

8 месяцев назад

Лига образования

Серия Что такое язык программирования?

Обратная польская нотация, получение и вычисление⁠⁠

Предыдущая статья: Включения действий при разборе и итог пройденных тем в vk.com

Статья для повторения: От перепутья к перепутью, часть вторая: Разбор языка арифметики

Для тех кто спешит увидеть код вот (С#) или псевдокод вот, кому нужна ясность в них читаем далее.

В привычной нами записи выражения, знак операции (далее оператор) записываются между значениями (далее операндами):
а + б
Такая форма называется инфиксной (калька - вкрепной).
Так же используется префиксная (докрепная) запись, когда операторы пишутся до операндов:
+ а б
и постфиксная (закрепная) запись, когда операторы пишутся за операндами:
а б +

Ниже показаны ещё примеры:

Обратная польская нотация, получение и вычисление Опрос, Программирование, Разбор, Парсер, Переводчик, IT, Урок, Длиннопост

Префиксная и постфиксная запись также именуются прямая и обратная польская нотация (далее ОПН), в честь её изобретателя польского логика Яна Лукасевича. Отличительная их черта, то что в них не используются скобки для обособления вычисления.

Получение ОПН из инфиксной записи

Используем рекурсивный спуск по рассмотренной нами грамматике, где в качестве чисел целые без знака:

Грамматика с унарным минусом и плюсом:
Г: В -> ДС
С -> ε | +ДС | -ДС
Д -> РП | -Д | +Д
П -> ε | *РП | /РП
Р -> ч | (В)

Звенья цепочки ОПН опишем набором трёх типов:
1. Операнд - целые числа.
2. Одноместный оператор - однооп, это унарный минус и плюс.
3. Двуместный оператор - двуоп, это минус, плюс, умножить, делить.

Ниже представлено полное описание звена ОПН:

Соберём звенья в список, который будет представлять нашу ОПН. Для этого отметим 3 действия на отделах рисунка порядка:
Д1 - Создать хрон. Переменная хранящая звено до момента добавления в список.
Д2 - Запомнить. Помещаем встреченное звено в хрон.
Д3 - Добавить. Записываем в список ОПН.

Ниже показаны отделы и процедуры со встроенными действиями в разбор:

1/3

Так мы добавляем в первую очередь операнды, затем операторы в порядке их приоритетов. Всмотритесь в процедуру «Дополнениее». В качестве хрона используется стог (англ. stack), так как запоминаются несколько знаков сразу, их следует вспомнить в обратном порядке.

Осмыслим следующее: рекурсивный разборщик выступает теперь не только в качестве распознавателя, но и переводчика. Ведь мы получили цепочку принадлежащую другому формальному языку, который можно описать так:

Грамматика обратной польской нотации:
Г:В -> ч | П`П
П`-> чПО
П -> ВОП | ε

где:

В - ВЫРАЖЕНИЕ
О - ОПЕРАТОР
П - ПРАВОЕ_ПОДВЫРАЖЕНИЕ
П`- ПОДВЫРАЖЕНИЕ
ч - ЧИСЛО

Остановитесь на минутку, осмыслите.

Вычисление ОПН

Ниже изображена схема устройства вычисления ОПН - Стог-машина (Stack machine), а на следующем её описание. Для примера использована ОПН:

1 2 3 * + 4 -

Которая получена из инфиксной записи:

1 + 2 * 3 - 4

1/2

Стог-машина состоит из:

Стога - в котором хранятся промежуточные значения.
Набора двухместных и одноместных операций.
Движка - который читает ОПН, управляет стогом и обращается к набору операций.

ОПН обладает свойством: действия применяются последовательно при её чтении, на чём и основана работа стог-машины:

Если звено операнд, то кладём число в стог.
Если звено однооп, снимаем верхнее число обрабатываем, итог кладём в стог.
Если звено двуоп, снимаем два верхних числа и применяем операцию. Причём первое значение операции - второе верхнее, а второе - первое верхнее. Итог кладём в стог.
По окончанию чтения ОПН, итог вычисления оказывается на дне стога, одним.

В заключении

Не стоит думать, что рассмотренный способ единственный для получения ОПН. Есть так же алгоритм Дейкстры перевода выражения в ОПН, но я не знаю стоит ли его разобрать или сразу перейти к обсуждению включения действий в «Провидца», ранее нами рассматриваемого.

Поэтому решение будет зависить от вас:

Какую тему разобрать следующей?

Алгоритм Дейкстры перевода выражения в ОПН.

Включения действий в «Провидца»,

Ну на это всё, быть добру, хорошего настроения. Подписывайся. =)
Точно! Для любознательных и внимательных читателей, ещё одна не позиционная система счисления.

Показать полностью 8 1

[моё] Опрос Программирование Разбор Парсер Переводчик IT Урок Длиннопост

News.Man

10 месяцев назад

Серия Новости...

Анализ новостей на основе RSS парсинга...⁠⁠

RSS-парсинг новостных лент России и USA от 10.11.2024 г.

1/4

Российские новостные заголовки, облако слов и круговая диаграмма...

1/6

Американские новостные заголовки, облако слов и круговая диаграмма + погодные условия...

Показать полностью 10

[моё] Новости Политика Общество Наблюдение США Usa Today Россия Парсинг Парсер Rss Длиннопост

Mathos

10 месяцев назад

Лига образования

Серия Что такое язык программирования?

Разбор КС-языка по табелю, часть вторая, итоговая: Провидец⁠⁠

Предыдущая статья:Разбор КС-языка по табелю, часть первая: Создание табеля в vk.com

Статья для повторения: Автомат с магазинной памятью (стог-памятью) и КС-языки

На прошлом уроке мы создали табель разбора для грамматики:

Г: В → ДС
С → +ДС | ε
Д → РП
П → *РП | ε
Р → ч | (В)

Давайте этот табель поместим в общее представление разборщика КС-языков в начальном состоянии, который назовём «Провидец»:

Разбор КС-языка по табелю, часть вторая, итоговая: Провидец Программирование, Парсер, Разбор, Урок, Обучение, ВКонтакте (ссылка), Длиннопост

Я надеюсь вы повторили статью, которая указана выше? Да? Замечательно. Мы видим контуром обведено внутренне устройство провидца, он состоит из:
1. Табеля разбора, в котором ранее пустые ячейки помечены словом «Ошибка». Это значит, что данная пара конечного и неконечного приводит к ошибке.
2. Стога в который вложен # - правый ограничитель потока, который является подом (далее будем говорить просто грань, имея в виду грань строки). А так же вложен стартовый неконечный символ В, что говорит нам, что разбор является нисходящим.
3. Движка который читает принимаемое выражение и делает вывод. В ходе разбора он управляет стог-памятью, обращаясь к табелю для принятия решения, какую цепь поместить следующей взамен верхнего неконечного. Если встречается продукция вида П → ε или конечный символ, то просто снимаем символ с верха. Если на верху оказывается символ не равнозначный рассматриваемому или мы не находим в табеле продукцию сообщаем об ошибке. Останавливается когда верх будет равен грани.

Работа провидца напоминает повторение левостороннего вывода рассматриваемого выражения. Рассмотрим выражение «ч+ч*ч»:
В => ДС => РПС => чПС => чС => ч+ДС => ч+РПС => ч+чПС => ч+ч*РПС =>
ч+ч*чПС => ч+ч*чС => ч+ч*ч

Ниже показана работа совершённая движком, для распознавания этого выражения:

Так как в табеле однозначно определенна применяемая продукция, то мы знаем, что может нас ожидать впереди, поэтому мы и назвали разборщика провидцем. Ниже приложен его псевдокод. Здесь и здесь, вы можете посмотреть полный псевдокод и реализацию на С# от получения табеля, до разбора выражения.

1/2

В следующей статье мы рассмотрим включения действий в рекурсивный спуск и немного подытожим цикл статей. Подписывайтесь, чтобы не пропустить.

UPD:

Показать полностью 4

Программирование Парсер Разбор Урок Обучение ВКонтакте (ссылка) Длиннопост

Mathos

11 месяцев назад

Лига образования

Серия Что такое язык программирования?

От перепутья к перепутью, часть третья, итоговая: Требования к предопределённому распознанию языка⁠⁠

Предыдущая статья: От перепутья к перепутью, часть вторая: Разбор языка арифметики в vk.com

Перед тем как читать изложение, ознакомьтесь с двумя прошлыми статьями и определением, что такое разбор, в этом порядке: раз, два, три. Прочли? Замечательно! В противном случае вы ничего не поймёте. Приступим.

Левая и правая рекурсия правил вывода.

Пусть у нас есть некоторая цепочка α - состоящая из конечных и неконечных символов, тогда если при выводе некоторого неконечного А, через один и более вывод мы приходим к виду А => … => Aα, где А находится слева от цепочки α, говорят что такая грамматика содержит левую рекурсию, и соответственно при А => … => αА, где А справа от α, правую рекурсию.

О правой рекурсии уже упоминалось, в теме «Рисунок порядка КС-языка», она позволяет легко свести рекурсию к циклу. При построении рекурсивного спуска требуются праворекурсивные грамматики, в противном случае возможна бесконечная рекурсию, затем переполнения стэка (стога) вызовов, как мы ~~любим~~.

Леворекурсивная грамматика всегда может быть преобразована в эквивалентную праворекурсивную.

Направляющие символы, маяки.

Маяки это решающие в определении пути разбора, на одну ветвь может приходится множество направляющих символов. Это множество состоит из конечных символов и очень важно чтобы множество маяков одной ветви, не пересекалось со множеством другой ветви.

От перепутья к перепутью, часть третья, итоговая: Требования к предопределённому распознанию языка Программирование, Урок, Грамматика, Парсер, Разбор, ВКонтакте (ссылка)

Перед - множество конечных направляющих символов.

LL-грамматика

LL(k)-грамматикой называется КС-грамматика, в которой выбор правила в ходе левостороннего разбора однозначно определяется не более чем k очередным символом входной цепочки, считываемой слева на право.

Своё название она получила из двух слова left left. что имеется ввиду левосторонее чтение, левостороний разбор.

Самой удобной для распознавания является грамматика которая позваляет опередлить правило по первому прочтённому символу, то есть LL(1)-грамматика.

Под рекурсивным спуском обычно подразумевают, предопределённый способ нисходящего разбора КС-языков, порождаемых ЛЛ(1)-грамматиками.

ЛЛ-грамматика праворекурсивна и множества направляющих символов в её правилах не пересекаются, что соответствует вышеуказанным требованиям.

Заключение

Эти правила касаются только лишь для метода рекурсивного спуска и ЛЛ-разбора по табелю (табличный анализатор), который рассмотрим в следующих статьях.

UPD:

Показать полностью 1

Программирование Урок Грамматика Парсер Разбор ВКонтакте (ссылка)

itechandrey

1 год назад

Хвастаюсь) Написал парсер по 10 самым крупным киносетям на фрилансе, но периодически запускаю для себя, чтобы смотреть что в тренде⁠⁠

Был на старте своей карьеры у меня заказик на фрилансе. Взял в разработку за 100 000руб. Суть в том, чтобы написать софт, который в течении дня спарсит 10 самых популярных киносетей РФ по всем регионам где они представлены ну и сформирует эксель файлик с аналитикой.

Что самое интересное - я теперь самый прошаренный в кинотрендах в своём окружении 😂. Запускаю стабильно раз в неделю и смотрю что происходит.

Вот кстати подборочка того, что сейчас крутят больше всего на 18.08.2024

Тг: Айти Андрей

Хвастаюсь) Написал парсер по 10 самым крупным киносетям на фрилансе, но периодически запускаю для себя, чтобы смотреть что в тренде Парсер, Фильмы, Кинотеатр, Рейтинг, Что круче, Telegram (ссылка)

Топ по Кино Окко

Топ по Каро

Топ по Киномаксу

UPD:

Андрей Кузнецов

Показать полностью 2

[моё] Парсер Фильмы Кинотеатр Рейтинг Что круче Telegram (ссылка)

plamar

1 год назад

Парсер кинопоиска в Excel⁠⁠

Я Саша, .NET Fullstack разработчик. Недавно помогал заказчику выгружать информацию с кинопоиска в Excel. Заказчик проводит какое-то аналитическое исследование, определяет какие фильмы имеют тенденцию получать высший рейтинг. Ниже код, если захотите повторить. А если вам лень писать самому - обрайщайтесь ко мне!

using HtmlAgilityPack;
using System;
using System.Linq;
using System.Net.Http;
using System.Threading.Tasks;
class Program
{
static async Task Main(string[] args)
{
var url = "https://www.kinopoisk.ru/film/447/";
// Load the HTML from the URL
var httpClient = new HttpClient();
var html = await httpClient.GetStringAsync(url);
// Parse the HTML
var htmlDoc = new HtmlDocument();
htmlDoc.LoadHtml(html);
// Extract the main data
var titleNode = htmlDoc.DocumentNode.SelectSingleNode("//h1[@itemprop='name']//span");
var originalTitleNode = htmlDoc.DocumentNode.SelectSingleNode("//span[@class='styles_originalTitle__JaNKM']");
var ratingNode = htmlDoc.DocumentNode.SelectSingleNode("//span[@class='styles_ratingPositive__dzFSI']");
var ratingCountNode = htmlDoc.DocumentNode.SelectSingleNode("//div[@class='styles_countBlock__jxRDI']//span[@class='styles_count__iOIwD']");
var movieTitle = titleNode?.InnerText.Trim();
var originalTitle = originalTitleNode?.InnerText.Trim();
var rating = ratingNode?.InnerText.Trim();
var ratingCount = ratingCountNode?.InnerText.Trim();
// Print the extracted data
Console.WriteLine($"Title: {movieTitle}");
Console.WriteLine($"Original Title: {originalTitle}");
Console.WriteLine($"Rating: {rating}");
Console.WriteLine($"Rating Count: {ratingCount}");
}
}

Показать полностью 1

Парсер Программа Telegram (ссылка)

Посты не найдены

1 2 3 4 5 6 7