Анализ данных: истории из жизни, советы, новости, юмор и картинки — Горячее

9 часов назад

LIMIT и интересные кейсы с ним. Или почему LIMIT - друг аналитика⁠⁠

Обычно все знают самое базовое применение LIMIT - ограничение строк выдачи в запросе.

LIMIT 10 -> показать 10 строк

Но применение LIMIT не ограничивается только ограничением :-).
Есть интересные кейсы по использованию LIMIT в своих запросах.
Об этом чуть ниже.

А пока подписывайся на мой канал На связи: SQL Там я публикую посты про особенности и нюансы SQL. Этот канал про то, как не бояться баз данных, понимать, что такое JOIN, GROUP BY и почему NULL ≠ 0. Его я веду с нуля подписчиков. Присоединяйся!

LIMIT и интересные кейсы с ним. Или почему LIMIT - друг аналитика Эмоциональное выгорание, Аналитика, Аналитик, Анализ данных, SQL, Ms SQL, База данных, Системный анализ, Системный аналитик, Длиннопост

И так, какие же кейсы есть с применением LIMIT

LIMIT + OFFSET
Многие помнят про LIMIT, но забывают про то, что можно еще применять сдвиг.
SELECT *
FROM users
ORDER BY id
LIMIT 10 OFFSET 20;
Этот запрос вернёт 10 строк, начиная с 21-й.
Такой прием применяется, например, в постраничной выдаче результатов запроса.

Но этот кейс имеет и минусы: OFFSET все равно просматривает первые 20 строк, чтобы добраться до нужных. При больших объемах OFFSET работает медленно.
LIMIT в UPDATE и DELETE
Да, да - в этих операторах тоже можно использовать LIMIT, не только в SELECT
DELETE FROM logs ORDER BY created_at ASC LIMIT 1000;
Так чистят таблицу порциями, чтобы не завалить базу огромным удалением.
LIMIT в подзапросах
Об этом часто помнят, т.к. подзапрос является запросом, а в запросах использование LIMIT - вполне привычное дело.

Найдем самый дорогой заказ:
SELECT *
FROM orders
WHERE id = (SELECT id FROM orders ORDER BY price DESC LIMIT 1);
Это иногда проще, чем возиться с MAX() и джойнами.
LIMIT vs FETCH … WITH TIES
В некоторых СУБД (например, SQL Server, Oracle) есть фича:
SELECT *
FROM products
ORDER BY price DESC
FETCH FIRST 3 ROWS WITH TIES;
Такой запрос вернёт не просто 3 строки, а все строки, у которых цена такая же, как у третьей записи.
(например, если на третьем месте несколько товаров с одинаковой ценой).

LIMIT показывает первые N строк после сортировки
А вот WITH TIES говорит: «Выдай все строки, которые наравне с последней по значению сортировки».

В других СУБД такой синтаксис можно реализовать через LIMIT + подзапрос с оконной функцией RANK()
LIMIT 0
Очень полезный трюк.
SELECT * FROM users LIMIT 0;
Вернёт пустую таблицу, но со всеми названиями и типами столбцов.
Это часто используют для генерации схемы в BI-инструментах или в тестах
LIMIT в CTE (PostgreSQL)
Можно ограничивать данные прямо на уровне общего табличного выражения (CTE), чтобы уменьшить нагрузку:
WITH top_orders AS (
SELECT * FROM orders ORDER BY price DESC LIMIT 100
)
SELECT * FROM top_orders WHERE customer_id = 42;

Так мы сначала берём только 100 дорогих заказов, а потом фильтруем по клиенту.

В итоге LIMIT — это не просто «дай 10 строк», а инструмент для оптимизации, постраничной навигации, аккуратных обновлений и даже для защиты от перегруза.

Подписывайся на мой ТГ канал На связи: SQL, чтобы узнавать/вспоминать еще больше нюансов SQL запросов.

Показать полностью 1

VelStyling

1 день назад

Серия SQL: знакомство

ORDER BY - это как уборка в шкафу. Вещи можно разложить по цвету, по размеру или просто свалить все в кучу⁠⁠

ORDER BY — штука вроде бы простая («отсортируй строки»), но там есть много нюансов, про которые мы просто не помним или не пользуемся.

Вообще мы даже своими смартфонами не всегда (да, что уж - никогда) не пользуемся на полную мощность.

В своем канале На связи: SQL рассказываю про некоторые забытые нюансы языка SQL, особенности и необходимую теорию, чтобы любой начинающий мог свободно познакомиться с этим языком и применить его в дальнейшем для своих задач. Канал создан недавно, с 0 подписчиков, но уже активно наполняется контентом. Подписывайся!

ORDER BY - это как уборка в шкафу. Вещи можно разложить по цвету, по размеру или просто свалить все в кучу Аналитика, Математика, Урок, Эмоциональное выгорание, SQL, Ms SQL, Аналитик, Анализ данных, База данных, Программирование, Длиннопост

Блок с ORDER BY предназначен для сортировки результата выборки.
По умолчанию сортировка ASC (по возрастанию). Можно явно писать:

ORDER BY age ASC -- от младших к старшим
ORDER BY age DESC -- от старших к младшим

2. Можно сортировать сразу по нескольким столбцам:

ORDER BY country, city

Сначала сортируются страны, внутри них — города.

3. Можно писать не имя, а номер колонки в SELECT:

SELECT name, age
FROM users
ORDER BY 2 DESC; -- сортируем по age

Но это считается «плохим тоном» — лучше явно указывать названия. Хотя мне очень нравится это использовать, особенно, когда в селекте не просто имя столбца, а вычисление.

4. NULL в ORDER BY требует особого внимание.
NULL в разных БД обрабатывается по-разному.

В PostgreSQL:

ASC → NULL идут в конце
DESC → NULL идут в начале

можно явно писать:

ORDER BY age ASC NULLS FIRST;
ORDER BY age DESC NULLS LAST;

В MySQL и SQL Server правила отличаются:

в MySQL NULL всегда считаются «меньше всего» (т.е. идут первыми в ASC).
в SQL Server можно управлять через ISNULL()/COALESCE().

В MySQL и SQL Server нельзя использовать NULLS FIRST или NULLS LAST при сортировке,

Для SQL Server используем:

ORDER BY ISNULL(age, 9999) ASC;
ORDER BY COALESCE(age, 9999) ASC;

Здесь NULL мы заменяем на большое число (9999), и оно уходит в конец сортировки по возрастанию.
А если хотим NULL в начало — ставим что-то маленькое, например -1.

Для MySQL есть поведение по умолчанию:

При ASC → NULL идут первые
При DESC → NULL идут последние

А если нужно наоборот, то делаем хитрость с IS NULL:

ORDER BY age IS NULL, age ASC;

Здесь age IS NULL вернёт 1 для NULL и 0 для обычных значений.
SQL сначала отсортирует по этому условию (0 → 1), а потом уже по age.

5. Можно сортировать не только по полям, но и по функциям.

ORDER BY LENGTH(name) DESC;
ORDER BY purchase_amount * discount;

6. Случайная сортировка - имеет место быть. Но очень "дорога" в использовании на больших объемах.

-- PostgreSQL / SQLite
ORDER BY RANDOM()
-- MySQL
ORDER BY RAND()

Часто случайная сортировка используется при тестировании на небольших объемах.
- хотим показать пользователю случайный товар в магазине
- хотим проверить, как работает приложение, не завися от конкретного порядка записей
- рекомендательные системы: в выдачу добавляем случайный товар, чтобы не зацикливать пользователя только на "популярных" товарах.
- игры или викторины: рандомная выдача вопросов.

7. Есть еще такое понятие как COLLATION (сравнение строк).

ORDER BY учитывает локаль (collation). Поэтому, например, русские буквы могут сортироваться по-разному в разных СУБД:

А может идти перед а, или наоборот.
Можно явно указать сортировку:

ORDER BY name COLLATE "C" -- по байтовому значению
ORDER BY name COLLATE "ru_RU" -- по русскому алфавиту

Представь, что у тебя есть список имён:
['Елена', 'елена', 'Жанна', 'Анна']

Когда ты пишешь в SQL:

SELECT * FROM users ORDER BY name;

база должна решить:

считать ли «Елена» и «елена» одинаковыми?
что идёт раньше: «Ж» или «А»?
как сравнивать буквы с диакритикой: «é» vs «e»?

Вот именно на эти вопросы отвечает collation.

То есть COLLATION — это как правило сортировки в библиотеке: от него зависит, где именно окажется твоя книга.

То есть, ORDER BY — это не просто «отсортировать», а ещё и про то:

куда денутся NULL
как сортируются строки (с учётом локали)
можно ли сортировать по выражениям или случайно

В моем ТГ канале На связи: SQL я знакомлю новичков с языком SQL и хочу, чтобы те, кто желает познакомиться с анализом данных с легкостью шли в это направление. Присоединяйся!

Показать полностью

[моё] Аналитика Математика Урок Эмоциональное выгорание SQL Ms SQL Аналитик Анализ данных База данных Программирование Длиннопост

MarketerTLT

4 дня назад

BIA анализ для бизнеса⁠⁠

Business Impact Analysis (BIA) — инструмент, который помогает бизнесу не рухнуть, когда всё идёт не по плану: от кибератак до сбоев в поставках. В России, где санкции, логистические заморочки и цифровые угрозы — это реальность, BIA — как спасательный круг.

Конкретных кейсов российских компаний с BIA мало, но давайте разберём, как три крупные российские компании могли бы использовать этот анализ, чтобы сохранять и далее лидирующие позиции.

BIA анализ для бизнеса Анализ данных, Маркетинг, Бизнес, Длиннопост

Что такое BIA и зачем он нужен?

BIA — это как карта сокровищ для бизнеса: показывает, где слабые места, что будет, если они "рванут", и как минимизировать потери. Это не про то, что может случиться, а про то, что будет, если уже случилось.

Gartner (2024) пишет: компании с BIA восстанавливаются на 40–60% быстрее и теряют на 30% меньше денег. В России, где бизнесу приходится лавировать между санкциями, киберугрозами и экономическими турбулентностями, BIA — это способ не просто выжить, а выйти из кризиса с преимуществом.

Примеры: как BIA мог бы помочь российским гигантам?

1. Сбербанк: Банкинг без сбоев 🏦

Кто такие? Сбербанк — крупнейший банк России с рыночной капитализацией $87.55 млрд (на январь 2025,). Это не просто банк, а целая экосистема: от онлайн-банкинга до финтеха и ИИ-разработок.

Как BIA помогает?
Сбербанк сильно зависит от IT-инфраструктуры: миллионы операций в день идут через их приложения и серверы. Представьте, что их система онлайн-банкинга падает на пару часов. Это не только миллионные потери, но и недовольные клиенты, которые побегут к конкурентам. BIA помог бы:

Определить критические процессы: онлайн-банкинг, обработка транзакций, работа банкоматов.
Рассчитать RTO и RPO: сколько времени банк может быть "в оффлайне"? Для Сбербанка RTO, вероятно, не больше часа, а RPO — несколько минут, чтобы не потерять данные о переводах.
Оценить потери: час простоя может стоить миллионы рублей, плюс репутационные риски.
Найти слабые места: например, зависимость от одного дата-центра или уязвимости в кибербезопасности.

2. ЛУКОЙЛ: Нефть без пауз ⛽

ЛУКОЙЛ — один из крупнейших нефтегазовых гигантов России с капитализацией $42.37 млрд (на январь 2025,). Они добывают, перерабатывают и продают нефть по всему миру.

Как BIA помогает?
Нефтегаз — это про сложные цепочки поставок и производство. Если нефтеперерабатывающий завод встанет из-за сбоя оборудования или санкций на поставки, это миллионы долларов убытков в день. BIA помог бы:

Выявить ключевые процессы: добыча, переработка, логистика топлива.
Рассчитать RTO и RPO: сколько времени завод может стоять? Для ЛУКОЙЛа RTO, скорее всего, несколько часов, а RPO — минимум данных, чтобы не сорвать контракты.
Оценить потери: остановка НПЗ может стоить миллионы, плюс репутационные риски перед международными партнёрами.
Найти зависимости: например, зависимость от импортного оборудования или логистических маршрутов, попавших под санкции.

3. Яндекс: цифровой мир без сбоев 🚗

Яндекс — технологический лидер России, от поисковика до беспилотных такси и облачных сервисов. Их IT-инфраструктура — основа всего бизнеса.

Как BIA помогает?
Яндекс — это про цифровые сервисы, где даже час простоя = потеря пользователей и доходов от рекламы. BIA помог бы:

Определить критические процессы: работа поисковика, Яндекс.Такси, облачные сервисы.
Рассчитать RTO и RPO: для Яндекс.Такси RTO, вероятно, не больше 30 минут, чтобы клиенты не ушли к конкурентам, а RPO — минимум, чтобы не потерять данные о поездках.
Оценить потери: сбой поисковика может отпугнуть рекламодателей, а простой Яндекс.Такси — снизить лояльность пользователей.
Найти слабые места: например, зависимость от дата-центров или уязвимости перед кибератаками.

Почему BIA важен для России в 2025?

Киберугрозы на марше
Cybersecurity Ventures оценивает убытки от кибератак в $10.5 трлн в год. Для российских компаний, особенно в финтехе и IT, BIA — способ понять, какие системы защищать в первую очередь.
Санкции и логистика
Санкции усложняют поставки и доступ к технологиям. BIA помогает найти альтернативные маршруты и поставщиков, чтобы не встать посреди кризиса.
Регуляторный прессинг
В России, как и в ЕС, регуляторы требуют устойчивости к сбоям, особенно в финансах и критической инфраструктуре. BIA — это ваш билет в комплаенс.

Как внедрить BIA? Три простых совета

Используйте технологии
ИИ и аналитика данных могут предсказать последствия сбоев с точностью до 90%. Это как заглянуть в будущее без хрустального шара.
Обновляйте регулярно
Бизнес меняется: новые продукты, рынки, санкции. Делайте BIA раз в год или при больших переменах.
Работайте командой
BIA — это не для одного человека. Соберите IT, финансистов, логистов и HR, чтобы учесть всё.

BIA — это не просто модная фишка, а реальный способ сделать бизнес готовым к любым испытаниям: от кибератак до экономических бурь. Сбербанк, ЛУКОЙЛ, Яндекс — такие гиганты, вероятно, уже используют что-то подобное, чтобы держать удар.

Показать полностью 1

[моё] Анализ данных Маркетинг Бизнес Длиннопост

VelStyling

22 дня назад

Серия SQL: знакомство

Таблицы в базах данных: где чаще всего "горит"⁠⁠

Когда мы слышим слова таблица, то сразу идет ассоциация со строками и столбцами. Но в базе данных - это не просто строки и столбцы, это мини вселенная со своими правилами и требованиями.

В своем канале На связи: SQL я рассказываю об особенностях языка SQL. Разбираю аналитические запросы и подходы работы с данными. Канал создала недавно с нулем подписчиков, но там уже есть интересная информация для работы аналитиков. Подписывайся!

Таблицы в базах данных: где чаще всего "горит" Моральная поддержка, Мотивация, SQL, Аналитик, Аналитика, Анализ данных, База данных, Самообразование, Смена профессии, Смена работы, Данные, Microsoft Excel, Длиннопост

И для формирования таблиц в БД есть свои требования, нюансы и особенности.

Очень часто аналитики сталкиваются со следующими проблемами при работе с данными:

Слишком много столбцов

Иногда пытаются «запихнуть всё» в одну таблицу. Получается «широкая простыня» с сотнями колонок.
Такой подход приводит к тому, что становится неудобно работать, запросы тормозят, а половина столбцов вообще пустая.

В этом случае необходимо прибегать к нормализации данных — разносить данные по отдельным связанным таблицам.

Грубо говоря, нормализация - это способ организации данных. Что именно хранится, где именно хранится и как все, что хранится, связано между собой.

Дублирование данных

В таблице могут храниться одни и те же данные по 100 раз (например, имя клиента в каждом заказе).

Это приводит к сложности обновления — изменил телефон в одном месте, а в другом он остался старым; объем БД растет, что требует увеличения ресурсов для работы с данными.

В этом случае необходимо выносить повторяющиеся данные в отдельные таблицы и связывать ключами.

И это тоже про нормализацию данных.

Пустые ячейки (NULL)

Есть поле, но оно ничем не заполнено. И тогда аналитик задается вопросом: что это значит? Что данных просто нет (их никто не вносит), данные вносят, но они потерялись при загрузке в таблицу, либо эти данные необходимо воспринимать как равные нулю...

В этом случае необходимо сначала посмотреть требования к источнику данных, есть ли там обязательность их заполнения. Если данные обязательны к заполнению, то стоит рассмотреть ETL (Extract Transform Load - извлечение, преобразование и загрузка) процесс данных.

И от полученных результатов принимать решение как расценивать NULL данные.

Неправильный тип данных

Телефон хранят как INT, даты — как текст, деньги — как FLOAT.
Такой подход приводит к тому, что в телефоне «съедается» +7, даты не сортируются, а деньги теряют копейки.

И аналитик не может корректно обрабатывать данные, что приводит либо к ошибкам в результатах, либо к увеличению этапа обработки данных для выполнения какой-либо аналитики.

В этом случае: только правильное использование типов данных.

Нет ключей и индексов

Ключи нам нужны, чтобы однозначно идентифицировать данные и связывать таблицы между собой.

Есть первичный ключ (Primary Key) и внешний ключ (Foreign Key)
Первичный ключ - это уникальный идентификатор. Например есть два Ивановых Ивана Ивановича, но у них будут разные ID. Этот ID будет однозначно идентифицировать каждого из них.
Внешний ключ - это ссылка на другую таблицу. Например есть таблица заказов и в ней есть поле client_id. Это поле будет ссылаться на ID нашего Иванова Ивана Ивановича в таблице с персональными данными.

Индексы нам нужны для ускорения поиска.

Представь, у тебя есть огромная книга (миллионы строк в таблице). Если ты ищешь слово вручную — придётся листать страницу за страницей.

Но если есть алфавитный указатель (индекс) — ты сразу находишь нужное слово.

Примеры:

Поиск клиента по номеру телефона
Поиск заказов по дате
Поиск товаров по категории

Индексы ускоряют запросы в разы, но требуют памяти и времени на обновление (поэтому ими злоупотреблять тоже не стоит).

Слияние «всего подряд»

Если таблицу использовать как свалку — складывать туда и клиентов, и товары, и заказы — это как в одной кастрюле сварить борщ, компот и макароны.
Итог: никто не понимает, что с этим есть.

А в канале На связи: SQL уже первые посты про структуры запросов и JOIN ждут тебя.

Если тебе нужна поддержка и мотивация или просто сопутствующие слова для твоего развития, то приходи в канала Сила слов. Там каждое утро тебя ждет мотивационное и поддерживающее послание.

Показать полностью

[моё] Моральная поддержка Мотивация SQL Аналитик Аналитика Анализ данных База данных Самообразование Смена профессии Смена работы Данные Microsoft Excel Длиннопост

seminon600

25 дней назад

Еврейский мир

Серия Экономика Израиля. Финансы

Vast Data приближается к рекордному раунду: тихая звезда израильского ИИ стремится к оценке в 30 миллиардов долларов⁠⁠

Стартап готов привлечь миллиарды долларов от CapitalG и Nvidia, превзойдя предыдущий рекорд Wiz.

Компания Vast Data

Компания Vast Data, занимающаяся инфраструктурой искусственного интеллекта, как сообщается, привлекает несколько миллиардов долларов в рамках раунда финансирования, который может стать крупнейшим в истории израильских технологий, сообщает Reuters. Этот раунд, возглавляемый Nvidia и подразделением Alphabet по развитию CapitalG, может превзойти предыдущий рекорд, установленный компанией Wiz, специализирующейся на облачной безопасности, которая привлекла 1 миллиард долларов при оценке в 12 миллиардов долларов в мае 2024 года.

СКРИНШОТ с сайта Vast Data

Если сделка будет завершена, повышение инвестиций Vast не только укрепит ее статус самой дорогой частной технологической компании Израиля, но и станет глобальной вехой для стартапов в сфере инфраструктуры ИИ — сегмента, который все чаще рассматривается как основа революции генеративного ИИ.

Команда Vast Data.( Фото: Vast Data )

Компания Vast Data, основанная в 2016 году израильскими предпринимателями Ренен Халлак и Шахаром Финблитом, пошла по пути, радикально отличающемуся от её израильских «единорогов». Компания базируется в Нью-Йорке и имеет научно-исследовательские центры в Тель-Авиве и Хайфе. Компания сохраняет бережливость, намеренно не привлекая к себе внимания и, что примечательно, приносит прибыль. Её офисное пространство в выставочном комплексе Тель-Авива лишено привилегий и вечеринок, характерных для «единорогов». Вместо этого она предлагает передовые технологии, растущий список клиентов из числа «голубых фишек» и финансовые показатели, которым позавидовало бы большинство публичных компаний.

К началу 2025 года годовая регулярная выручка (ARR) Vast превысила 200 миллионов долларов, и компания прогнозирует утроение этого показателя в течение года. Один инвестор, знакомый с бухгалтерской отчетностью компании, заявил, что к 2026 году она, скорее всего, достигнет 600 миллионов долларов ARR. В отличие от многих компаний, разрабатывающих корпоративное программное обеспечение и зависящих от краткосрочных контрактов, Vast удерживает клиентов на 5–7 лет, что способствует необычайно низкому оттоку клиентов.

Среди клиентов компании — крупнейшие компании государственного и частного секторов: ВВС США, Министерство энергетики, Booking Holdings, Zoom, Pixar, Бостонская детская больница и стартап Илона Маска в области искусственного интеллекта xAI. Сама Nvidia, один из предыдущих инвесторов, является одновременно и клиентом, и активным сторонником. На конференции Computex в Тайване этим летом генеральный директор Nvidia Дженсен Хуан посвятил часть своего доклада объяснению того, как технология Vast повышает производительность графических процессоров, назвав её критически важным фактором масштабного развертывания моделей ИИ.

Компания Vast Data

Архитектура Vast особенно ценится за обеспечение доступа в режиме реального времени к неструктурированным данным, электронной почте, журналам, PDF-файлам и мультимедиа, которые системы искусственного интеллекта должны эффективно обрабатывать. Внедрив собственное программное обеспечение во флэш-память, компания сделала хранилища больших объёмов данных быстрее и экономичнее, устранив критически важное узкое место для предприятий и поставщиков облачных услуг.

Рост Vast отражает более широкий сдвиг венчурного капитала и корпоративных инвестиций от броских потребительских приложений к инфраструктуре экономики ИИ. В то время как её израильский конкурент Weka.io привлек $140 млн при оценке в $1,6 млрд, а такие гиганты, как Databricks, планируют IPO при оценках выше $60 млрд, Vast выделяется своей финансовой дисциплиной, глубокими технологиями и стратегическими партнёрствами.

Одно из таких партнерств — с CoreWeave, поставщиком облачных решений для ИИ, который недавно вышел на биржу и взлетел до 77 миллиардов долларов, но затем упал до текущей оценки около 50 миллионов долларов. CoreWeave интегрирует уровень хранения Vast в свой инфраструктурный стек, что свидетельствует о технической надежности Vast и соответствии продукта рынку.

На сегодняшний день Vast привлекла около 380 миллионов долларов, что довольно скромно, учитывая её нынешнюю оценку. Способность компании масштабироваться без лишних затрат позволила ей избирательно подходить к предложениям о финансировании и поглощениях. Хотя IPO пока не ожидается, назначение Эми Шаперо, бывшего финансового директора Shopify, в 2024 году было воспринято как явный сигнал о готовности к IPO.

Но новый раунд финансирования может стать чем-то большим, чем просто мостом к публичным рынкам. Отраслевые обозреватели предполагают, что это может быть последним шансом для стратегических инвесторов, таких как Nvidia, углубить связи, а для инвесторов на поздних стадиях — войти в компанию до дальнейшего роста её стоимости. Утечка информации в TechCrunch в прошлом месяце, по всей видимости, была направлена на то, чтобы приблизить целевую оценку к 30 миллиардам долларов и ускорить принятие обязательств.

Если раунд завершится так, как и ожидалось, Vast станет уникальной компанией в сфере израильских технологий.

Перевод с английского

ИСТОЧНИК

Показать полностью 3

Израиль Искусственный интеллект Стартап Nvidia Анализ данных Финансирование Инвестиции Длиннопост

VelStyling

29 дней назад

Серия SQL: знакомство

База данных: гардероб, кухня и мастерская в одном месте⁠⁠

Представьте себе шкаф у вас дома. В одном отделении лежат полотенца, в другом — футболки, в третьем — кастрюли (если шкаф на кухне). Каждая полка — для своих вещей, чтобы потом легко было найти.

База данных (БД) — это тот же шкаф, только для информации. Она хранит данные так, чтобы их можно было легко положить, достать и разложить по порядку.

Если тебе интересно узнать больше про базы данных и SQL — заглядывай в мой телеграм-канал sql_in_touch. Там я просто и понятно рассказываю, как работать с SQL, разбираю практические примеры и делюсь лайфхаками для начинающих. Буду рада видеть тебя в числе подписчиков и вместе разбираться в мире данных!

База данных: гардероб, кухня и мастерская в одном месте Аналитика, Аналитик, Microsoft Excel, База данных, Данные, Анализ данных, SQL, Отчет, Визуализация, Визуализация данных, Postgresql, Oracle, Образование, Длиннопост

В нашей жизни есть разные шкафы. Платяной шкаф, кухонный шкаф, шкаф с инструментами и т.д. Так и в мире данных есть разные БД.

Виды баз данных и зачем они нужны

1. Реляционные БД (табличные)

Данные хранятся в таблицах (как в Excel, только гораздо умнее).
Таблицы связаны между собой: в одной лежат заказы, в другой — клиенты, и они связаны по уникальному номеру клиента.
Примеры: MySQL, PostgreSQL, Oracle.
📌 Где хороши: когда данные структурированы и связи между ними важны (интернет-магазин, банковские операции).

💡 Пример:
У меня в одном ящике лежит нижнее белье, в другом — футболки, а на плечиках висят брюки и пиджаки. Мне нужно быстро собрать наряд для собеседования. Я открываю нужные ящики и беру нужные вещи — так я собираю образ. Да, бывает, что я надену на себя вещи, которые не сочетаются между собой. Но в данном контексте это будет означать, что я не ограничила выборку условиями. А все необходимые составляющие: футболка, брюки, пиджак и т.д. будут выбраны из нужного ящика или вешалки.

Так и база данных — она состоит из разных «ящиков» (таблиц), в которых хранится разная информация. Но чтобы получить полный «наряд» (то есть ответ на запрос), система быстро соединяет данные из этих ящиков и выдает нужный результат. Это и есть работа с базой данных — быстро и удобно находить нужные сведения, даже если они лежат в разных местах.

2. Документоориентированные БД

Документоориентированные базы данных — это как личные папки или досье, где в каждой папке может быть разный набор информации, и она не обязательно одинаковая у всех.

Данные хранятся в виде документов (JSON, XML) — как целые досье.
Каждый документ может содержать разную структуру, без строгих таблиц.

Примеры: MongoDB, CouchDB.

💡 Пример:, у стилиста есть папка с данными о каждом клиенте: цвет волос, любимый стиль, что уже покупали, фотографии образов. У одного клиента в папке может быть описание прически, у другого — заметки про аксессуары, у третьего — список любимых магазинов. И это нормально, потому что каждая папка индивидуальна и хранит то, что важно именно для этого клиента.

📌 Где такие базы удобны? Когда данные часто меняются и не всегда бывают одинаковыми — например, каталоги товаров с разными характеристиками или профили пользователей с разным набором информации.

3. Ключ-значение

Представь повара на кухне, у которого на полках стоят контейнеры с приправами. На каждом контейнере — ярлычок: «Соль», «Перец», «Базилик». Повар сразу видит, где что лежит, и может быстро взять нужную специю, не тратя время на поиски.

В базах данных типа ключ-значение, например Redis или Memcached, всё устроено похожим образом: есть «ключ» — это как ярлычок на контейнере, и «значение» — содержимое внутри. Когда нужна информация, система быстро находит значение по ключу — без лишних сложностей и долгих поисков.

📌 Где такие базы классно работают? Когда нужна очень быстрая реакция: кэширование данных, хранение настроек, сессий пользователей, временных значений — чтобы всё на кухне (то есть в системе) шло как по маслу.

4. Графовые базы данных

Соцсети — отличный пример того, как работают графовые базы данных.

В таких базах информация хранится в виде «узлов» — это могут быть пользователи, группы, посты, события. «Связи» — это отношения между этими узлами: кто с кем дружит, кто подписан на кого, кто лайкнул чей пост, кто участвует в каком событии.

В итоге получается огромная сеть — граф — где можно быстро понять, кто ваши друзья, кто из них общается между собой, какие группы и интересы вас объединяют.

📌 Где полезны графовые БД? В соцсетях для построения друзей и рекомендаций, в картах для прокладывания маршрутов, в системах рекомендаций товаров.

💡 Пример:
Представь, что у тебя есть большая компания, и тебе нужно понять, кто с кем работает вместе, кто кому помогает и кто отвечает за какие задачи.

Каждый сотрудник — это «узел», а связи между ними — это совместные проекты, встречи или переписка. Так можно быстро увидеть, кто является центром коммуникаций, кто с кем тесно взаимодействует и как лучше организовать работу команды.

Графовая база поможет быстро найти нужных людей и понять, как информация и задачи «текут» внутри компании

Итог

База данных — это способ хранить и упорядочивать данные, как мы упорядочиваем вещи дома или в рабочем шкафу.

Хотите чёткий порядок и строгие связи? → Реляционные БД.
Нужна гибкость и разная структура? → Документоориентированные.
Важна молниеносная скорость для простых данных? → Ключ-значение.
Важны сложные связи? → Графовые.

Как у хорошей хозяйки или стилиста — в базе всё лежит там, где нужно, и всегда можно быстро достать.

Показать полностью 1

[моё] Аналитика Аналитик Microsoft Excel База данных Данные Анализ данных SQL Отчет Визуализация Визуализация данных Postgresql Oracle Образование Длиннопост

SlyVolunteer

1 месяц назад

Искусственный интеллект

Вебинары трека Наука о данных Летней цифровой школы Сбера⁠⁠

Привет, коллеги ML инженеры, Data scientist'ы и все, кто интересуется искусственным интеллектом, созданием нейросетей, машинным обучением и анализом данных! Принёс вам пачку вебинаров с интенсива трека Наука о данных курсов повышения квалификации Летней цифровой школы Сбера.

1) Process Mining

Process Mining — это анализ процессов на основе цифровых следов. Объем российского рынка Process Mining на 2024 г. составил 0,9 млрд руб. и будет расти со среднегодовым темпом 69%.

Youtube: https://www.youtube.com/watch?v=gScXVnhE34M
Rutube: https://rutube.ru/video/f119e2a5e125d24c269cf154b025924d/
VK Видео: https://vk.com/video-214877772_456239067

Презентацию можно скачать здесь: https://t.me/rcppe/77?comment=93

2) Модельный риск в машинном обучении

Что сегодня обсудим?
1. Глобальная роль ИИ
2. Какова цена ошибки в модельном мире?
3. Расскажем об управлении модельным риском

Youtube: https://youtu.be/z1vJw86Cteo
Rutube: https://rutube.ru/video/b3b4dad12c0f9d6e69dbcba427b35952/
VK Видео: https://vkvideo.ru/video-214877772_456239066

Презентацию можно скачать здесь: https://t.me/rcppe/78?comment=94

3) AutoML и перспективные методы ИИ

Фреймворк LightAutoML (Lama) – автоматическое машинное обучение. Сбер, Центр Практического Искусственного Интеллекта (ЦПИИ)*
* ранее Лаборатория Искусственного Интеллекта

Youtube: https://youtu.be/xhl4crD3x8g
Rutube: https://rutube.ru/video/5ba5d1a7ed4a0a6bbc656e607263e354/
VK Видео: https://vkvideo.ru/video-214877772_456239067

Презентацию можно скачать здесь: https://t.me/rcppe/79?comment=96

4) Прогнозирование временных рядов

Машинное обучение для Time Series Forecasting. Временной ряд – последовательность некоторых значений по времени. Если рассматриваются одновременно несколько одиночных временных рядов, то такая структура называется многомерный временной ряд. Регулярный временной ряд – временной ряд с равномерными временными интервалами между точками. Имея историю L, делаем прогноз на горизонт H.

Youtube: https://youtu.be/inTVRC7y8AE
Rutube: https://rutube.ru/video/35d4d2275c548512f70dde6e2d242f46/
VK Видео: https://vkvideo.ru/video-214877772_456239068

Презентацию можно скачать здесь: https://t.me/rcppe/80?comment=98

4.1) Материалы по прогнозированию на несколько точек вперед:

Taieb, S. B., Bontempi, G., Atiya, A. F., & Sorjamaa, A. (2012). A review and comparison of strategies for multi-step ahead time series forecasting based on the NN5 forecasting competition. Expert systems with applications, 39(8), 7067-7083. – Классическая статья с описанием стратегий (MIMO, recursive, direct, recursive-direct, direct-mimo) и их сравнением на датасете NN5.

Taieb, S. B., & Hyndman, R. J. (2012). Recursive and direct multi-step forecasting: the best of both worlds (Vol. 19). Department of Econometrics and Business Statistics, Monash Univ.. – Статья, в которой авторы представляют rectify-стратегию.

Taieb, S. B. (2014). Machine learning strategies for multi-step-ahead time series forecasting. Universit Libre de Bruxelles, Belgium, 75-86. – Теоретический анализ про bias-variance tradeoff между прямой и рекурсивной стратегиями.

Bao, Y., Xiong, T., & Hu, Z. (2014). Multi-step-ahead time series prediction using multiple-output support vector regression. Neurocomputing, 129, 482-493. – Сравнение различных стратегий (MIMO, recursive, direct) на support vector regression.

An, N. H., & Anh, D. T. (2015, November). Comparison of strategies for multi-step-ahead prediction of time series using neural network. In 2015 International Conference on Advanced Computing and Applications (ACOMP) (pp. 142-149). IEEE. – Сравнение различных стратегий на FFN, но это старая статья, без трансформеров.

Ferreira, L. B., & da Cunha, F. F. (2020). Multi-step ahead forecasting of daily reference evapotranspiration using deep learning. Computers and electronics in agriculture, 178, 105728. – Сравнение LSTM, CNN, CNN-LSTM, FFN и случайного леса с рекурсивной, прямой и MIMO стратегиями

4.2) Стратегии прогнозирования нескольких рядов:

Hertel, M., Beichter, M., Heidrich, B., Neumann, O., Schäfer, B., Mikut, R., & Hagenmeyer, V. (2023). Transformer training strategies for forecasting multiple load time series. Energy Informatics, 6(Suppl 1), 20. – Сравнение local-, global-. multivariate-modelling подходов на примере трансформерных SOTA-архитектур в узком домене.

5) Рекомендательные системы

Рекомендательные модели ML. Что сегодня обсудим?
1. Зачем компании строят рекомендательные системы?
2. Базовые алгоритмы рекомендательных систем
3. Простой baseline без ML
4. Baseline с ML
5. Трансформеры и LLM в рекомендатльных системах

Youtube: https://youtu.be/RLbwjG_Ojaw
Rutube: https://rutube.ru/video/b0d3826924576f308fdb63a26f213f48/
VK Видео: https://vkvideo.ru/video-214877772_456239071

Презентацию можно скачать здесь: https://t.me/rcppe/81?comment=103

6) AI решения: сокращаем путь от идеи до воплощения

DreamML – Фабрика моделей, Low-Code разработка. Модель машинного обучения в три клика. AI-модели в три клика по методологии Сбера.
DreamEA – Сервис пилотирования моделей ML. Запусти бизнес-пилот AI решения сегодня.
DreamDE – Автоматизация П1518. Модель машинного обучения в ПРОМ за 3 дня.

Youtube: https://youtu.be/FeNfXEl6RBE
Rutube: https://rutube.ru/video/af55115d5788f97c579e8fda70d0b2b7/
VK Видео: https://vkvideo.ru/video-214877772_456239072

Презентацию можно скачать здесь: https://t.me/rcppe/82?comment=107

Список всех вебинаров интенсива трека Наука о данных Летней школы Сбера

Вебинары трека Наука о данных Летней цифровой школы Сбера Машинное обучение, Искусственный интеллект, Анализ данных, Data Science, Нейронные сети, Bigdata, Вебинар, Видео, YouTube, Длиннопост

Пишите в комментариях, какие вебинары выложить ещё.

Показать полностью 1 5

[моё] Машинное обучение Искусственный интеллект Анализ данных Data Science Нейронные сети Bigdata Вебинар Видео YouTube Длиннопост

VelStyling

1 месяц назад

Серия SQL: знакомство

Что такое SQL? Как спрашивать базы данных, где лежат подгузники?⁠⁠

Сегодня профессия аналитик данных на слуху у многих. И это неудивительно: мы живем в мире, где ежедневно производим огромные объемы информации. Чуть меньше из этого мы храним в структурированном виде. И совсем малую часть — действительно используем.

Вот здесь и появляются аналитики данных. Они — те самые, кто умеет собирать, обрабатывать, хранить и интерпретировать данные так, чтобы на их основе можно было принимать решения.

Что такое SQL? Как спрашивать базы данных, где лежат подгузники? Аналитик, Аналитика, SQL, Анализ данных, База данных, Поисковые запросы, Join, Саморазвитие, Профессия, Студенты, Декрет, Длиннопост

Но очень многих пугает это завуалированное понятие "аналитик данных".

Когда люди сталкиваются с понятием SQL, то самое первое, что им выдает любой поиск - это определение что такое SQL.

SQL (Structured Query Language) — язык структурированных запросов. Предназначен для работы с реляционными базами данных (БД) — массивами информации, которые связаны между собой и представлены в виде таблиц.

И сразу кажется, что SQL — это что-то очень сложное и скучное. Мол, только серьезные люди решают серьезные кейсы, строят модели, прогнозируют будущее бизнеса и ведут суровые Excel-файлы.

Но даже знакомство с SQL можно сделать проще и даже немного веселее.

Почему SQL — это как мамин ответ "где мои носки"

Да, многие скажут, что "не веселится" идут в аналитику, а решать реальные, серьезные кейсы, помогать бизнесу строить свои процессы, получать прибыль и т.д.
Да, это все так, но этап знакомство с SQL может быть и "веселее". Если хотя бы информацию для начинающих и тех, кто просто знакомится с SQL преподносить более "приземленным" способом.

Да, серьезные вещи надо обсуждать серьезным языком. Но ведь нас в школе не сразу заставляют читать Войну и мир Толстого, а дают Букварь с картинками. А картинки там, чтобы была ассоциация с тем, что уже знакомо, и чтобы веселее было изучать.

Так и с SQL. Это действительно серьезный язык запросов (не программирования), но на нём говорят и мамы, и папы, и дизайнеры, и строители — просто не знают, что это называется SQL.

Пример №1: мама как база данных

Мама каждый день слышит:

где мои синие носки для спорта
где лежат подгузники
где штаны от костюма
а что такое планета?

Она знает, где что лежит. Мама — это не просто база знаний, она ещё и движок запросов:

SELECT *
FROM Flat
WHERE things = 'подгузники';

Квартира — это база данных, тумбочки/шкафы — таблицы, мама — мастер SQL-запросов.

Пример №2: дизайнер и объединение таблиц

Дизайнер интерьера создает гармоничное пространство, объединяя, казалось бы, разные стили, цвета, формы. Но у них есть что-то общее, что делает интерьер целостным.

SQL делает то же самое:

SELECT *
FROM Furniture
JOIN Textiles
ON Furniture.color = Textiles.color;

Мы объединяем данные из разных таблиц, чтобы получить единую картину — понятную и полезную.

Кому будет интересна эта серия постов?

Я готовлю серию постов о SQL — простыми словами, с жизненными аналогиями, с нуля. Это будет интересно:

студентам и новичкам в аналитике
тем, кто хочет сменить сферу и понять, "что там у этих дата-людей"
тем, кто хочет просто научиться разговаривать с данными на их языке

Если вы уже знакомы с SQL — приходите в комментарии! Расскажите, что помогло вам освоить этот язык? Что может "завлечь" новичков?

А ещё у меня появился канал про SQL

Пока там только один подписчик — я сама :) Но планов много:
📊 практичные посты
📚 объяснение синтаксиса без занудства
🧩 разбор типичных задач аналитиков

👉 Присоединяйтесь: На связи: SQL

И, конечно, мой мотивационный канал продолжает радовать короткими сообщениями, которые настраивают на день:
✨ Сила слов

SQL — это не страшно. Это просто способ спросить: "Где лежат подгузники?"

Показать полностью 1

[моё] Аналитик Аналитика SQL Анализ данных База данных Поисковые запросы Join Саморазвитие Профессия Студенты Декрет Длиннопост

Посты не найдены

1 2 3 4 5 6 7 8 9 10 11