Горячее
Лучшее
Свежее
Подписки
Сообщества
Блоги
Эксперты
Войти
Забыли пароль?
или продолжите с
Создать аккаунт
Я хочу получать рассылки с лучшими постами за неделю
или
Восстановление пароля
Восстановление пароля
Получить код в Telegram
Войти с Яндекс ID Войти через VK ID
Создавая аккаунт, я соглашаюсь с правилами Пикабу и даю согласие на обработку персональных данных.
ПромокодыРаботаКурсыРекламаИгрыПополнение Steam
Пикабу Игры +1000 бесплатных онлайн игр
Открой для себя волшебный мир реальной рыбалки. Лови реальную рыбу на реальных водоемах! Исследуй новые рыболовные места и заполучи заветный трофей.

Реальная Рыбалка

Симуляторы, Мультиплеер, Спорт

Играть

Топ прошлой недели

  • CharlotteLink CharlotteLink 1 пост
  • Syslikagronom Syslikagronom 7 постов
  • BydniKydrashki BydniKydrashki 7 постов
Посмотреть весь топ

Лучшие посты недели

Рассылка Пикабу: отправляем самые рейтинговые материалы за 7 дней 🔥

Нажимая кнопку «Подписаться на рассылку», я соглашаюсь с Правилами Пикабу и даю согласие на обработку персональных данных.

Спасибо, что подписались!
Пожалуйста, проверьте почту 😊

Новости Пикабу Помощь Кодекс Пикабу Реклама О компании
Команда Пикабу Награды Контакты О проекте Зал славы
Промокоды Скидки Работа Курсы Блоги
Купоны Biggeek Купоны AliExpress Купоны М.Видео Купоны YandexTravel Купоны Lamoda
Мобильное приложение

Data Science

С этим тегом используют

IT Программирование Машинное обучение Обучение Python Аналитика Искусственный интеллект Все
118 постов сначала свежее
158
skaynet25022022
skaynet25022022
2 года назад
Книжная лига

Обзор книги "Data Science. Наука о данных с нуля", отличная книга для начинающих⁠⁠

Обзор книги "Data Science. Наука о данных с нуля", отличная книга для начинающих Программирование, Python, Программист, Обучение, Linux, Профессия, Data Science, Data, Обзор книг, Обзор, Книги, Длиннопост

Всем доброго времени суток! Так как о Data Science мы слышим всё чаще и чаще, предлагаю вам обзор книги, что будет полезна для начинающих.

Публикую обзор книги с моего телеграмм-канала IT-старт t.me/it_begin на книгу "Data Science.Наука о данных для начинающих".

Автор книги Джоэл Грас.

Стоит читать? Да! Почему? Опишу в статье.

Для кого эта книга?

Так как в названии фигурирует "Наука о данных с нуля" - не мудрено, что рассчитана она на тех, кто только начинает свой путь в Data Science :)

Обзор книги "Data Science. Наука о данных с нуля", отличная книга для начинающих Программирование, Python, Программист, Обучение, Linux, Профессия, Data Science, Data, Обзор книг, Обзор, Книги, Длиннопост

Рис.1. Начальная страница

Что в самой книге?

Книга сама по себе немаленькая и состоит из 416 страниц.

Для того, чтобы имелась конкретика по размерам книги, производим замеры.

Обзор книги "Data Science. Наука о данных с нуля", отличная книга для начинающих Программирование, Python, Программист, Обучение, Linux, Профессия, Data Science, Data, Обзор книг, Обзор, Книги, Длиннопост

Ширина книги составляет чуть менее 17 см.

Обзор книги "Data Science. Наука о данных с нуля", отличная книга для начинающих Программирование, Python, Программист, Обучение, Linux, Профессия, Data Science, Data, Обзор книг, Обзор, Книги, Длиннопост

Рис.1.2. Размер книги

Высота книги составляет 23 см.

Обзор книги "Data Science. Наука о данных с нуля", отличная книга для начинающих Программирование, Python, Программист, Обучение, Linux, Профессия, Data Science, Data, Обзор книг, Обзор, Книги, Длиннопост

Рис.1.3. Размер книги

Глубина книги составляет около 2 см.

Теперь, для предметного и краткого понимания того, с чем мы сможем ознакомиться в данной книге, предлагаю перейти к её оглавлению.

Обзор книги "Data Science. Наука о данных с нуля", отличная книга для начинающих Программирование, Python, Программист, Обучение, Linux, Профессия, Data Science, Data, Обзор книг, Обзор, Книги, Длиннопост

Рис.1.4. Оглавление

Обзор книги "Data Science. Наука о данных с нуля", отличная книга для начинающих Программирование, Python, Программист, Обучение, Linux, Профессия, Data Science, Data, Обзор книг, Обзор, Книги, Длиннопост

Рис.1.5. Оглавление

Обзор книги "Data Science. Наука о данных с нуля", отличная книга для начинающих Программирование, Python, Программист, Обучение, Linux, Профессия, Data Science, Data, Обзор книг, Обзор, Книги, Длиннопост

Рис.1.6. Оглавление

Обзор книги "Data Science. Наука о данных с нуля", отличная книга для начинающих Программирование, Python, Программист, Обучение, Linux, Профессия, Data Science, Data, Обзор книг, Обзор, Книги, Длиннопост

Рис.1.7. Оглавление

Глав достаточно много, это радует) Всего глав 27.

Далее предметно и главное кратко постараюсь рассказать о том, что полезного и интересного мы сможем найти в этой книге.

Глава 1. Введение

Обзор книги "Data Science. Наука о данных с нуля", отличная книга для начинающих Программирование, Python, Программист, Обучение, Linux, Профессия, Data Science, Data, Обзор книг, Обзор, Книги, Длиннопост

Рис.2. Глава 1

Первая вводная глава начинается с подробного описания тезиса "Воцарение данных" и ответа на вопрос "Что такое наука о данных?".

Здесь повествуется о том, насколько много данных в современном мире и том, что вся информация, что собирается нашими компьютерами, смартфонами, умными часами, при должной обработке, может дать ответы на бессчисленные вопросы.

Более всего понравился пример на странице 26 с Facebook, что думаю примененим ко многим плоскостям исследования, используя практические любые соц. сети.

Также хорошо подчеркнут опыт избирательной компании Барака Обамы в 2012 году и предвыборной компании Дональда Трампа. Предлагаю вам ознакомиться с данным отрывком.

Обзор книги "Data Science. Наука о данных с нуля", отличная книга для начинающих Программирование, Python, Программист, Обучение, Linux, Профессия, Data Science, Data, Обзор книг, Обзор, Книги, Длиннопост

Рис.2.1. Глава 1, страница 26

Глава 2. Интенсивный курс языка Python

Обзор книги "Data Science. Наука о данных с нуля", отличная книга для начинающих Программирование, Python, Программист, Обучение, Linux, Профессия, Data Science, Data, Обзор книг, Обзор, Книги, Длиннопост

Рис.3. Глава 2

В данной главе автор на протяжении 30 страниц крайне в сжатом формате старается познакомить нас с языком программирования Python.

По моему мнению, вследствие того, что объяснение крайне поверхностное и имеет ограничение в виде 30 страниц, объяснено всё плохо. Для тех, кто вовсе не имел опыта работы с Python, данная глава, к сожалению, вряд ли поможет.

Как бы, претензий к книги по данному поводу у меня нет, но хотел бы, чтобы вы заранее имели это ввиду, что эта глава не является карманным пособием по Python.

Если вам необходимо изучить основы Python, советую книгу Тони Гэддиса "Начинаем программировать на Python с нуля" - мой обзор

Обзор книги "Data Science. Наука о данных с нуля", отличная книга для начинающих Программирование, Python, Программист, Обучение, Linux, Профессия, Data Science, Data, Обзор книг, Обзор, Книги, Длиннопост

Рис.3.1. Глава 2

В конце данной главы на странице 69мы видим две особенности книги.

Первая особенность - в конце каждой последующей главы вы увидите полезную сноску под названием "Для дальнейшего изучения", где автор от себя советует, что можно прочитать дополнительно для более глубокого изучения той или иной темы. Считаю это положительным моментом.

Отрицательным моментом качества данной книги являются тонкие страницы, что просвечивают и не доставляют особого удовольствия от этого.

Не сказал бы, что это крайне критично, но и приятного в этом также мало, общее впечательние от книги немного портится.

Всё крайне показательно видно на фото выше.

Глава 3. Визуализация данных

Обзор книги "Data Science. Наука о данных с нуля", отличная книга для начинающих Программирование, Python, Программист, Обучение, Linux, Профессия, Data Science, Data, Обзор книг, Обзор, Книги, Длиннопост

Рис.4. Глава 3

Также яркий пример просвечивающих страниц это столбчатый график, что просвечивает на странице 71)

В третьей главе автор кратко рассматривает библиотеку matplotlib,

В самом начале автор подчеркиват, что считает данную библиотеку устаревающей и что она годна для построения элементарных линейных и столбчатых графиков.

Согласиться с этим или нет? Вопрос сложный и оставлю его открытым на суд аудитории. Интересно ваше мнение по этому вопросу.

Далее в книге рассматриваются столбчатые и линейные графики, диаграммы рассеяния. Что порадовало, это повествование с соответствующим кодом, тут же можно понять, какая строчка кода за что отвечает, считаю это положительным моментом для тех, кто только начинает свой путь.

Завершается глава разделом "Для дальнейшего изучения", где автор оставляет ссылки на такие библиотеки, как seaborn, Altair, D3.js, Bokeh с кратким описанием каждой из них.

Глава 4. Линейная алгебра

Обзор книги "Data Science. Наука о данных с нуля", отличная книга для начинающих Программирование, Python, Программист, Обучение, Linux, Профессия, Data Science, Data, Обзор книг, Обзор, Книги, Длиннопост

Рис.5. Глава 4

В этой главе автор рассматривает векторы и матрицы.

Объяснено достаточно хорошо, вопросов после прочтения остается мало, в конце автор оставляет ссылки на три книги, что также позволят закрепить пройденный материал.

Глава 5. Статистика

Обзор книги "Data Science. Наука о данных с нуля", отличная книга для начинающих Программирование, Python, Программист, Обучение, Linux, Профессия, Data Science, Data, Обзор книг, Обзор, Книги, Длиннопост

Рис.6. Глава 5

В данной главе автор описывает и рассказывает о том, что такое тенденции, вариация, корреляция, корреляционные ловушки.

В главе много кода, подробно всё описание, в целом впечатление от главы положительное.

Но также показалось интересным и хорошо запомнилось описание парадокса Симпсона :)

Обзор книги "Data Science. Наука о данных с нуля", отличная книга для начинающих Программирование, Python, Программист, Обучение, Linux, Профессия, Data Science, Data, Обзор книг, Обзор, Книги, Длиннопост

Рис.6.1. Глава 5. Парадокс Симпсона

Глава 6. Вероятность

Обзор книги "Data Science. Наука о данных с нуля", отличная книга для начинающих Программирование, Python, Программист, Обучение, Linux, Профессия, Data Science, Data, Обзор книг, Обзор, Книги, Длиннопост

Рис.5. Глава 6

В этой главе рассмотрены:

  • Условная вероятность

  • Теорема Байеса

  • Случайные величины

  • Непрерывные распределения

  • Нормальное распределение

  • Центральная предельная теорема

Автор раскрывает важность умения работать с анализом вероятности для последующей работы с данными. Вероятность автор рассматривает, как способ количественной оценки неопределенности, что ассоциируется с событиями из некоторого вероятностного пространства.

Глава 7. Гипотеза и вывод

Обзор книги "Data Science. Наука о данных с нуля", отличная книга для начинающих Программирование, Python, Программист, Обучение, Linux, Профессия, Data Science, Data, Обзор книг, Обзор, Книги, Длиннопост

Рис.6. Глава 7

Хотел бы привести в пример "учаток" на странице 116, в подтверждение того, что без опечаток в этой книге не обошлось)

Теперь же о самой главе.

В данной главе автор подчеркивает, что все сведения из теории вероятности и статистики нам нужны для формулирования статистических гипотез и их последующей проверки. Предлагаю взглянуть на фрагмент главы в фото ниже.

Обзор книги "Data Science. Наука о данных с нуля", отличная книга для начинающих Программирование, Python, Программист, Обучение, Linux, Профессия, Data Science, Data, Обзор книг, Обзор, Книги, Длиннопост

Рис.7. Глава 7

Глава 8. Градиентный спуск

Обзор книги "Data Science. Наука о данных с нуля", отличная книга для начинающих Программирование, Python, Программист, Обучение, Linux, Профессия, Data Science, Data, Обзор книг, Обзор, Книги, Длиннопост

Рис.8. Глава 8

Градиент - это вектор, что своим направлением указывает направления возрастания некоторой скалярной величины.

Антиградиент - вектор, что своим направлением показывает направление убывает некоторой скалярной величины.

Градиентный спуск - это метод поиска локального максимума или минимума функции с помощью движения вдоль градиента.

Частично и достаточно понятно подход к максимизации функции описан на странице 128. (Рис. 8)

Глава более чем интересная, рассматривается также использование градиента, выбор правильного размера шага и применение градиентного спуска для подгонки моделей.

Глава 9. Получение данных

Обзор книги "Data Science. Наука о данных с нуля", отличная книга для начинающих Программирование, Python, Программист, Обучение, Linux, Профессия, Data Science, Data, Обзор книг, Обзор, Книги, Длиннопост

Рис.9. Глава 9

Для того, чтобы исследовать данные, нужно сначала их собрать :)

В этой главе автор рассматривает способы подачи данных и также их последующее форматирование.

В главе рассматриваются аспекты чтения файлов, импорт информации из всемирной паутины с помощью html5lib, что такое API и как с этим можно работать.

Глава 10. Работа с данными

Обзор книги "Data Science. Наука о данных с нуля", отличная книга для начинающих Программирование, Python, Программист, Обучение, Linux, Профессия, Data Science, Data, Обзор книг, Обзор, Книги, Длиннопост

Рис.10. Глава 10

В 10 главе автор рассматривает непосредственную работу с данными.

Рассматривается разведывательный анализ данных, классы данных, многочисленные размерности.

Мне же понравилось, что автор не забыл про "чистоту" данных.

На странице 164 об этом как раз таки говорится, что многие данные в реальном мире загрязнены и что важно пред их использованием проводить необходимую обработку, чтобы в дальнейшем не создать себе проблем.

Рис.11. Глава 10

Глава 11. Машинное обучение

Рис.12 Глава 11

В 11 главе автор знакомит нас с машинным обучением.

Так как это обзор книги и он всё же будет немного предвзят с моей стороны по той причине, что у каждого человека есть своё мнение на ту или иную информацию - мне показалась данная глава не для тех, кто начинает с нуля)

Описано в целом по делу всё, но нет уверенности, что люди, ранее не знающие ничего о машинном обучении, после прочтения данной главы всё усвоят.

Глава 12. k ближайших соседей

Метод k-ближайших соседей – это популярный алгоритм классификации, который используется в разных типах задач машинного обучения.

Простыми словами суть метода: посмотри на соседей вокруг, какие из них преобладают, таковым ты и являешься.

Теперь же о том, как всё это описывает автор на примере предсказания результатов на выборах

Глава 12. k ближайших соседей

Метод k-ближайших соседей – это популярный алгоритм классификации, который используется в разных типах задач машинного обучения.

Простыми словами суть метода: посмотри на соседей вокруг, какие из них преобладают, таковым ты и являешься.

Теперь же о том, как всё это описывает автор на примере предсказания результатов на выборах

На примере набора данных о цветках ириса (длина и ширина лепестка, длина и ширина чашелистика) автор пытается построить модель предсказания вида цветка, но т.к. выводимые результаты у него получились четырехмерными, что затрудняет построение графика, автор предлагает взглянуть на диаграммы рассеяния для каждой пары данных результатов измерений.

Порадовало, что в данной главе автор не забыл о проклятии размерности

Глава 13. Наивный Байес

В данной главе автором очень хорошо рассказан принцип работы спам-фильтра социальных систем, как он устроен и что лежит в его основе.

Порадовало то, что в конце данной главы автор ссылается на статью Пола Грэма "План для спама". Статья 2002 г., но менее интересной от этого не становится.

Глава 14. Простая линейная регрессия

В 14 главе автор рассказывает о простой линейной регрессии, описывает применение градиентного спуска, производит оценивание максимального правдоподобия

Глава 15. Множественная регрессия

В данной главе автором рассматривается множественная регрессия, Расширенные допущения модели наименьших квадратов, подгонка модели и её дальнейшая интерпретация.

Глава достаточно большая и много познавательной информации имеет, но мне более всего понравилась трактовка интерпретации моделей

Глава 16. Логическая регрессия

Логистическая регрессия - статистический метод для анализа набора данных, в котором есть одна или несколько независимых переменных, которые определяют результат. Результат измеряется с помощью дихотомической переменной (в которой есть только два возможных результата). Он используется для прогнозирования двоичного результата (1/0, Да / Нет, Истина / Ложь) с учетом набора независимых переменных.

С самого начала главы автор предлагает рассмотреть всё на задаче, что содержит набор данных 200 пользователей, их зарплату, опыт работы и состояние платежей за учетную запись в соц. сетях. Далее описывается то, что такое логистическая функция, применение модели.

Более всего понравилось рассмотрение гиперплоскости, что разделяет параметрическое пространство

Идём далее)

Глава 17. Деревья решений

Одно из толкований дерева решений чаще всего описывает их в качестве представления возможных путей принятия решений.

Автором неплохо показано это на достаточно простом примере.

Глава 18. Нейронные сети

Нейронные сети - то о чём мы всё чаще слышим из средств массовой информации.

В данной книге глава это мягко не особо большая. Всего 10 страниц. Но достаточно информативная. Расскажет о том, что такое нейронные сети, перспептроны, как работают нейронные сети прямого и обратного распространения. Глава интересная!

Глава 19. Глубокое обучение

В данной главе о глубоком обучении автор рассказывает нам, что такое абстракция слоя, о представлении нейронных сетей как последовательности слоёв, о потери и оптимизации функции градиента.

Возможно субъективно, но чтобы до конца понять все вещи в данной главе, пришлось прочитать её дважды. Но думаю, дело не в книге, а во мне :)

Глава 20. Кластеризация

В главе о кластеризации понравилось, что автор пытается объяснить нам, что такое кластеры на +- понятных многим бытовых темах. Если читать ранее не слышал ничего о кластерах, подобное объяснение не является крайне легким, но и базовые основы в голове начнет зарождать. В главе автор рассматривает и описывает восходящую иерархическую кластеризацию, кластерные методы и на примерах объясняет что к чему. Интересная глава.

Глава 21. Обработка естественного языка

В главе об обработке естественного языка автор рассказывает несколько приемов, такие как: облако слов, N-грамматические языковые модели, грамматики. Много поясняющего кода)

Глава 22. Сетевой анализ

В главе про сетевой анализ автор описывает центральность, ориентированные графы, алгоритм PageRank. Мне данная глава "понималась" крайне тяжело, вследствие чего параллельно приходилось заглядывать в Google.

Глава 23. Рекомендательные системы

Та тема, с которой мы ежедневно встречаемся, используя те или иные стриминговые сервисы, соц. сети, поисковые системы - рекомендации :)

Сказали рядом с телефоном "купил собаку" и видите контекстную рекламу о дизайнерских будках на заказ? Это Data Science :)

Глава познавательная. Автор повествует о том, как работает рекомендательная система, что лежит в её основе, что такое коллаборативная фильтрация по схожесте пользователей и многое другое.

Глава 24. Базы данных и SQL

Достаточно сжатая глава о SQL. Рассказывается о том, что такое SQL, о основных командах и разобрано всё на примерах. Всё крайне сжато, но для общего представления совсем неплохо. Но всё же советовал бы дополнительно поискать еще источники информации на тему SQL, если хотите понять тему полноценно.

Глава 25. Алгоритм MapReduce

MapReduce - модель для выполнения параллельной обработки крупных наборов данных. Рассматривается работа самого алгоритма, какие его преимущества и чем он может быть полезен и рассмотренно на примере аналази аобновлений новостной ленты. Всё достаточно подробно описано, вопросов после главы остаётся не так уж и много.

Глава 26. Этика данных

Одна из лучших глав данной книги. Что такое этика данных, почему она важна, для чего используется и к чему может привести её несоблюдение. Познавательный материал, советую.

Глава 27. Идите вперед и займитесь наукой о данных

Заканчивается вся книга главой с призывом идти вперёд и заняться Data Science.

Автор подчеркивает важность компетенций в математической области и о необходимости хорошо разбираться в ней. Также автор кратко описывает популярные библиотеки языка программирования Python и не только.

Глава по своей сути прощальная между автором и читателем, автор же оставляет ту выжимку необходимых мыслей, что он хочет донести до каждого читателя для продолжения путешествия в мир Data Science.

Теперь, тезисно о плюсах и минусах книги

Плюсы книги:

1.Цена

На первом маркетплейсе цена не такая уж и народная.На втором же, ситуация куда бодрее.

Обзор книги "Data Science. Наука о данных с нуля", отличная книга для начинающих Программирование, Python, Программист, Обучение, Linux, Профессия, Data Science, Data, Обзор книг, Обзор, Книги, Длиннопост
Обзор книги "Data Science. Наука о данных с нуля", отличная книга для начинающих Программирование, Python, Программист, Обучение, Linux, Профессия, Data Science, Data, Обзор книг, Обзор, Книги, Длиннопост

Лично от себя скажу, что в целях экономии, часто беру книги уцененные, с небольшими внешними дефектами книги, что не особо влияет на её содержимое. Или же можно найти интересующую вас книгу на площадках б.у. товаров. Но если захотите приобрести новую книгу, цена в условные 600 руб. считаю более чем приемлимой и подъемной для многих. Выделю цену достоинством книги.

2. Книга крайне ёмкая и обширная. О необъятной теме в объятной книге.

Рассматривается и Python и SQL и методы Data Scince, что и как работает. В рамках одной книги это более чем достойно. Да, временами книга может показаться поверхностной, но думаю, это исходя из ограничений книги. Чтобы написать подробный том о каждой теме, для производства книги потребовалось бы куда больше бумаги :)

Минусы книги:

1. Прозрачные страницы.

Не особо бросается в глаза, когда увлечены чтением, но и приятного в этом мало.

Думаю, на всех фотографиях страниц книг, что сделаны мною, это отчетливо видно. Страницы тонкие и просвечивают. Считаю, что это минус.

2.Иногда крайне сжато подаётся материал, что , не имея под рукой поисковика, трудно понять некоторые вещи. Данная оценка субъективна, но мне показалось именно так. Опять же, не уместить всё-всё в одну книгу, понимаю. Но иногда охото отстраниться от цифрового мира, увлечься чтением интересной книги и не прибегать к помощи персонального компьютера)

Подведение итогов по книге:

Могу посоветовать к прочтению данную книгу. Книга даст базовые знания о Data Science, что опять же позволит вам понять, нужно ли оно вам в принципе, интересно ли всё то, что связано с этой сферой.

P.S. К сожалению, в один пост на пикабу можно поместить не более 25 изображений. Мною сделаны фотографии каждой главы, но показать их в рамках ограничений пикабу не могу. Поэтому, если интересно, то можете прочитать полную версию на моем канале.

Благодарю вас за внимание!

Мой канал в телеграмм

Если обзор показался вам интересным, то буду благодарен за подписку на мой

канал IT-старт t.me/it_begin

где я также публикую обзоры технической литературы и полезную информацию как для действующих, так и для начинающих программистов

Ссылка на бесплатную электронную версию книги https://t.me/it_begin/461

Также публикую обзоры книг и интервью на сайте https://russia-it.ru

Показать полностью 25
[моё] Программирование Python Программист Обучение Linux Профессия Data Science Data Обзор книг Обзор Книги Длиннопост
22
10
1MachineSpirit
1MachineSpirit
2 года назад
Программирование на python
Серия Карьера программиста

Где,кроме Data Sience используется машинное обучение и какие IT направления есть в области создания искусственного интеллекта?⁠⁠

Я решил, хотя бы в качестве хобби, заняться изучением создания искусственного интеллекта. Дабы не выбирать направление деятельности наугад, стал смотреть видео с описанием терминов, с этим связанных.
Итак я узнал, что "глубокое обучение" является разделом машинного обучения, которое, в свою очередь, входит в область разработки искусственного интеллекта.
Из другого видео я узнал, что машинное обучение используется в data sience.
Дальше я даже не совсем понимаю, что и как мне гуглить, чтобы разобраться с тем, какие направления разработки связаны с созданием ИИ, как они связаны или не связаны между собой, что мне, в связи со всем этим нужно изучать и т.д.

[моё] Программирование Искусственный интеллект Data Science Python IT Разработка Текст Нужен совет
6
KapitanKuk
2 года назад

Data science⁠⁠

Добрый день. Заканчиваю учиться на дата сатаниста. По данной специальности работать не собираюсь.Есть ли какие нибудь сайты где за деньги смогут сделать выпускной проект?

Питон Программирование Data Science Текст
10
24
realyHamster
realyHamster
2 года назад
Лига программистов

Совместное обучение⁠⁠

Пикабушники, привет! Что-то мне сегодня пришла в голову мысль закинуть тут удочку на предмет поиска людей по интересам. А конкретнее для совместного прокачивание скиллов в направлении Анализ данных/Data science. По опыту знаю, что одна голова хорошо, а две лучше, но вот нет у меня среди круга общения людей, которых можно к этому привлечь. Я сейчас в поиске работы и упёрлась в то, что резюме нужно прокачать проектами - может это будет участие в компетишнс на kaggle, или хакатон какой-нибудь, или просто запилить что-нибудь, что не стыдно будет выложить в репо на гитхаб. Ну вдруг не одна я столкнулась с этим и кому-то ещё нужен товарищ 🤔
Немного обо мне и моих скилах.
Сразу скажу, что я пытаюсь сменить профессию (дада, войти в it, ничего нового), опыт работы по финансовому профилю. Но я не совсем с нуля - образование мат. Методы в экономике. То есть мат. стат, базы данных и программирование мне знакомы давно. Так сложились обстоятельства, что меня унесло в другую степь.
По навыкам. Хотелось бы, чтобы мы были +/- на равных, чтобы один из нас не превратился в бесплатного ментора, хотя в целом я с удовольствием поделюсь всем, что знаю и умею.
Пишу на Python - некрасиво, до разраба далеко.
Есть опыт дергания чего бы то ни было через Rest Api, разбора страниц html/xml. Ну естественно pandas, numpy, sklearn (по ML я пока дальше не продвинулась).
SQL практикую на Postgres, недавно ещё локально поставила Influxdb, чтобы можно было пощупать NoSQL.
Платных курсов не проходила, пользуюсь материалами на Stepik, ютьюб, очень много полезного нахожу и читаю на medium. Серьезно, medium это вообще маст хэв.
Хмм... Вроде в основном все.
Живу в СПб, можем общаться онлайн или встретиться в офлайне.

В общем, если кому-то интересно, отпишитесь в комментах.

Всем хорошего настроения и крутых проектов 💪

Update:
мой уровень инглиша - не говорю, но читаю документацию, статьи, ютьюб с субтитрами. В целом комфортно, по необходимости юзаю гугл переводчик.

В сторону работы с изображениями не смотрела вообще.

Показать полностью
[моё] IT Data Science Поиск людей Обучение Поиск работы Текст
32
dataMisha
2 года назад

Реальный путь в data science⁠⁠


Эта статья про мой путь до первой работы в DS (data science). Путь был не маленьким и был пройден за 2,5 года. Кого-то эта цифра отпугнет, если бы я знал это в начале, то меня бы тоже отпугнула, кто-то назовет меня неспособным дурачком (и отчасти будет прав), а для кого-то (я надеюсь) эта статья поможет сократить время обучения и пройти этот путь быстрее.


Знакомство и первые шаги

Эта история начинается осенью 2019 года. Юный первокурсник Миша (это я) в очередной раз услышал про какой-то data science. Немного погуглив, я узнал про курс от всем известного поисковика, на котором можно узнать об этой области подробнее.

Пройдя пробный кусок, мне понравилось эта так называемое data science и было решено продолжать изучать эту тему, но самостоятельно, платить за это я был не готов.

Для начала я изучил, что вообще должен знать DS и сравнил это с тем, что имелось у меня в голове на тот момент. Поняв, что в голове ничего не имеется (кроме pascal в школе и 4 по математике в универе), я решил, что начать стоит с python.

Нашел несколько курсов по нему и принялся за дело. Проходил я эти курсы в течении полугода, и хоть прогресс, конечно, был, но не сказать, чтобы очень большой, сейчас я понимаю, что этого времени хватило бы, чтобы изучить базу по python достаточно хорошо, но мой подход при изучении этого курса, как и при изучении последующих, был мягко сказать неправильным: Поучась неделю, я забрасывал курс на 2, и так на протяжении всего обучения питону.

Худо бедно я познавал данный язык в течении полугода, а потом весна 2020 года, и всеми любимый локдаун. В универ ходить больше не надо, времени стало чуть больше и решил, что пора кончать с этим питоном и переходить уже к самому DS.

Приступаю к DS


15 апреля 2020 я открыл курс “Введение в Data Science и машинное обучение” и начал получать свои первые знания в этой области. Курс мне понравился, не могу сказать, что он давался мне очень легко, но особых проблем не возникало, если не считать kaggle, на тот момент это казалось очень непонятной штукой.

Следующим моим курс, стал курс от крупнейшего DS сообщества в России. Очень крутой курс, но проходил я его, конечно, не особо углубляясь. Также проходил курсы по статистике, sql и другим важным вещам для DS.


Первые неудачные попытки

Так прошло еще полгода. Я, думая, что уже знаю достаточно, начинаю искать первую работу. Откликался на различные вакансии и меня пригласили на собеседование в Мегафон, им требовался стажер. Я готовился и уже начал немного радоваться, что скоро попаду стажировка, но собеседование было успешно завалено. Я мало на что сумел ответить, но зато смог понять свой истинный уровень.

В течении следующего полугода я опять проходил различные курсы, а также повторял старые, но изучая их более тщательно. Настала весна, близилось лето, в которое я твердо решил начать работать.

В апреле я начал активно откликаться на вакансии, но безуспешно. Никто не захочет брать человека без опыта, у которого даже толком показать нечего, у меня не было гита, на соревнованиях на kaggle я тоже не участвовал, не хватало усилий сделать что-то более-менее объемное и очень зря. Наличие гита, с хорошим кодом, конечно, или наличие каких-то результатов на kaggle является весьма важными вещами при устройстве на работу, особенно на первую.


Первый шанс

Уже наступило лето, а работу я так и не мог найти. Я уже начал откликаться на вакансии не связанные с it, хотелось найти хоть какую-то работу, но даже тут у меня ничего не получалось.

Конечно, в этот момент мысли “может это не мое?”, но в конце июня меня пригласили пройти собеседование на стажировку в Мегафон (да-да опять он).

К собеседованию на этот раз я подготовился лучше, да и знаний было побольше. В итоге меня приняли на стажировку.

“У меня наконец-то получилось, теперь я уже полноценный работник и сто процентов останусь в компании после стажировки” думал я на тот момент.

Первую половину стажировки мы (нас было 5 человек) изучали различные вещи связанный с работой DS. Подробно разбирались с ML, git, oracle db и подобными штуками. Во второй половине нас стали распределять по проектам. Я попал на проект связанный с рекомендацией одного из тарифа. Решал Пытался решить я эту задачу в течении полутора месяцев. Какой-то результат я получить смог, но не очень хороший. Далее было итоговое собеседование по итогам стажировки, которое я успешно завалил, единственный из всех стажеров. Потом я уже понимал, что нужно было лучше готовиться к нему, но было уже поздно. Но в тот момент мне было грустно лишь потому, что прощаюсь с коллегами. Я думал так как теперь у меня есть опыт, то в меня теперь начнут звать на собеседования, которые я успешно буду проходить и устроюсь на работу уже очень скоро. Как же ошибался...


Победа

Хоть теперь меня и стали звать на собесы, пройти их успешно не удавалось, а чаще всего общение с компанией заканчивалось на разговоре с hr, во многом из-за того, что я хотел работать 20-30 часов в неделю (так еще учился), а компании это не устраивало.

Я понял, что, если я хочу устроиться на работу мне необходимо быть готовым к полноценным 40 часам в неделю.

После многочисленных отказов, мне удалось опять попасть на стажировку, на этот раз в компанию Норбит.

Стажировка в этой компании оказалась организована достаточно круто. Каждый день у нас были тренинги, которые проводили сотрудники компании, были дз по этим тренингам, задания по программированию на python, помимо этого нам также было необходимо выполнить индивидуальные проекты, которые мы могли придумать сами, в моём случае это был телеграмм бот по введению и прогнозированию списка покупок. Далее некоторых из нас, в том числе меня, начали привлекать к настоящим задачам. Я попал на проект по системе прогнозирования оттока сотрудников.

К моменту окончанию стажировки, я не сказать, чтобы сильно верил в успех, т.к. был неудачный опыт в Мегафоне и нас было достаточно много, а скольких из нас оставят было не понятно.

Ну и как вы понимаете меня все-таки взял. Я был очень рад этому. Путь длинною 2,5 года наконец-то был пройден, но далее предстоит еще более длительный и увлекательный путь.


Если вы и дальше хотите узнавать о моей карьере то подписывайтесь на мой телеграм - https://t.me/datamisha

Реальный путь в data science Data, Data Science, Обучение, Профессия, IT, Поиск работы, Карьера, Python, Программирование, Опыт, Программист, Удаленная работа, Собеседование, Длиннопост
Показать полностью 1
[моё] Data Data Science Обучение Профессия IT Поиск работы Карьера Python Программирование Опыт Программист Удаленная работа Собеседование Длиннопост
2
13
Аноним
Аноним
2 года назад
Лига программистов

Ищу курс для входа в Data Science⁠⁠

Всем добра. Ситуация такая: сам по образования медик, есть знания по статистике, теории вероятности, матанализ когда-то изучал, ковырялся в нейронках на матлабе, учил С++. Хотел бы начать развиваться в области аналитике больших данных с целью применять в своей медицинской практике (у меня больше научное направление). Тот же анализ медицинских изображений. Есть ли нормальные курсы или что-то из литературы, что может дать понимание механизма работы системы, а не тупо подключать новую библиотеку в питоне?
Заранее спасибо

Data Science Bigdata Самообразование Образование Обучение Текст
9
12
c1991
2 года назад
Футбол на Пикабу

IT в спорте. Как Data Science меняет футбол⁠⁠

При очередном авиаперелете я накачал себе в кэш yandex музыки различные подкасты, принял удобную положение и начал слушать.

На этот раз это был подкаст «Запуск завтра. IT в спорте. Как Data Science меняет футбол» В данном подкасте ведущие вели беседу с дата-сайентистом работающем в сфере футбола. Он начал рассказывать о том как анализ данных вошел в спорт и начал активно развиваться.

Ниже будет приведены статьи из википедии и блога с сайта sports.ru написанные Максимом Вишневским.

Всё начинается в начале 2000-х в бейсболе. Забегая вперёд скажу, что данная история была экранизирована в 2011 году в фильме «Человек, который изменил всё» с Брэдом Питтом в главной роли.


Сюжет таковой: «Окленд Атлетикс» играет на равных в Серии дивизионов Американской лиги 2001, но проигрывает решающий матч своему сопернику — клубу «Нью-Йорк Янкиз» с зарплатной ведомостью в 114 млн долларов, против 39 млн у «Эйс». Помимо ограниченных финансовых возможностей в межсезонье к проблемам «Атлетикс» добавляется потеря ключевых игроков, которые за высокую зарплату уходят в более богатые клубы Главной лиги бейсбола. Генеральный менеджер «Атлетикс» Билли Бин вынужден искать им замену среди менее удачливых и талантливых бейсболистов и собирать конкурентоспособную команду к сезону 2002 года при ограниченных финансовых возможностях.


Во время визита в Кливленд Билли знакомится с Питером Брендом*, молодым выпускником Йеля, экономистом, который, пользуясь математическими расчётами, предлагает новаторскую схему оценки полезности игроков, исходя из расчёта показателей их личной статистики. Бин выкупает Бренда у «Кливленд Индианс» и делает своим ассистентом.


Бин опробует теорию Бренда и, несмотря на протесты опытнейших скаутов «Атлетикс», набирает команду из малоизвестных или на первый взгляд бесперспективных игроков. Скауты не верят в схему Бренда, согласно которой Бин нанимает трёх недорогих и менее сильных игроков, утверждая, что по своим суммарным статистическим показателям втроём они сумеют заменить одну ушедшую суперзвезду. Ориентируясь на расчёты Бренда, он выбирает игроков, исходя из их процента занятия базы после выхода на биту. Именно так он берёт травмированного кэтчера Скотта Хэттеберга , который никогда не играл на первой базе, бывшую звезду главной лиги 37-летнего Дэвида Джастиса, чья карьера идёт на спад, и молодого питчера Чеда Брэдфорда из низшей лиги с необычной, смешной для профессионалов манерой подачи. Несмотря на состав, набранный Бином, главный тренер «Атлетикс» Арт Хоу оставляет за собой право выбирать состав на каждую игру и постоянно оставляет за бортом новичков Бина. После четырнадцати игр «Атлетикс» занимают последнее место, и, чтобы дать шанс новичкам, в которых уверены они с Брендом, Бин решает продать своих оставшихся «звёзд», в том числе перспективного Карлоса Пенью, чтобы связать Хоу руки и заставить его выпускать на поле новых, хоть и неопробованных, игроков.


Бин убеждает владельца команды, что к середине сезона они выберутся в семёрку лучших. Хоу вынужден работать с тем, что у него есть: он выпускает на поле набранных Бином игроков, и «Атлетикс» начинают выигрывать. Команда одерживает небывалые двадцать побед подряд, установив «вечный» рекорд американской лиги. Несмотря на серию побед, «Атлетикс» проигрывают в первом раунде плей-офф команде «Миннесота Твинс», но Бин, хотя и разочарован поражением, доволен тем, что схема Бренда работает.

В финальной сцене картины Бин включает в своем автомобиле запись с песней The Show, исполненной его дочерью Кейси. Камера плавно делает крупный план лица Бина, в его глазах стоят слёзы. Проникновенная композиция и просьба дочери вынудили его отказаться от должности генерального менеджера «Бостон Ред Сокс», несмотря на зарплату в 12,5 млн долларов в год, которая сделала бы его самым высокооплачиваемым менеджером в истории бейсбола. Сами «Ред Сокс», начиная с серии 2004 года, во время выбора игроков пользуются схемой, которую впервые опробовал Бин. С помощью данной схемы «Бостон Ред Сокс» впервые за 86 лет выигрывают Мировую серию.


*Первоначально роль должна была называться ДеПодеста, а роль - Деметри Мартин, но ДеПодеста не хотел, чтобы его имя или изображение использовалось в фильме, поэтому персонажа назвали Питером Брэндом. Бренд - это смесь помощников Бина в Окленде, неточное представление о каком-либо конкретном человеке.


С этого момента анализ данных вошел в спорт и изменил его.

Рассмотрим же на примере Бенфики, как сейчас это происходит в футболе.


По итогам сезона 2017/2018 Бенфика впервые за 5 лет осталась без чемпионского титула, довольствовавшись серебряными медалями. В Лиге Чемпионов дела пошли и того хуже – ни одного очка в группе с Манчестер Юнайтед, Базелем и ЦСКА. При всем этом, летом 2017 клуб традиционно расстался с рядом ключевых игроков – Семеду перешел в Барселону за 35 миллионов евро, а Эдерсон и Линделеф отправились в Манчестер, принеся в казну еще 75. За последние 7 лет клуб заработал на продажах игроков более 400 миллионов евро, открыв миру Давида Луиса, Анхеля Ди Марию, Яна Облака и многих других.

Португальские клубы уже традиционно зарабатывают огромные деньги на трансферах, а зрители поют дифирамбы скаутским отделам Порту, Бенфики и Спортинга. Однако, помимо выдающейся работы по поиску игроков, в клубах уделяют огромное внимание последующей работе с ними, что и позволяет зачастую «сырым» молодым футболистам значительно прибавлять.

Исследование от ArsTechnica показывает, как устроена работа с технологиями внутри Бенфики и какие дивиденды она приносит.

На базе Бенфики Caixa Futebol Campus располагается семь полей с натуральным покрытием, два с искусственным, собственная лаборатория и общежитие для 65 молодых игроков. В кампусе постоянно тренируется три полноценных команды: Бенфика, Бенфика Б и Бенфика Джуниорс, всего более 100 игроков, и практически каждый аспект их жизни отслеживают, анализируют и улучшают с помощью технологий. Питание, сон, двигательная активность, восстановление, психологическое состояние – все эти данные стекаются воедино и используются для подготовки мировых звезд.

Бенфика тесно сотрудничает с Microsoft: на платформе Azure клуб использует механизмы машинного обучения и предиктивной аналитики, разрабатываемые штатными специалистами по анализу данных. Их совместная работа с тренерским штабом позволяет сформировать индивидуальный план для каждого игрока, развивая сильные стороны, подтягивая слабости и снижая риск получения травм.

Сенсоры, Hawk Eye и сбор данных

Ключевая преграда для использования аналитических систем – доступность данных. Большая часть того, что собирает Бенфика, приходит с сенсоров, но что-то (психология, диеты), можно собрать только вручную. Так как носимые сенсоры – достаточно новая индустрия, ей свойственна крайне низкая степень стандартизации: каждая система использует свои протоколы и файловые форматы. Сотни тысяч значений собираются за каждую игру или тренировочную сессию, что создает огромную проблему для обработки данных с учетом общего числа различных систем. Datatrax во время матчей, Prozone, биосенсоры от Philips Actiware, GPS от Statsports и так далее, в общей сложности более десятка независимых систем. Данные очищаются, приводятся к одному формату и вносятся в огромную базу, для работы который клуб создал собственный дата-центр.

Вот один из примеров того, что собирает клуб:

IT в спорте. Как Data Science меняет футбол Футбол, IT, Data Science, Технологии, Спорт, Длиннопост

И оборудование, которое для этого нужно:

IT в спорте. Как Data Science меняет футбол Футбол, IT, Data Science, Технологии, Спорт, Длиннопост

По словам CIO (Chief Information Officer) Бенфики Жоао Копето ключевой аспект в работе с подобными данными – приватность, регламентированная законами ЕС. Даже аналитики клуба имеют доступ только к анонимным данным, полная информация доступна лишь узкому кругу руководства.

Технологии постоянно развиваются, и Бенфика активно работает с IT компаниями как над разработкой новых, более надежных и точных сенсоров, так и над внедрением решений схожих с Hawk-Eye. По словам Копето, игрокам почти всегда интересно опробовать новые гаджеты, но постоянное и обязательное их ношение создает проблемы. Технологии компьютерного зрения активно используются в теннисе, снукере и, с недавних пор, в футболе для определения гола. Потенциально, за счет того же принципа – создания 3D модели пространства и движущихся в нём объектов – можно получать больше информации об игроках в процессе тренировок и игр. Базовый GPS используется клубами повсеместно, но даёт лишь информацию о движении. Чтобы оценивать рывки или высоту прыжков нужны более сложные системы.


Машинное обучение для борьбы с травмами

Чтобы выжимать максимум из данных, в Бенфике активно экспериментируют с искусственным интеллектом и машинным обучением - наиболее современным и быстро развивающийся разделом анализа данных, основная идея которого в том, что система обрабатывает большие объемы данных, сама выявляет закономерности и использует их для прогнозирования. Подобные алгоритмы активно внедряются в самых различных сферах и уже приносят видимые результаты. При этом, сфера новая, и, как следствие, отсутствуют шаблоны и наработанные решения. Для Бенфики ключевая сложность в отсутствии профильных специалистов и разрыве между специалистами по данным и людьми, понимающими, что именно требуется для футбольного клуба.

Основная цель на текущий момент – развитие моделей, позволяющих оценивать физическое состояние футболистов и предотвращать травмы. На их основе игроки могут получать индивидуальные планы тренировок, а тренерский штаб – принимать более взвешенные решения по составу на матчи.

Клуб начал собирать данные около 10 лет назад, когда за сезон в основной команде случились 8 серьезных травм. Внедрение научного подхода совпало с падением этого значения, и клуб начал активно инвестировать в анализ данных. При этом, очевидно, что существует ряд серьезных проблем. Во-первых, существуют тысячи показателей, которые могут влиять на риск получения тех или иных травм, и на текущий момент невозможно работать со всеми. Во-вторых, игровые травмы, полученные в результате контактов, невозможно спрогнозировать.

Несмотря на то, что полностью избавиться от травм невозможно, работа с данными дает определенные конкурентные преимущества. Бруно Мендеш, глава лаборатории Бенфики, выпустил в 2016 году исследование, демонстрирующее зависимость риска травмы от отношении резких нагрузок к регулярным (acute:chronic workload ratio). Другими словами, при значительном превышении нагрузок во время матчей над средними во время подготовительного процесса вероятность травм значительно повышается. Используя эти данные, тренеры могут отслеживать нагрузки игроков в рамках недельного цикла и регулировать их для минимизации травм. Или, наоборот, при низких средних нагрузках у игрока (из-за перелетов, болезни или недостаточного усердия) ограничить его участие в матче.

Партнерство между Бенфикой и Microsoft – наглядный и успешный пример объединения компетенций. В данном случае, глубокие знания о футболе от клуба и собранные данные накладываются на опыт в разработке ПО и анализе данных, которым обладает американский IT гигант.

Для Microsoft это возможность развивать платформу Azure, превращающуюся в главный продукт компании, и наращивать знания в спортивной сфере. Менеджеры Microsoft даже планируют открыть исходный код части ПО, созданного в партнёрстве с Бенфикой. Всё - ради доли на стремительно растущем рынке технологий в футболе.

Лучшим же доказательством пользы технологий для Бенфики является сочетание спортивных результатов и прибыльности. Для клуба, не имеющего мировой популярности и английского телеконтракта, крайне важно регулярно получать высокие суммы за своих игроков. Чтобы добиться этого, мало найти самых талантливых, нужно еще помочь им стать лучшими.



Я только начал изучать эту тему и буду дальше выкладывать понравившиеся статьи о применении IT технологий в футболе. До скорых встреч...

Показать полностью 2
Футбол IT Data Science Технологии Спорт Длиннопост
3
8
eltka
2 года назад

Из ПРЕПОДА в DATA SCIENCE. Часть 2⁠⁠

Итак, продолжение моей душещипательной истории. Первую часть можно почитать по ссылке: Из ПРЕПОДА в DATA SCIENCE Как Вы помните, мой первый трудовой договор продлился 4 месяца и, выполнив все основные пункты из поставленных задач, мне предложили продлить его и остаться. Но в то же время пришло очень выгодное предложение о работе в крупнейшем российском ритейле в сфере продуктов питания.

Там как раз набиралась новая команда аналитики и требовались специалисты с опытом работы в этой сфере. Шанс поработать с себе подобными джунами и мидлами в команде я не могла упустить и, пройдя три этапа собеседования, устроилась на новую позицию.

Здесь чувствовался другой уровень: набор новых программ, фичей, фреймворков, видов хранилищ данных увеличился почти в три раза. Здесь я впервые узнала что такое Hadoop, Kafka, Kubernetus и вообще познакомилась со системным анализом.
После прохождения испытательного срока мне поручили с два новых проекта. Один из них предполагал разработку автоматической отчётности для нового типа супермаркетов, второй - мониторинг внутренней эффективности одного из отделов компании. Работа была реально интересной и главное - приносила оценимый эффект. Однако ещё до начала своего пути в мир высоких технологий мне хотелось поработать в международной команде. К тому же был огромный интерес к машинному обучению, разработке моделей в то время как на той позиции таких задач не было и в ближайших перспективах не предвиделось. Поэтому проработав год, я решила поменять направление и как раз в это время на hh.ru удалось найти вакансию в международной компании, подходящую по всем параметрам под мой запрос. Здесь я и по сей день продолжаю свой путь в ИТ. Надеюсь, моя история была Вам полезна.

Если пост зайдёт, то готова рассказать о том, как проходит учёба на курсах, собеседования при приёме на работу, о том как учила язык, ездила в штаты по программе обмена. Пишите пожелания в комментах)

Показать полностью
[моё] Data Science IT Аналитика Мотивация Digital Образ жизни Текст Курсы Онлайн
5
Посты не найдены
О Нас
О Пикабу
Контакты
Реклама
Сообщить об ошибке
Сообщить о нарушении законодательства
Отзывы и предложения
Новости Пикабу
RSS
Информация
Помощь
Кодекс Пикабу
Награды
Команда Пикабу
Бан-лист
Конфиденциальность
Правила соцсети
О рекомендациях
Наши проекты
Блоги
Работа
Промокоды
Игры
Скидки
Курсы
Зал славы
Mobile
Мобильное приложение
Партнёры
Промокоды Biggeek
Промокоды Маркет Деливери
Промокоды Яндекс Путешествия
Промокоды М.Видео
Промокоды в Ленте Онлайн
Промокоды Тефаль
Промокоды Сбермаркет
Промокоды Спортмастер
Постила
Футбол сегодня
На информационном ресурсе Pikabu.ru применяются рекомендательные технологии