Лига статистиков

29 постов 83 подписчика
3

Как я в ночном клубе искал вора телефонов критерием хи-квадрат

Как я в ночном клубе искал вора телефонов критерием хи-квадрат Статистика, Теория вероятностей

Как-то бороздя сайты фриланса я наткнулся на интересную подработку. Заказчик писал, что есть некий ночной клуб, в котором кто-то стал воровать сотовые телефоны. Вход в клуб возможен только по персональной электронной карточке. Заказчик выложил файл с номерами карточек и датами их входа в клуб, а также файл с датами жалоб на пропажу телефонов. Предлагалось вычислить по этим данным тех кто ворует.


Да, задание странное, похожее было на задачку по статистике для студентов (хотя заказчик об этом не писал). Но задачка мне понравилась, так что я решил подработку не брать (как-то неправильно это решать за студента), но воров поискать.


Самое простое что тут можно сделать - посчитать частоту воровства в дни когда человек был в клубе. Тот у кого она максимальная - тот и под подозрением.


Но это неправильный способ. Пришел, например, человек один раз за все время в клуб и в этот день своровали. Вполне возможное совпадение, а мы его в воры запишем, потому что получается, что в дни его появления воруют с частотой 100%.


Правильный подход, по моему, должен звучать как-то так.


- Подозреваемый, вы были в клубе 10 раз и при этом 4 раза пропал телефон. Получается 40% шанс, что при вашем посещении пропадает телефон. А вот 100 раз, что вас небыло в клубе телефон пропадал только 15 раз. Это 15% шанс пропажи - нехорошо это выглядит для вас!

- Я поверю, что это получилось случайно, вы случайно зашли в клуб в дни, когда произошли пропажи. Совпадение, бывает…

- Но поверив в случайность всего происшедшедшего с вами, я получаю возможность просчитать вероятность этой случайности! И поможет мне в этом критерий хи-квадрат, предложенный Карлом Пирсоном в 1900 году. Ну и например, вот этот калькулятор .

-  Ага, вот посмотрите на результат, частота вашей случайности 4.6%, а это, увы, слишком мало, чтобы считать вас непричастным к пропаже телефонов!


Вот так я примерно “побеседовал” со всеми членами клуба (с помощью скрипта на языке R) и выявил 3-х человек, связанных с воровством.

Интересно, что нашелся в данных и один посетитель, который наоборот - статистически достоверно (с шансом случайности <5%) снижал вероятность воровства. Я даже задумался, как такое возможно. Но потом вспомнил, что скорее всего это все нереальные данные.


(Для занудных статистиков - про поправку на мно́жественную проверку гипотез я тоже не забыл, сделал коррекцию Бонферрони)
Показать полностью
1

Правило трех. Вероятность события, которое никогда не происходило раньше

Правило трех. Вероятность события, которое никогда не происходило раньше Статистика, Теория вероятностей, Вероятность

Как вам вот такого рода задача. Создана новая вакцина от обезьяньей оспы, которую испытали на себе 30 добровольцев - у всех все нормально. Что вы можете сказать о частоте побочных эффектов от этой вакцины?


Первое впечатление - тут нечего особо сказать. Надо испытывать дальше. Вот как случатся побочные эффекты, так мы и посчитаем их частоту.


Однако если я скажу, что вакцину "А" испытали на себе 30 добровольцев и ничего не случилось, а вакцину "В" испытали 3000 и ничего не случилось, то вы предпочтете "B". Значит все-таки можно что-то сказать о безопасности вакцины, даже если еще ничего плохого не случилось!


Все дело в правильной постановке задачи. Она должна звучать так:

Какова вероятность побочных эффектов, при которой мы их не обнаружим в эксперименте на 30 добровольцах в 95% случаев.


Эта задача уже имеет точное решение, причем все можно посчитать очень просто!

Максимально возможная частота побочных эффектов равна 3/n, где n - число испытаний.

Вот это 3/n и называется "Правило трех".Т.е. Вероятность побочных эффектов у нас будет в диапазоне от 0% - 10%. 


А вот если испытали 3000 человек и все нормально, то вероятность побочных эффектов уже в диапазоне от 0% - 1%.


Теперь, распознав такого рода задачу, вы сможете быстро посчитать все в уме, и сделав напряженное лицо киношного гения уверенно выдать:  - "Вероятность этого события ... "


Вот вам еще задачка на эту тему.

Вовочка выглянул в окно 1500 раз и НЕ увидел слона. Каковы шансы, что он его увидит выглянув в 1501-й раз (ответ: 0%-0.2%)

Показать полностью

Распределение творческих профессий по Эдгару Цилзелю

Данная статья относится к Категории: Оценки числа творческих личностей

Распределение творческих профессий по Эдгару Цилзелю Творчество, Социология, Ученые, Статистика, Демография, Профессия, Познавательно, Видео, YouTube, Длиннопост

Австрийский философ Эдгар Цилзель / Edgar Zilsel написал книгу: Происхождение понятия гения. Вклад в идейную историю античности и раннего капитализма / Die Entstehung des Geniebegriffes: Ein Beitrag zur Ideengeschichte der Antike und des Frühkapitalismus.


Здесь «Э. Цильзель приводит интересную таблицу, составленную на основании восьми биографических сборников XV века. Из 967 обследованных биографий приходится на долю:


Писателей всех видов — 40%

Политиков и военных — 30%

Духовных лиц — 10%

Врачей — 6,5%

Художников — 4,5%

Фехтовальщиков менее — 0,5%


Изобретателям здесь места не нашлось».


Зубов В., Примечания / Леонардо да Винчи: избранные произведения в 2-х томах, Том 1, М., «Академия», 1935 г., с. 294.


Источник — портал VIKENT.RU


Дополнительные материалы

+ Плейлист из 9-ти видео: КРЕАТИВНЫЕ / ТВОРЧЕСКИЕ ПРОФЕССИИ

+ Ваши дополнительные возможности:

Идёт приём Ваших новых вопросов по более чем 400-м направлениям творческой деятельности – на онлайн-консультацию третье воскресенье каждого месяца в 19:59 (мск). Это принципиально бесплатный формат.


Задать вопросы Вы свободно можете здесь: https://vikent.ru/w0/


Изображения в статье

Изображение Gerd Altmann с сайта Pixabay

Показать полностью 1

Пьюдипай vs T-series по подписчикам

Пьюдипай vs T-series по подписчикам

4943

Встретились как-то раз два статистика...

Встретились как-то раз два статистика...
Отличная работа, все прочитано!