Как я в ночном клубе искал вора телефонов критерием хи-квадрат
Как-то бороздя сайты фриланса я наткнулся на интересную подработку. Заказчик писал, что есть некий ночной клуб, в котором кто-то стал воровать сотовые телефоны. Вход в клуб возможен только по персональной электронной карточке. Заказчик выложил файл с номерами карточек и датами их входа в клуб, а также файл с датами жалоб на пропажу телефонов. Предлагалось вычислить по этим данным тех кто ворует.
Да, задание странное, похожее было на задачку по статистике для студентов (хотя заказчик об этом не писал). Но задачка мне понравилась, так что я решил подработку не брать (как-то неправильно это решать за студента), но воров поискать.
Самое простое что тут можно сделать - посчитать частоту воровства в дни когда человек был в клубе. Тот у кого она максимальная - тот и под подозрением.
Но это неправильный способ. Пришел, например, человек один раз за все время в клуб и в этот день своровали. Вполне возможное совпадение, а мы его в воры запишем, потому что получается, что в дни его появления воруют с частотой 100%.
Правильный подход, по моему, должен звучать как-то так.
- Подозреваемый, вы были в клубе 10 раз и при этом 4 раза пропал телефон. Получается 40% шанс, что при вашем посещении пропадает телефон. А вот 100 раз, что вас небыло в клубе телефон пропадал только 15 раз. Это 15% шанс пропажи - нехорошо это выглядит для вас!
- Я поверю, что это получилось случайно, вы случайно зашли в клуб в дни, когда произошли пропажи. Совпадение, бывает…
- Но поверив в случайность всего происшедшедшего с вами, я получаю возможность просчитать вероятность этой случайности! И поможет мне в этом критерий хи-квадрат, предложенный Карлом Пирсоном в 1900 году. Ну и например, вот этот калькулятор .
- Ага, вот посмотрите на результат, частота вашей случайности 4.6%, а это, увы, слишком мало, чтобы считать вас непричастным к пропаже телефонов!
Вот так я примерно “побеседовал” со всеми членами клуба (с помощью скрипта на языке R) и выявил 3-х человек, связанных с воровством.
Интересно, что нашелся в данных и один посетитель, который наоборот - статистически достоверно (с шансом случайности <5%) снижал вероятность воровства. Я даже задумался, как такое возможно. Но потом вспомнил, что скорее всего это все нереальные данные.