Лига статистиков

29 постов 83 подписчика
4

Дед Мороз и латентное размещение Дирихле

На детский утренник пришел Дед Мороз с тремя мешками конфет от разных организаций. В каждом мешке разные конфеты и они перемешаны. Одних конфет много в одном мешке и нет в другом. Других конфет примерно поровну во всех мешках.

И решил дед Мороз раздать по быстрому конфеты и продолжить праздновать. Раскрыл он мешки и давай детишкам отсыпать конфеты горстями. А поскольку он праздновал уже с самого утра, то совсем не следил кому и сколько конфет он выдает. Потому кому-то досталось по горсти из каждого мешка, кому-то десяток горстей из одного - вообщем полный беспорядок.

Под конец раздачи пришла Мария Ивановна - заведующая детским садиком, чтобы для отчетности пересчитать конфеты в мешках. Но застала только счастливых детей, три пустых мешка и уснувшего деда мороза.

Заведующая была опытным статистиком. Взглянув на деда Мороза она сразу поняла, что он проделал с конфетами латентное размещение Дирихле. А потому есть хороший шанс восстановить сколько и каких конфет лежало в каждом мешке и по скольку горстей конфет из мешков было выдано каждому ребенку.

Вот например, у Машеньки десяток сникерсов, но нет чупа-чепсов, а у Сережи десяток чупа-чупсов и ни одного сникерса. Значит сникерсы и чупа-чупсы лежали в разных мешках. У Танечки примерно пять сникерсов и пять чупа-чупсов, значит дед мороз выдал Маше и Сереже по паре горстей из одного мешка а Тане по горсти из каждого. Вот таким образом что-то понять можно.

Мария Ивановна запустила компьютер, переписала в файл кто и сколько получил конфет и написала скрипт, который ищет максимум вероятности получить такой расклад конфет в пространстве множества параметров - количества конфет в мешках и количество горстей из этих мешков выданных каждому ребенку. Она запустила скрипт и увидела, что процесс поиска сходится. Happy End

3

Парадокс Монти Холла

Три двери, за одной находится приз. Вам предлагается выбрать дверь, но не открывать ее. После этого ведущий открывает одну из двух оставшихся дверей, но ту, за которой нет приза. Далее вам предлагается открыть дверь, на которую вы указали в начале или другую, которая еще открыта. Зависят ли шансы на приз от вашего решения какую открыть дверь?

Допустим вы человек твердых убеждений, “упертый как баран” и не меняете своего изначального выбора. Тогда ваши шансы на приз 1/3. Тут все просто, три двери, за одной приз.

А вот если у вас “ветер в голове”, “семь пятниц на неделе” и вы вообще забыли на какую дверь изначально указали, а потому просто открываете случайным образом одну из закрытых дверей, то как ни удивительно, но шансы на приз у вас уже 1/2. И тут тоже все просто. Две двери, за одной находится приз.

Самый интересный случай, когда вы всегда открываете дверь, на которую не указывали изначально. Тут ваши шансы становятся 2/3. И вот это понять сложнее всего. Думаю проще будет, если представить эту стратегию немного иначе.

В начале игры вы подходите к ведущему, кладете ему руку на плечо и говорите:

- Дружище, я решил играть с тобой в одной команде и теперь у нашей команды есть право открыть две двери, а значит шансы у нас на приз 2/3. Вот эту дверь не открываем, открываем эту и эту. Ох, какая неприятность, ты не можешь открыть дверь с призом, ну что же придется мне уступить тебе право открыть первым дверь, где нет приза, а я так уж и быть открою другую. И давай сразу договоримся, кто откроет дверь с призом, тому приз и достанется.

P.S.

Видимо мое объяснение оказалось не самое понятное. Потому вот скрипт для симуляции в R стратегии, когда игрок всегда меняет выбор. Результат у меня получился 0.668

Парадокс Монти Холла Статистика, Парадокс, Текст
Показать полностью 1
8

Про проверку статистических гипотез с примером на котиках

Про проверку статистических гипотез с примером на котиках Статистика, Эксперимент, Кот

На картинке показан принцип проверки статистических гипотез. Если гипотеза дает малую вероятность наблюдаемых событий (p < 0.05), то она отвергается и противоположная считается доказанной.

Почему это интересно? Потомучто абсолютно все современные научные исследования включают проверку статистических гипотез. Можно сказать, что проверка статистических гипотез - это глобальный фильтр, который защищает нас от лженаучных результатов.

Вообще проверку статистических гипотез можно применять к любым исследованиям. Вот пример на котиках (с расчетом в R).

Котик 7 раз поцарапал вас правой лапой и только 3 раза левой. “Это случайность или кот правша?” - задумались вы.  Решить этот вопрос поможет биномиальный тест.

Предполагаем, что кот - амбидекстр (обе лапы одинаковы) и перекос на правую лапу это случайность. Тогда вероятность получить правой лапой 7 и более раз из 10:

>binom.test(c(7, 3))

p-value = 0.3438

"p-value" получилось очень большое, поэтому с научной точки зрения ничего сказать нельзя. Может правша, а может и нет. 

Значит продолжаем злить кота, доведя количество обдираний до 30 (это количество можно оценить заранее, но это другая история).

Допустим в результате получилось, что 21 раз из 30 кот царапал правой лапой. Считаем p-value:

>binom.test(c(21, 9))

p-value = 0.04277

Вот этот результат научное сообщество уже принимает, как доказательство того, что котик правша.

Примерно так все и устроено в науке.

Но почему именно “0.05”? - Этого никто не знает. Вот так выбрали и все - традиция.

Эта традиция означает также, что 5% всех научных результатов ошибочны. Можно ли уменьшить число ошибочных результатов? - да можно. Например принимать только результаты с p-value < 0.01. При этом ошибочных результатов станет 1%, но увеличится сложность экспериментов и их стоимость. Нашему котику, например, придется вас царапать раз 50 и у него могут устать лапки.

Показать полностью 1
84

О чем пишут пикабушники и пикабушницы1

Топ тегов с высокой частотой мужского авторства. 
О чем пишут пикабушники и пикабушницы Статистика, Мужчины и женщины, Посты на Пикабу, Сравнение, Длиннопост

Здесь и далее "Риск мужского авторства" - это отношение процента мужчин в авторах к проценту женщин. (Risk Ratio)


Кто-то может пояснить, почему "My Little Pony" чисто мужская тема? Она более мужская, чем футбол, армия, политика и оружие!


Топ тегов с высокой частотой женского авторства. 

О чем пишут пикабушники и пикабушницы Статистика, Мужчины и женщины, Посты на Пикабу, Сравнение, Длиннопост

Наиболее многочисленные и гендерно нейтральные теги.

О чем пишут пикабушники и пикабушницы Статистика, Мужчины и женщины, Посты на Пикабу, Сравнение, Длиннопост

Источник данных Датасет Пикабу

Показать полностью 3

Рейтинг постов. "Моё" или копипаст. Чей копипаст сильнее

Продолжение Рейтинг постов на Пикабу.

Рейтинг постов. "Моё" или копипаст. Чей копипаст сильнее Статистика, Рейтинг, Факты, Пика

Напомню, что среднее значение (медиана) рейтинга по всем постам +6, а вероятность получить рейтинг +10 за пост равна 0.42. Получается что посты "Мое" чуть хуже чем в среднем, но лучше многих копипаст.

Рейтинг и время публикации

Продолжение Рейтинг постов на Пикабу. Данные за период 2015-2020 год.

Рейтинг и время публикации Статистика, Рейтинг, Факты, Пикабу
Рейтинг и время публикации Статистика, Рейтинг, Факты, Пикабу
Рейтинг и время публикации Статистика, Рейтинг, Факты, Пикабу
Показать полностью 2
7

Рейтинги постов и теги

Продолжение Рейтинг постов на Пикабу

Топ 10 тегов с максимальным средним (медианным) значением рейтинга.
Рейтинги постов и теги Статистика, Факты, Рейтинг, Сравнение, Пикабу, Теги, Длиннопост

Здесь и далее рассматривались только теги, поставленные в постах 10 тыс. раз и более. Исключен NSFW (нет данных в предоставленной базе). "Вероятность +10(+1000) и больше" - это пропорция постов, имеющих данный тег и рейтинг которых больше +10 (+1000).


Как видно из таблицы посты с тегом "Негатив" - самая одобряемая категория на Пикабу. Посты с этим тегом собирают максимальное количество плюсов в среднем, причем с большим отрывом от других постов. Напомню, что все остальные посты набирают в среднем +6.


Более того, такие посты имеют максимальную вероятность набрать рейтинг +1000 и более. Вот топ тегов по этому показателю.

Рейтинги постов и теги Статистика, Факты, Рейтинг, Сравнение, Пикабу, Теги, Длиннопост

Анимешки отличаются тем, что практически гарантированно выходят в "горячее".  Но при этом шанс получить +1000 у таких постов практически нет.

Вот топ тегов, дающих шанс получить за пост +10 и более. (Котики тоже в этом топе, но при этом у них есть какой-то шанс на +1000)

Рейтинги постов и теги Статистика, Факты, Рейтинг, Сравнение, Пикабу, Теги, Длиннопост

Теги, дающие постам минимальный шанс получить +10. Напомню, что в среднем (по всем постам) этот шанс равен 0.42.

Рейтинги постов и теги Статистика, Факты, Рейтинг, Сравнение, Пикабу, Теги, Длиннопост

Самые минусуемые и думаю самые противоречивые категории. С одной стороны, они лидеры по среднему количеству минусов, но с другой стороны, посты в этих категориях имеют хороший шанс попасть в горячее и даже получить +1000.

Рейтинги постов и теги Статистика, Факты, Рейтинг, Сравнение, Пикабу, Теги, Длиннопост
Показать полностью 4

Рейтинг поста. Что лучше: текст, видео, фото, рисунок?

Рейтинг поста. Что лучше: текст, видео, фото, рисунок? Статистика, Пикабу, Рейтинг, Факты, График


Продолжение поста Рейтинг постов на Пикабу


Графики на рисунке построены на основе анализа 10 тысяч и более Пикабу постов, имеющих соответствующий тег. Чем правее сдвинут график, тем чаще пост с тегом получает высокий рейтинг. Серым цветом показан график для всех постов (независимо от тега).


Посмотрим на “эффект тегов”, сравнив медиану рейтингов всех постов (без учета тега) с медианным значения постов с соответствующим тегом. Медиана всех постов равна +6 (пересечение горизонтальной линии на уровне 0.5 с серым графиком). 


Посты с тегом “Текст” и “Видео” имеют медианы 1 и 2. Т.е. эти теги в среднем “отнимают” у поста 5 и 4 плюсика соответственно.


Теги “Рисунок” и “Фотография” имеют медианы 13 и 15. Наличие этих тегов добавляет к рейтингу поста +7 и +9.


Тег “Гифка”, в отличие от “Видео”, добавляет к рейтингу, причем довольно значимо +16


Чемпион среди этих тегов - “Комиксы”. Этот тег прибавляет 58 плюсиков к рейтингу поста.


Посмотрим на эффекты тегов с другой стороны - посчитаем вероятность того, что пост наберет рейтинг +10 и выше (выход в горячее). В среднем эта вероятность 42%. Чтобы увидеть это на графике проводим вертикальную линию в точке 10 до пересечения с серой кривой, получаем 0.58. Т.е. 58% вероятность получить 10 плюсиков и меньше. Cоответственно (100% - 58%) = 42% вероятность получить 10 плюсиков и больше.


Посты с тегами “Текст” и “Видео” имеют примерно по 34%. Т.е. теги снижают вероятность выхода поста в горячее на 10%.


Теги “Рисунок”, “Фотография”, “Гифка”,“Комиксы” увеличивают шансы на 15%, 17%, 23% и 32%.


Вывод -  рисуйте комиксы и будут вам плюсики :).


Нужно оговориться, что все это в статистике называется “обсервационное” исследование. Оно не выявляет причинно-следственные связи. Однако может навести на размышления :).

Показать полностью 1
Отличная работа, все прочитано!