Лига статистиков - Все посты. Сообщества - страница 2

4

1 год назад

Дед Мороз и латентное размещение Дирихле⁠⁠

На детский утренник пришел Дед Мороз с тремя мешками конфет от разных организаций. В каждом мешке разные конфеты и они перемешаны. Одних конфет много в одном мешке и нет в другом. Других конфет примерно поровну во всех мешках.

И решил дед Мороз раздать по быстрому конфеты и продолжить праздновать. Раскрыл он мешки и давай детишкам отсыпать конфеты горстями. А поскольку он праздновал уже с самого утра, то совсем не следил кому и сколько конфет он выдает. Потому кому-то досталось по горсти из каждого мешка, кому-то десяток горстей из одного - вообщем полный беспорядок.

Под конец раздачи пришла Мария Ивановна - заведующая детским садиком, чтобы для отчетности пересчитать конфеты в мешках. Но застала только счастливых детей, три пустых мешка и уснувшего деда мороза.

Заведующая была опытным статистиком. Взглянув на деда Мороза она сразу поняла, что он проделал с конфетами латентное размещение Дирихле. А потому есть хороший шанс восстановить сколько и каких конфет лежало в каждом мешке и по скольку горстей конфет из мешков было выдано каждому ребенку.

Вот например, у Машеньки десяток сникерсов, но нет чупа-чепсов, а у Сережи десяток чупа-чупсов и ни одного сникерса. Значит сникерсы и чупа-чупсы лежали в разных мешках. У Танечки примерно пять сникерсов и пять чупа-чупсов, значит дед мороз выдал Маше и Сереже по паре горстей из одного мешка а Тане по горсти из каждого. Вот таким образом что-то понять можно.

Мария Ивановна запустила компьютер, переписала в файл кто и сколько получил конфет и написала скрипт, который ищет максимум вероятности получить такой расклад конфет в пространстве множества параметров - количества конфет в мешках и количество горстей из этих мешков выданных каждому ребенку. Она запустила скрипт и увидела, что процесс поиска сходится. Happy End

0

3

fakir22

1 год назад

Лига статистиков

Парадокс Монти Холла⁠⁠

Три двери, за одной находится приз. Вам предлагается выбрать дверь, но не открывать ее. После этого ведущий открывает одну из двух оставшихся дверей, но ту, за которой нет приза. Далее вам предлагается открыть дверь, на которую вы указали в начале или другую, которая еще открыта. Зависят ли шансы на приз от вашего решения какую открыть дверь?

Допустим вы человек твердых убеждений, “упертый как баран” и не меняете своего изначального выбора. Тогда ваши шансы на приз 1/3. Тут все просто, три двери, за одной приз.

А вот если у вас “ветер в голове”, “семь пятниц на неделе” и вы вообще забыли на какую дверь изначально указали, а потому просто открываете случайным образом одну из закрытых дверей, то как ни удивительно, но шансы на приз у вас уже 1/2. И тут тоже все просто. Две двери, за одной находится приз.

Самый интересный случай, когда вы всегда открываете дверь, на которую не указывали изначально. Тут ваши шансы становятся 2/3. И вот это понять сложнее всего. Думаю проще будет, если представить эту стратегию немного иначе.

В начале игры вы подходите к ведущему, кладете ему руку на плечо и говорите:

- Дружище, я решил играть с тобой в одной команде и теперь у нашей команды есть право открыть две двери, а значит шансы у нас на приз 2/3. Вот эту дверь не открываем, открываем эту и эту. Ох, какая неприятность, ты не можешь открыть дверь с призом, ну что же придется мне уступить тебе право открыть первым дверь, где нет приза, а я так уж и быть открою другую. И давай сразу договоримся, кто откроет дверь с призом, тому приз и достанется.

P.S.

Видимо мое объяснение оказалось не самое понятное. Потому вот скрипт для симуляции в R стратегии, когда игрок всегда меняет выбор. Результат у меня получился 0.668

Парадокс Монти Холла Статистика, Парадокс, Текст

Показать полностью 1

[моё] Статистика Парадокс Текст

29

8

fakir22

2 года назад

Лига статистиков

Про проверку статистических гипотез с примером на котиках⁠⁠

На картинке показан принцип проверки статистических гипотез. Если гипотеза дает малую вероятность наблюдаемых событий (p < 0.05), то она отвергается и противоположная считается доказанной.

Почему это интересно? Потомучто абсолютно все современные научные исследования включают проверку статистических гипотез. Можно сказать, что проверка статистических гипотез - это глобальный фильтр, который защищает нас от лженаучных результатов.

Вообще проверку статистических гипотез можно применять к любым исследованиям. Вот пример на котиках (с расчетом в R).

Котик 7 раз поцарапал вас правой лапой и только 3 раза левой. “Это случайность или кот правша?” - задумались вы. Решить этот вопрос поможет биномиальный тест.

Предполагаем, что кот - амбидекстр (обе лапы одинаковы) и перекос на правую лапу это случайность. Тогда вероятность получить правой лапой 7 и более раз из 10:

>binom.test(c(7, 3))

p-value = 0.3438

"p-value" получилось очень большое, поэтому с научной точки зрения ничего сказать нельзя. Может правша, а может и нет.

Значит продолжаем злить кота, доведя количество обдираний до 30 (это количество можно оценить заранее, но это другая история).

Допустим в результате получилось, что 21 раз из 30 кот царапал правой лапой. Считаем p-value:

>binom.test(c(21, 9))

p-value = 0.04277

Вот этот результат научное сообщество уже принимает, как доказательство того, что котик правша.

Примерно так все и устроено в науке.

Но почему именно “0.05”? - Этого никто не знает. Вот так выбрали и все - традиция.

Эта традиция означает также, что 5% всех научных результатов ошибочны. Можно ли уменьшить число ошибочных результатов? - да можно. Например принимать только результаты с p-value < 0.01. При этом ошибочных результатов станет 1%, но увеличится сложность экспериментов и их стоимость. Нашему котику, например, придется вас царапать раз 50 и у него могут устать лапки.

Показать полностью 1

[моё] Статистика Эксперимент Кот

6

84

fakir22

2 года назад

Лига статистиков

О чем пишут пикабушники и пикабушницы⁠⁠1

Топ тегов с высокой частотой мужского авторства.

О чем пишут пикабушники и пикабушницы Статистика, Мужчины и женщины, Посты на Пикабу, Сравнение, Длиннопост

Здесь и далее "Риск мужского авторства" - это отношение процента мужчин в авторах к проценту женщин. (Risk Ratio)

Кто-то может пояснить, почему "My Little Pony" чисто мужская тема? Она более мужская, чем футбол, армия, политика и оружие!

Топ тегов с высокой частотой женского авторства.

Наиболее многочисленные и гендерно нейтральные теги.

Источник данных Датасет Пикабу

Показать полностью 3

[моё] Статистика Мужчины и женщины Посты на Пикабу Сравнение Длиннопост

63

fakir22

2 года назад

Лига статистиков

Рейтинг постов. "Моё" или копипаст. Чей копипаст сильнее⁠⁠

Продолжение Рейтинг постов на Пикабу.

Напомню, что среднее значение (медиана) рейтинга по всем постам +6, а вероятность получить рейтинг +10 за пост равна 0.42. Получается что посты "Мое" чуть хуже чем в среднем, но лучше многих копипаст.

[моё] Статистика Рейтинг Факты Пика

2

fakir22

2 года назад

Лига статистиков

Серия Статистический анализ

Рейтинг и время публикации⁠⁠

Продолжение Рейтинг постов на Пикабу. Данные за период 2015-2020 год.

Показать полностью 2

[моё] Статистика Рейтинг Факты Пикабу

11

7

fakir22

2 года назад

Лига статистиков

Серия Статистический анализ

Рейтинги постов и теги⁠⁠

Продолжение Рейтинг постов на Пикабу

Топ 10 тегов с максимальным средним (медианным) значением рейтинга.

Рейтинги постов и теги Статистика, Факты, Рейтинг, Сравнение, Пикабу, Теги, Длиннопост

Здесь и далее рассматривались только теги, поставленные в постах 10 тыс. раз и более. Исключен NSFW (нет данных в предоставленной базе). "Вероятность +10(+1000) и больше" - это пропорция постов, имеющих данный тег и рейтинг которых больше +10 (+1000).

Как видно из таблицы посты с тегом "Негатив" - самая одобряемая категория на Пикабу. Посты с этим тегом собирают максимальное количество плюсов в среднем, причем с большим отрывом от других постов. Напомню, что все остальные посты набирают в среднем +6.

Более того, такие посты имеют максимальную вероятность набрать рейтинг +1000 и более. Вот топ тегов по этому показателю.

Анимешки отличаются тем, что практически гарантированно выходят в "горячее". Но при этом шанс получить +1000 у таких постов практически нет.

Вот топ тегов, дающих шанс получить за пост +10 и более. (Котики тоже в этом топе, но при этом у них есть какой-то шанс на +1000)

Теги, дающие постам минимальный шанс получить +10. Напомню, что в среднем (по всем постам) этот шанс равен 0.42.

Самые минусуемые и думаю самые противоречивые категории. С одной стороны, они лидеры по среднему количеству минусов, но с другой стороны, посты в этих категориях имеют хороший шанс попасть в горячее и даже получить +1000.

Показать полностью 4

[моё] Статистика Факты Рейтинг Сравнение Пикабу Теги Длиннопост

5

fakir22

2 года назад

Лига статистиков

Серия Статистический анализ

Рейтинг поста. Что лучше: текст, видео, фото, рисунок?⁠⁠

Продолжение поста Рейтинг постов на Пикабу

Графики на рисунке построены на основе анализа 10 тысяч и более Пикабу постов, имеющих соответствующий тег. Чем правее сдвинут график, тем чаще пост с тегом получает высокий рейтинг. Серым цветом показан график для всех постов (независимо от тега).

Посмотрим на “эффект тегов”, сравнив медиану рейтингов всех постов (без учета тега) с медианным значения постов с соответствующим тегом. Медиана всех постов равна +6 (пересечение горизонтальной линии на уровне 0.5 с серым графиком).

Посты с тегом “Текст” и “Видео” имеют медианы 1 и 2. Т.е. эти теги в среднем “отнимают” у поста 5 и 4 плюсика соответственно.

Теги “Рисунок” и “Фотография” имеют медианы 13 и 15. Наличие этих тегов добавляет к рейтингу поста +7 и +9.

Тег “Гифка”, в отличие от “Видео”, добавляет к рейтингу, причем довольно значимо +16

Чемпион среди этих тегов - “Комиксы”. Этот тег прибавляет 58 плюсиков к рейтингу поста.

Посмотрим на эффекты тегов с другой стороны - посчитаем вероятность того, что пост наберет рейтинг +10 и выше (выход в горячее). В среднем эта вероятность 42%. Чтобы увидеть это на графике проводим вертикальную линию в точке 10 до пересечения с серой кривой, получаем 0.58. Т.е. 58% вероятность получить 10 плюсиков и меньше. Cоответственно (100% - 58%) = 42% вероятность получить 10 плюсиков и больше.

Посты с тегами “Текст” и “Видео” имеют примерно по 34%. Т.е. теги снижают вероятность выхода поста в горячее на 10%.

Теги “Рисунок”, “Фотография”, “Гифка”,“Комиксы” увеличивают шансы на 15%, 17%, 23% и 32%.

Вывод - рисуйте комиксы и будут вам плюсики :).

Нужно оговориться, что все это в статистике называется “обсервационное” исследование. Оно не выявляет причинно-следственные связи. Однако может навести на размышления :).

Показать полностью 1

[моё] Статистика Пикабу Рейтинг Факты График

8