Лига статистиков

29 постов 83 подписчика
29

Рейтинг постов на Пикабу

Рейтинг постов на Пикабу Статистика, Пикабу, Рейтинг, График

Недавно я обнаружил Пикабу датасет, выложенный год назад. Он содержит записи о примерно 3-х миллионов пользователей, 7 миллионов постов и 154 миллионов комментариев. Там нет никаких персональных данных или детальной информации (например кто за какой пост голосовал), так что нет особого повода беспокоиться. Но он содержит интересный материал для анализа (спасибо @NeAdminPikabu, это действительно очень ценный материал).

Я решил его понемногу “майнить” и писать все интересное, что получится найти. Вот первая порция.


Я построил график кумулятивного распределения рейтинга постов на пикабу. График интересен тем, что поможет вам узнать, насколько хорош ваш пост.


Предположим пост получил +21. Ищем 21 на оси "Рейтинг" и по графику определяем, что примерно 70% постов (0.7) имеет на Пикабу рейтинг ниже. То есть ваш пост вошел в 30% лучших постов Пикабу (есть чем гордиться).


А если ваш пост получил -20, то это тоже своего рода достижение. По графику видно, что только 5% постов получают больше минусов чем ваш.


Еще на основе этого графика можно предсказать рейтинг вашего будущего поста на пикабу даже ничего не зная о нем.

Ваш будущий пост имеет шанс 50% получить рейтинг +6 и выше (синяя вертикальная линия). Вот такой забавный результат :). Я буду ссылаться на него, в последующих постах, где расскажу как можно повлиять на рейтинг в лучшую (или худшую) сторону.

Показать полностью 1
3

Как сделана карта мировых ценностей (Диаграмма Инглхарта)

Как сделана карта мировых ценностей (Диаграмма Инглхарта) Статистика, Опрос, Рейтинг, Психология, Социология, Научпоп, Политология, Длиннопост

Эту диаграмму часто показывают политологи и социологи, однако есть у меня подозрение, что мало кто из них представляет, каким образом рассчитываются координаты каждой страны и что такое эти координаты. Как строятся такие карты лучше всего знают статистики, потому что делается это статистическим методом под названием "факторный анализ".


Все подробности построения диаграммы мне найти не удалось (это описано в книгах Инглхарта, а они не бесплатные). Однако того, что я нашел хватит для объяснения принципа.


Сразу оговорюсь, что бласти, выделенные на диаграмме (и их названия) не имеют никакого отношения к построению диаграммы. Это разделение было придумано совсем другим автором (Хантингтоном) и просто взято у него.


Исходные данные для этой карты - это 10 индикаторов. Каждый индикатор - цифра, полученная из ответов людей (респондентов) в ходе опросов. Вот список этих индикаторов:


1) Бог очень важен в жизни респондента.

2) Для ребенка важнее научиться послушанию и религиозной вере, чем самостоятельности и решительности.

3) Аборт никогда не может быть оправдан.

4) У респондента сильно развито чувство национальной гордости.

5) Респондент выступает за большее уважение к власти.


6) Респондент отдает предпочтение экономической и физической безопасности над самовыражением и качеством жизни.

7) Респондент описывает себя как не очень счастливого.

8) Гомосексуальность никогда не может быть оправдана.

9) Ответчик не подписал и не подпишет никакой петиции.

10) Вы должны быть очень осторожны, доверяя людям.


В методе факторного анализа мы предполагаем, что значения индикаторов определяются (коррелируют) небольшим числом скрытых факторов. Эти факторы мы не можем измерить напрямую (часто даже сложно понять их смысл).

В данном случае Инглхарт предположил, что для каждого респондента есть только два фактора, с которыми связаны значения всех десяти индикаторов. Причем первый фактор коррелирует только со значениями индикаторов 1-5, а второй - со значениями 6-10.


Затем, на основе этого предположения в факторном анализе "подгоняются" значения факторов так, чтобы они наилучшим образом коррелировали со "своими" индикаторами. Делается это специальными программами и методами.


Чтобы лучше понять проблему, представьте таблицу, где в строчках респонденты, а столбцы - значения индикаторов. Нам нужно к этой таблице добавить столбец цифр (фактор) так, чтобы он хорошо коррелировал со всеми столбцами ("предсказывал" значения столбцов).

Можно туда просто скопировать, например, значения первого столбца тогда наш фактор будет идеально коррелировать с ним. Однако с другими столбцами он будет плохо коррелировать. А задача состоит в том, чтобы подобрать значения фактора так, чтобы он "более-менее" коррелировал со всеми столбцами. Т.е. нужно сложить с какими-то коэффициентами значения всех столбцов, так, чтобы суммарная корреляция была наилучшей.


В результате "подгона" Инглхарту удалось подобрать значения первого фактора, так, что фактор объяснял (предсказывал) в целом 26% вариаций индикаторов 1-5 и значения второго фактора, так, что он объяснял 13% вариации индикаторов 6-10.


Я предполагаю, что вычислив факторы для всех респондентов автор просто усреднил значения по каждой стране и отобразили точками на диаграмме. Т.е. координаты - это два фактора, наличие которых предположил Инглхарт, а положение стран - их усредненные значения.


Обычно в таком типе анализа (подтверждающий факторный анализ) обязательно проводят тестирование гипотезы о том, что факторы коррелируют с индикаторами (что это не случайное совпадение). Т.е. все это подтверждается статистикой, а не просто является выдумкой автора.


А вот названия факторов и их интерпретация - это уже субъективное мнение автора. Инглхарт решил, что первый фактор (индексы 1-5) отображает ценности традиционные/рациональные, а второй (индексы 6-10) - ценности выживания/самовыражения.



Список индикаторов взят отсюда

Показать полностью 1
0

Продолжение поста «Как искать жульничество в цифрах. Закон Бенфорда, или закон первой цифры»1

Появился комментарий, в котором интересуются подробностями применения этого закона для обнаружения жульничества (спасибо @toyoroyo1 за вопрос).


Поэтому пишу продолжение.


Чтобы выявить подделку нам нужно пересчитать первые цифры в данных и сравнить с тем, что должно было бы получиться согласно закону Бенфорда. (То, что должно получится считается умножением количества чисел в наших данных, на частоты их появления по закону Бенфорда.)


Для примера я возьму данные "Корпоративные платежи коммунальной компании Западного побережья - 2010 г." (это все про США)

Вот что у них получается:

Продолжение поста «Как искать жульничество в цифрах. Закон Бенфорда, или закон первой цифры» Научпоп, Статистика, Мошенничество, Ответ на пост

Красная линия - это что должно быть, столбики - что есть на самом деле. Видно, что есть различие, но это может быть и чисто случайное различие. Это как с игровым кубиком, у него вероятности цифр одинаковые, но если его подбросить 180 раз, то цифры не выпадут точно по 30 раз, будет отличие, которое можно объяснить случайностью.


Так же и тут. Весь вопрос в том, случайно ли отличие, что мы видим.

И тут нам поможет критерий x-квадрат.

Мы просто говорим - допустим это все случайно, посчитаем вероятность случайности при которой мы увидим такое отличие. (Суммарное отличие считается хитро, не буду писать)


В нашем примере получается вероятность меньше чем 10e-16 (десять в минус шестнадцатой степени) - то есть вообще никогда!

А это значит нарушен закон Бенфорда и с данными что-то не так, нужно смотреть подробнее.

Вот как-то так.


Звучит сложно, но в реальности я просто запустил Rstudio и набрал команды:


library(benford.analysis)

data(corporate.payment)

bfd.cp <- benford(corporate.payment$Amount, number.of.digits = 1)

bfd.cp

plot(bfd.cp)


Так и получил все графики и вероятности.

Показать полностью 1
5

Ответ на пост «Б - Баланс»5

Проанализировал результаты 1050 бросков, приведенных в посте.


Опровергнуть гипотезу о том, что этот кубик имеет дисбаланс не удалось. Наблюдаемые различия в цифрах объясняются случайностью процесса.


Вот результат теста хи- квадрат

Chi-squared test for given probabilities

data: c(174, 169, 176, 188, 176, 168)

X-squared = 1.4662, df = 5, p-value = 0.9169


Это не доказывает, что кубик идеален (такое доказать в принципе невозможно). Это говорит только о том, что доказать неидеальность не получилось.


Однако если предположить, что различия в числах не случайны, то можно оценить количество бросков, после которых есть шанс обнаружить дисбаланс.


У меня получилось, что нужно сделать 9195 бросков этого кубика, чтобы иметь 80% вероятность обнаружить дисбаланс при 5% уровне ошибки.


Chi squared power calculation

w = 0.03735069

N = 9194.93

df = 5

sig.level = 0.05

power = 0.8


Я представил себе забавную картину - отдел контроля качества игральных костей. Сидят люди, кидают кубики, записывают результат :). Или стоят роботы, кидают кубики и  выдают заключение о дисбалансе.

Показать полностью
32

Как искать жульничество в цифрах. Закон Бенфорда, или закон первой цифры1

Как искать жульничество в цифрах. Закон Бенфорда, или закон первой цифры Научпоп, Статистика, Мошенничество

В 1938 году физик Фрэнк Бенфорд непонятно зачем начал пересчитывать цифры в различных таблицах. Возможно он узнал, что криптографы пересчитывают буквы в текстах и решил тоже что-нибудь такое посчитать. Только в книжках у него были одни цифры (он же физиком был). Вот и пересчитал то, что было.


Не зря он этой глупостью занялся. Оказалось, что во многих таблицах первые цифры чисел встречаются с определенной закономерностью. Чаще всего встречается цифра 1, затем 2, 3 …9 и 0. 

Позже такие закономерности начали находить буквально везде - номера домов в городе, протяженность рек, суммы в налоговых декларациях. Причем проверят, например, протяженности рек, измеренную в километрах - есть закономерность, пересчитают в милях - и опять тоже самое! Просто мистика какая-то!


Но мистики тут никакой нет, да и не везде этот закон работает. Все дело в том, что многие явления и объекты носят экспоненциальных характер распределения. Это такое распределение, где большие числа встречаются гораздо реже маленьких.


Богатых людей мало, а бедных много. Большие и протяженные реки встречаются реже маленьких. Коротких улиц гораздо больше чем длинных. Вот тут и возникает закон Бенфорда.

Кроме того, закон хорошо работает там, где числа меняются в диапазоне нескольких порядков (не 0-10, а 0-10000) и там, где данных много.


А если данные и явления имеют другой характер распределения или искусственно ограничены, то закон не работает. Например: школьные оценки, координаты мест в определенном городе, коэффициент интеллекта - тут не будет такой закономерности.


Особенное интересна эта закономерность тем, что нарушается при попытке жульничества и подделке данных. Есть слухи, что налоговая в США отлавливает подозрительную деятельность используя эту закономерность.


Да, совсем забыл добавить про статистику.

Для этого распределения выведена формула, которая дает частоты цифр. Поэтому мы можем посчитать, что получается в данных и оценить случайность отклонений от теоретических значений.

Оценку отклонений от теории можно сделать, например, с помощью критерия хи-квадрат.

Если хи-квадрат нам скажет что-то типо - может получилось и случайно, но такое бывает раз на миллион случаев, то значит данные кто-то подправил.

Показать полностью
154

Статистический эффект предвзятости публикации или "эффект ящика для папок”

Статистический эффект предвзятости публикации или "эффект ящика для папок” Медицина, Наука, Статистика, Исследования, Рвота

Предположим, что десяток лабораторий занялись исследованием эффекта нового медицинского препарата и они еще не знают, что у препарата эффекта нет.

В 9 лабораториях действительно не обнаружилось какого-либо эффекта, но в одной эффект получился довольно большим. Это вполне обычная ситуация, когда исследования проводятся на небольшой группе. В этом случае даже если лекарство совсем не действует, то чисто случайно может получится эффект.


А тут лекарство новое, работает или нет - неизвестно. Поэтому выделяется денег на исследование по минимуму, а значит и тестирование проводится на маленькой группе.

А дальше 9 лабораторий, не получившие “интересных” результатов откладывают их в долгий ящик и забывают про них. А вот лаборатория, наблюдавшая сильный эффект радостно публикует результаты! И все теперь почти уверены, что лекарство работает!

Вот это и есть эффект “предвзятость публикации”.


Дальше происходит нечто интересное. Поскольку эффект “есть”, выделяется гораздо больше денег и снова десяток лабораторий начинают уточнять величину эффекта. Однако денег больше и группы для испытаний больше. Чисто статистически тут опять возможна ситуация, когда какая-то лаборатория получит значимый эффект, но теперь он будет ближе к истинному - нулевому.


И вот сново мы получаем публикацию, подтверждающую эффект лекарства, но по уточненным данным он уже не такой “потрясающий”

Ну и т.д.


Самая известная история на эту тему - антидепрессант “reboxetine”. В научных публикациях было показано, что его эффективность на 50% выше чем у пустышки (плацебо). Однако вскоре выяснялось, что 74% исследований этого препарата было просто не опубликовано. А когда их учли при подсчете эффекта, то оказалось никакого эффекта и нет. Пустышки работают ничуть не хуже.


(Картинку своровал, но текст написал текст сам).

Показать полностью
35

Продолжение поста «Как статистика помогает зарабатывать репетиторам»1

Ага, похоже репетиторы мстят и минусуют. Ну что-же, мой ответ будет ужасен :)! Я раскрою главный секрет репетиторства!


В действительности вся система держится на "эффекте выжившего" (и это тоже можно отнести к статистике). Репетитор набирает человек 30, якобы занимается, однако в результате 29 пролетают с экзаменом и только 1 получает что-то приличное. (Этот один получил бы хороший результат и без репетиторства.)


Родители этого единственного "выжившего" во всю хвастаются успехами ребенка и заодно рекламируют прекрасного репетитора. Остальные 29 тихонько молчат - похвастаться нечем, ребенок даже с репетитором ничего не добился!


Вот так возникает репутация, главное побольше набрать клиентов и "эффект выжившего" сделает все остально! Когда клиентов становится много, нужно просто отбирать тех, кто и так получит хороший результат. Вот так репутация великолепного учителя закрепляется.

Как статистика помогает зарабатывать репетиторам1

Как статистика помогает зарабатывать репетиторам Образование, Урок, Студенты, Репетитор, Статистика, Демотиватор

Учитель проводит контрольную работу, затем дополнительно занимается с теми, кто получил плохую оценку и проводит для них повторную контрольную. В результате оценки становятся лучше.


Всем наверное это знакомо, но думаю не многие знают, что в этой схеме заложено небольшое статистическое жульничество - пересдача плохих оценок улучшает результат независимо от того, занимался ученик дополнительно или нет! Это чисто статистический эффект.


Дело в том, что оценка складывается из знаний и везения. Плохая оценка получается у того, кто не только плохо знает, но и кому не повезло. На повторной контрольной “невезучим” может повезти и они улучшат свои оценки при тех же знаниях!


Еще более наглядный пример - студент выучил половину билетов. Первый экзамен - не повезло, не из той половины билет попался. Пересдача и ему просто везет - нужный билет!


Интересно, что этот эффект также позволяет впаривать ученикам и студентам всякую чертовщину для успешной пересдачи. Обереги, молитвы, ритуалы, заговоры - сработает все.

Показать полностью 1
Отличная работа, все прочитано!