Вы, видимо, врете? - Нет, я не вру, это статистический факт

Вы, видимо, врете? - Нет, я не вру, это статистический факт

Связи решают все


Поговорим немного про то, как вводят в заблуждение стараясь нарисовать эффектные графики или продемонстрировать какую-то шокирующую новость с помощью статистики. Посмотрим, какими инструментами стоит вооружиться, чтобы видеть, что вам пытаются внушить

Выборка необъективна

в 1924г. в журнале Time опубликовали, что средний выпускник Йельского университета зарабатывает 25.111$ в год. 

Вроде бы логично да? Элитный университет, выпускник такого наверняка должен столько зарабатывать, верно? Конечно не верно. 

Самое первое, на что стоит обратить внимание в таких заявлениях это то, насколько изначально была объективна выборка? 

То есть, мы знаем, что эти цифры были составлены на основе цифр, озвученных самими выпускниками, но тут есть нюансы

1. Сколько выпускников от изначального количества ответили на такую анкету? 5-10%, и сильно сомневаюсь что на анкету захотели отвечать выпускники, которые еще сидят на пособии по безработице. 

2. Можем ли мы верить цифрам, озвученным самими выпускниками, они ведь могут как завышать(привет социальному одобрению) так и занижать цифры(привет налоговой)


Аналогично можно воспринять заявления психиатра о том, что все люди являются неврастениками. 

Давайте проанализируем это заявление и посмотрим на основе какой выборке он так решил? И что окажется? А то,что он так решил на основе своих пациентов. Но подождите, у него ведь изначально не самые простые люди, а люди, с некоторыми психическими проблемами. И вот на выходе у нас заявление опять же с необъективной выборкой. 

Так, что всякий раз как вам встречается заявление, что 67% россиян против чего-то или за что-то, спросите себя, 67% каких именно россиян? Сколько человек было исследовано-то? 10?

Грамотно выбранное среднее. 

Есть три вида средних показателей:

1. Среднее арифметическое: про это мы мы все знаем, складываем элементы и делим суммы на кол-во элементов.

Есть более достоверное среднее арифметическое - это среднее усеченное: как приводит в примере Владимир Савельев в книге Статистика и котики- это если мы убираем 5-10% самых больших и маленьких котиков, и среди них считаем среднее арифметическое

2. Мода: какой элемент встречается чаще всего. К примеру, если у нас есть набор из 3 4 5 3 3 3 3 4 5 то тут средне будет 3, потому что эта цифра встречается чаще всего. 

3. Медиана: упорядочить цифры от маленькой до большой, и посмотреть на середину ряда: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11 - тут средним будет 5, потому что находится по центру и делит два множества пополам


Вы можете спросить, а зачем нужны все эти средние, есть они плюс минус одинаковые. Проблема в том, что они одинаковые(более или менее) только для чисел и значений небольших, как приведены выше. Однако если вы хотите узнать средний, например, доход в каком-то городе. Тогда ситуация усложняется. 

Если вам известно, что у блогера Сергея доход - 50.000$, у продавщицы в Пятерочке Любы - 5000, а у дизайнера Гриши - 12000. То тогда расчет по среднему арифметическому даст нам неправильный результат, потому что 50.000 явно выше соседних и исказит среднее.

Когда вам говорят, что в какой-то компании средняя зарплата Х, это может означать, что там есть 1-2 человека, получающих значительно больше остальных, за счет чего среднее просто поднимается(как с 50.000, что зарабатывает модный блогер Сергей) и вы идете окрыленный работать в эту компанию, не подозревая, какое именно среднее имелось в виду. В среднем, лучше опираться на среднюю величину по медиане, так мы увидим средний ряд. Также важно понимать какой процент(то есть сколько людей получают зарплату 10.000, а сколько 50.000) составляет ваше среднее - тут на помощь и придет мода

Итог: каждый раз, как видите, что кто-то нашел некое среднее число, поинтересуйтесь какое именно среднее имелось в виду и посмотрите на основании чего находилось это среднее. 


Много шума практически из ничего

Каждый раз как вы видите проценты не поленитесь поинтересоваться, а собственно сколько человек в реальном выражении это? 

Если было всего 20 человек, из которых 10 показали что-то значительное(к примеру бегают очень быстро), то громкие заголовки большими буквами будут тиражировать новость, что дескать 50% людей бегают очень быстро. Но ведь это было всего лишь на 20 людях. Что возвращает нас к выборке.


График лучше не бывает.

Графики довольно распространенный способ интерпретирования информации в удобном виде, но вот незадача, их часто преукрашают для красивой отчетности или создания эффекта. 

Давайте на примере

на графике интерпретирована информация в том виде, в каком и должна быть. 

Но мы ведь хотим приукрасить положение, поэтому теперь возьмем и отрежем часть графика:


Цифры те же, кривая та же, но выглядит совершенно иначе, потому что график должен начинаться с нуля, стоит запомнить этот момент. Потому что тут график визуально дает понять, что кривая пряма растет на глазах. (кстати, буквально на глазах человечка на графике)


Можно пойти еще дальше и просто изменить единицу измерения денег

и о чудо, график просто летит вверх. 


 Псевдообоснованная цифра

Часто может услышать заявления в рекламе, что данная соковыжималка выжимает на 26% больше сока. Хм, хорошо, вроде я хочу выжать больше сока и она мне подходит, но интересно, а больше на 26% чем что? И снизу будет написано мелким шрифтом(если вообще будет), что по сравнению со старой ручной соковыжималкой 1976г. Вау, как круто! Это ведь как любая соковыжималка сегодня.

Еще заметил, очень частое манипулирование данными, когда в категории было/стало демонстрируют колоссальные изменения. При внимательном изучении оказывается, что фотография до сделана при худшем освещении, человек сам на ней не улыбается, а на фотографии после, и свет нужно выставили и человека попросили улыбнуться и фото обработали и о чудо, фото после и до просто небо и земля.

Часто таким грешат обещания курсов для похудения. Правда им стоит добавить, что их подопечные не только потеряют вес, а еще научатся улыбаться на фото после, изменят одежду на более красивую и смогут правильно выставлять свет. Вроде бы выгодно выходит, и вес теряете(но это не точно) и еще комбо набор для лучшего фото после в придачу.


После этого не значит по причине этого.

Наверное, одна из самых часто допускаемых ошибок, когда говорят что событие Х причина явления У.

Не предполагая, что между этими величинами есть еще какое-то неучтенное событие или упускается случайность.

К примеру, если некто наблюдал как черная кошка переходит ему дорогу и после этого он разбил себе тарелку.

Он заключает - "Эх, ну это точно из-за черной кошки, она ведь перешла мне сегодня дорогу"

Да, замечательно, а еще те, кто пьют воду - умирают. Или любой убийца пил воду. Давайте же теперь сделаем вывод, что вода - это убийца. Нелепо ведь

Поэтому, каждый раз, как вам преподносят, что одно явление стало причиной другого поинтересуйтесь действительно ли там причинно-следственная связь или просто корреляция(когда не учли 3 факторы или сам фактор случайности или вовсе не понятно что причина, а что следствие)


Вывод.

Обобщив все сказанное можно свести все к 2 положением.

  1. Кто это говорит? Заинтересованное ли это лицо, каким средним оперируют(если ничего не сказано, скорее всего арифметическим, тогда стоит изучить из чего оно складывалось, возможно там есть гиганты, которые исказили данные(как в случае с большой зарплатой)) тут две скобки, потому что одна скобка внутри другой, а не то что вы подумали
  2. Откуда это известно? Имеет ли место причинно-следственная связь или простая корреляция, не происходит ли подмены понятий? Как много людей было протестировано?

Приведу пример, взятый из книги Как лгать при помощи статистики:

Давно, когда Университет Джона Хопкинса только начал принимать девушек, опубликовали "статистику": Оказывается 33 1/3% студентов университета вышли замуж за преподавателей. Какой ужас, можно подумать, если не посмотреть что скрывается за таким заявлением и увидеть, что на тот момент были три девушки-студентки, и одна из них действительно вышла замуж за преподавателя


Источники, на основе которых готовилась информация

Книги:

  1. Как лгать при помощи статистики. Дарелл Хафф
  2. Статистика и котики. Владимир Савельев



Report Page