Проверка статистических гипотез

https://t.me/ad_research

Итак, начнём с того, что есть нулевая гипотеза (Н0). В общем смысле она гласит, что между событиями нет разницы. Например, при проверке распределения на нормальность нулевая гипотеза будет о том, что между распределением нашей выборки и нормальным разницы нет. При сравнении групп (например эксперимент vs контроль) нулевая гипотеза может быть, например в том, что между математическим ожиданиями генеральных совокупностей, откуда пришли выборки, разницы нет. Также есть альтернативная гипотеза (Н1), она прямо противоположна нулевой и говорит, что различия есть.

Проверка статистических гипотез по сути сводится к отвержению или принятию нулевой гипотезы. Мы задаём некоторые условия, при которых считаем, что верна либо Н0, либо Н1. Но всегда есть вероятность, что мы ошибёмся. Если мы отвергаем Н0 при условии, что на самом деле она верна, то мы совершаем ошибку I рода. Её вероятность называется называется уровнем значимости (α). Если мы принимаем Н0, хотя она не верна, то мы совершаем ошибку II рода, а её вероятность обозначается буквой β. Она нам ещё понадобится в разговоре про мощность критерия.

Классическая схема с ошибками I и II рода

Теперь немного о логике проверки гипотез. Сначала мы предполагаем, что нулевая гипотеза верна. Исходя из этого предположения определяется статистика критерия - это некоторая функция, отличающаяся для разных критериев. Как и любая функция, статистика может иметь разное распределение вероятностей, и для многих критериев оно стандартное нормальное или Стьюдента.

Вот так выглядит статистика классического двухвыборочного t-критерия Стьюдента

А вот так выглядит распределение статистики t. Это распределение Стьюдента и при увеличении размера выборок оно стремится к нормальному

На хвостах распределения мы находим некоторую критическую область такую, чтобы вероятность попадания в неё значения статистики не превышала уровень значимости α. Чаще всего α принимают за 0.05 или 0.01. Критическая область бывает односторонней (лево- и право-) и двухсторонней и это зависит от альтернативной гипотезы. Если мы говорим, что что-то просто отличается, не важно в большую или меньшую сторону, то используем двухстороннюю критическую область. А если мы в альтернативную гипотезу вшиваем, что, например, одна выборка заведомо больше или меньше другой, то тогда критическая область будет односторонней.

Пример двухсторонней и односторонних критических областей при α=0.05. При двухсторонней области с каждой стороны находится по половинке уровня значимости

Далее мы высчитываем значение статистики для конкретно нашей выборки. Чем оно больше, тем ближе к хвостам распределения оно будет лежать, и рано или поздно мы попадём в критическую область. И как только значение статистики будет там - мы говорим, что отвергаем нулевую гипотезу на уровне значимости α.

Различные программы выдают нам результаты расчёта статистик, но пользоваться ими не удобно, так как нам надо искать конкретные точки на оси Х, отсекаемые критической областью и сравнивать с ними. Поэтому помимо конкретного значения, рассчитывается также вероятность получения такого же или ещё большего по модулю значения статистики. И эта вероятность называется p-значением. Поскольку мы уже знаем, что в критической области вероятность значений не может превышать уровень значимости, то если наша выстраданная в эксперименте вероятность a.k.a. p-значение меньше этого уровня, то она явно будет в критической области. А если мы в критической области, то H0 отвергается. Собственно в этом и кроется суть заветного р<0.05.

Здесь немного странный пример с z-тестом, в котором α принята за 0.1, а не привычное 0.05. Но для передачи сути пойдёт. Уровень значимости отсекает часть распределения в точке z=-1.28, это критическое значение статистики. В эксперименте мы получили какие-то данные и рассчитанная по ним статистика критерия z составила -1.46. Поскольку наша статистика лежит в критической области, то мы отвергаем нулевую гипотезу. Но какие-нибудь программы чаще всего выдают нам только значение z, а z-критическое мы должны искать сами. Поэтому есть p-значение, которое по сути отсекает вероятность всех z ещё больших по модулю, чем полученное нами. Сравнивая это с нашим уровнем значимости, который и определяет критическую область, мы видим, что p-значение меньше, а значит мы отвергаем нулевую гипотезу.

Ещё раз

Если p>α, то принимаем Н0 и различий нет, если p<α, то принимаем H1 и различия есть.

И я пишу именно α, а не 0.05. Уровень значимости мы задаём сами, можем хоть единицей сделать, хотя тогда 100% совершим ошибку 1 рода. Так что все договорились, что 0.05 или на крайняк 0.01 будет ̶с̶о̶м̶н̶и̶т̶е̶л̶ь̶н̶о̶,̶ ̶н̶о̶ ок. И вот какая штука, мы сначала сами поставили границу, а потом получили, что если у нас p=0.051, то различий нет, а если р=0.049, то различия есть. Разница мизерная, а результат диаметрально противоположный. Поэтому p-значение в частности и весь описываемый в классических учебниках подход к статистике всё чаще подвергается критике и в качестве альтернативы рассматривается байесовская статистика. Особенно активно это развивается для областей, связанных с работой с большими данными и машинным обучением. Очень понравилась вот эта статья на Хабре, в котором эта проблема отражена в диалоге между байесовцем и учёным.

Теперь ты знаешь, что можно поднять уровень значимости до 0.06, если тебе нужно сказать, что различия есть или опустить до 0.01, чтобы сказать, что их нет

Тем не менее во многих областях науки от p-значения уйдут ещё не скоро, так что в следующих постах я расскажу о том, что делать если p>0.05 и почему p<0.05 не всегда повод для радости.

Проверка статистических гипотез

Report Page