Хи квадрат критерий

Хи квадрат критерий

Хи квадрат критерий




Скачать файл - Хи квадрат критерий





















До конца XIX века нормальное распределение считалась всеобщим законом вариации данных. Пирсон заметил, что эмпирические частоты могут сильно отличаться от нормального распределения. Встал вопрос, как это доказать. Требовалось не только графическое сопоставление, которое имеет субъективный характер, но и строгое количественное обоснование. Это произошло в далеком году, однако критерий и сегодня на ходу. Более того, его приспособили для решения широкого круга задач. Прежде всего, это анализ номинальных данных, то есть таких, которые выражаются не количеством, а принадлежностью к какой-то категории. Например, класс автомобиля, пол участника эксперимента, вид растения и т. К таким данным нельзя применять математические операции вроде сложения и умножения, для них можно только подсчитать частоты. Наблюдаемые частоты обозначим О Observed , ожидаемые — E Expected. В качестве примера возьмем результат кратного бросания игральной кости. Наблюдаемые и ожидаемые частоты запишем в таблицу и нарисуем гистограмму. Нулевая гипотеза заключается в том, что частоты согласованы, то есть фактические данные не противоречат ожидаемым. Альтернативная гипотеза — отклонения в частотах выходят за рамки случайных колебаний, то есть расхождения статистически значимы. Чтобы сделать строгий вывод, нам потребуется. Начнем с расстояния между частотами. Если взять просто разницу О - E , то такая мера будет зависеть от масштаба данных частот. В обоих случаях разница составляет Нужна относительная мера, не зависящая от масштаба. Обратим внимание на следующие факты. В общем случае количество градаций, по которым измеряются частоты, может быть гораздо больше, поэтому вероятность того, что отдельно взятое наблюдение попадет в ту или иную категорию, довольно мала. Раз так, то, распределение такой случайной величины будет подчинятся закону редких событий, известному под названием закон Пуассона. Значит, ожидаемая частота для некоторой категории номинальной переменной E i будет являться одновременное и ее дисперсией. Далее, закон Пуассона при большом количестве наблюдений стремится к нормальному. Соединяя эти два факта, получаем, что, если гипотеза о согласии наблюдаемых и ожидаемых частот верна, то, при большом количестве наблюдений , выражение. Важно помнить, что нормальность будет проявляться только при достаточно больших частотах. В статистике принято считать, что общее количество наблюдений сумма частот должна быть не менее 50 и ожидаемая частота в каждой градации должна быть не менее 5. Только в этом случае величина, показанная выше, будет иметь стандартное нормальное распределение. Предположим, что это условие выполнено. Таким образом, мы получили относительную разность в частотах для одной градации. Нам нужна обобщающая мера. Просто сложить все отклонения нельзя — получим 0 догадайтесь почему. Пирсон предложил сложить квадраты этих отклонений. Если частоты действительно соответствуют ожидаемым, то значение критерия будет относительно не большим так как большинство отклонений находится около нуля. Но если критерий оказывается большим, то это свидетельствует в пользу существенных различий между частотами. И чтобы рассчитать такую вероятность, необходимо знать распределение критерия при многократном повторении эксперимента, когда гипотеза о согласии частот верна. Как нетрудно заметить, величина хи-квадрат также зависит от количества слагаемых. Чем их больше, тем большее значение должно быть у критерия, ведь каждое слагаемое внесет свой вклад в общую сумму. Следовательно, для каждого количества независимых слагаемых, будет собственное распределение. И здесь мы подошли к одному щекотливому моменту. Что такое число независимых слагаемых? Вроде как любое слагаемое то есть отклонение независимо. Пирсон тоже так думал, но оказался неправ. На самом деле число независимых слагаемых будет на один меньше, чем количество градаций номинальной переменной n. Потому что, если мы имеем выборку, по которой уже посчитана сумма частот, то одну из частот всегда можно определить, как разность общего количества и суммой всех остальных. Отсюда и вариация будет несколько меньше. Данный факт Рональд Фишер заметил лет через 20 после разработки Пирсоном своего критерия. Даже таблицы пришлось переделывать. По этому поводу Фишер ввел в статистику новое понятие — степень свободы degrees of freedom , которое и представляет собой количество независимых слагаемых в сумме. Понятие степеней свободы имеет математическое объяснение и проявляется только в распределениях, связанных с нормальным Стьюдента, Фишера-Снедекора и сам хи-квадрат. Чтобы лучше уловить смысл степеней свободы, обратимся к физическому аналогу. Представим точку, свободно движущуюся в пространстве. Она имеет 3 степени свободы, так как может перемещаться в любом направлении трехмерного пространства. Если точка движется по какой-либо поверхности, то у нее уже две степени свободы вперед-назад, вправо-влево , хотя и продолжает находиться в трехмерном пространстве. Точка, перемещающаяся по пружине, снова находится в трехмерном пространстве, но имеет лишь одну степень свободы, так как может двигаться либо вперед, либо назад. Как видно, пространство, где находится объект, не всегда соответствует реальной свободе перемещения. Примерно также распределение статистического критерия может зависеть от меньшего количества элементов, чем нужно слагаемых для его расчета. В общем случае количество степеней свободы меньше наблюдений на число имеющихся зависимостей. Это чистая математика, никакой магии. А формальное определение критерия хи-квадрат следующее. Далее можно было бы перейти к самой формуле, по которой вычисляется функция распределения хи-квадрат, но, к счастью, все давно подсчитано за нас. Чтобы получить интересующую вероятность, можно воспользоваться либо соответствующей статистической таблицей, либо готовой функцией в специализированном ПО, которая есть даже в Excel. Интересно посмотреть, как меняется форма распределения хи-квадрат в зависимости от количества степеней свободы. С увеличением степеней свободы распределение хи-квадрат стремится к нормальному. Это объясняется действием центральной предельной теоремы, согласно которой сумма большого количества независимых случайных величин имеет нормальное распределение. Про квадраты там ничего не сказано. Вот мы и подошли к проверке гипотез по методу хи-квадрат. В целом техника остается прежней. Выдвигается нулевая гипотеза о том, что наблюдаемые частоты соответствуют ожидаемым то есть между ними нет разницы, так как они взяты из той же генеральной совокупности. Если этот так, то разброс будет относительно небольшим, в пределах случайных колебаний. Меру разброса определяют по критерию хи-квадрат. Далее либо сам критерий сравнивают с критическим значением для соответствующего уровня значимости и степеней свободы , либо, что более правильно, рассчитывают наблюдаемый p-level, то есть вероятность получить такое или еще больше значение критерия при справедливости нулевой гипотезы. Однако иногда иногда требуется проверить левостороннюю гипотезу. Например, когда эмпирические данные уж оооочень сильно похожи на теоретические. Тогда критерий может попасть в маловероятную область, но уже слева. Дело в том, что в естественных условиях, маловероятно получить частоты, практически совпадающие с теоретическими. Всегда есть некоторая случайность, которая дает погрешность. А вот если такой погрешности нет, то, возможно, данные были сфальсифицированы. Но все же обычно проверяют правостороннюю гипотезу. Вернемся к задаче с игральным кубиком. Рассчитаем по имеющимся данным значение критерия хи-квадрат. Сравним фактическое и табличное значение. Расчетный критерий оказался меньшим, значит гипотеза о равенстве согласии частот не отклоняется. На рисунке ситуация выглядит вот так. Более правильным будет рассчитать еще и p-level. Для этого нужно в таблице найти ближайшее значение для заданного количества степеней свободы и посмотреть соответствующий ему уровень значимости. Но это прошлый век. Воспользуемся ПЭВМ, в частности MS Excel. В эксель есть несколько функций, связанных с хи-квадрат. ОБР — критическое значение критерия при заданной вероятности слева как в статистических таблицах. ПХ — критическое значение критерия при заданной вероятности справа. Функция по сути дублирует предыдущую. Это более удобно, так как в большинстве случаев нужен именно правый хвост распределения. ТЕСТ — по двум заданным диапазонам частот сразу проводит тест хи-квадрат. Количество степеней свободы берется на одну меньше, чем количество частот в столбце так и должно быть , возвращая значение p-level. Давайте пока рассчитаем для нашего эксперимента критическое табличное значение для 5-ти степеней свободы и альфа 0, Формула Excel будет выглядеть так:. Результат будет одинаковым — 11, Именно это значение мы видим в таблице округленное до 1 знака после запятой. Нужна вероятность справа, поэтому берем функцию с добавкой ПХ правый хвост. Никаких таблиц, никаких громоздких расчетов. Указав в качестве аргументов функции столбцы с наблюдаемыми и ожидаемыми частотами, сразу получаем p-level. Представим теперь, что вы играете в кости с подозрительным типом. Распределение очков от 1 до 5 остается прежним, но он выкидывает 26 шестерок количество всех бросков становится P-level в этом случае оказывается 0,, что гораздо меньше чем, 0, Есть серьезные основания сомневаться в правильности игральной кости. Вот, как выглядит эта вероятность на диаграмме распределения хи-квадрат. Напоследок еще раз о важном условии! Критерий хи-квадрат исправно работает только в случае, когда количество всех частот превышает 50, а минимальное ожидаемое значение для каждой градации не меньше 5. Если в какой-либо категории ожидаемая частота менее 5, но при этом сумма всех частот превышает 50, то такую категорию объединяют с ближайшей, чтобы их общая часта превысила 5. Если это сделать невозможно, или сумма частот меньше 50, то следует использовать более точные методы проверки гипотез. О них поговорим в другой раз. Контакты ИП Езепов Дмитрий Александрович. Этот адрес электронной почты защищён от спам-ботов. У вас должен быть включен JavaScript для просмотра. Главная Методы Описание данных Индексы Группировка Проверка гипотез Многомерный статанализ Динамика и прогнозирование Тервер Управление запасами. Формулы Форматирование Работа с данными Диаграммы Трюки Сводные таблицы Power Query. Статистическая обработка данных Разработка систем управления запасами Обработка данных в Excel Реклама на сайте. Обобщающая мера расхождения между наблюдаемыми и ожидаемыми частотами. Распределение этой меры при справедливости гипотезы о том, что различий нет. Соединяя эти два факта, получаем, что, если гипотеза о согласии наблюдаемых и ожидаемых частот верна, то, при большом количестве наблюдений , выражение будет иметь стандартное нормальное распределение. Хотите еще уроки по Excel и статистике? Cтатистический анализ данных в MS Excel и R. Популярное Дисперсия, среднеквадратичное стандартное отклонение, коэффициент вариации Расчет дисперсии, среднеквадратичного стандартного отклонения, коэффициента вариации в Excel Медиана в статистике Функция Excel ВПР VLOOKUP и ГПР HLOOKUP с примерами использования Расчет средней арифметической в Excel Нормальный закон распределения - введение Мода в статистике Несколько условий в функциях MS Excel ЕСЛИ IF и УСЛОВИЯ IFS Функции округления чисел в MS Excel Цепные и базисные индексы. Материалы по теме Доверительный интервал для математического ожидания Распределение t-критерия Стьюдента для проверки гипотезы о средней и расчета доверительного интервала в MS Excel Что такое проверка статистической гипотезы? Выборочное наблюдение и проверка статистических гипотез. Меню Главная Методы Описание данных Индексы Группировка Проверка гипотез Многомерный статанализ Динамика и прогнозирование Тервер Управление запасами Excel Формулы Форматирование Работа с данными Диаграммы Трюки Сводные таблицы Power Query Скачать Бесплатно Платно Курсы Блог Заметки Книги Реклама Услуги Статистическая обработка данных Разработка систем управления запасами Обработка данных в Excel Реклама на сайте.

Препараты улучшающие лактацию

Бессемеровский способ получения стали

Понятие воля в общей психологии

Шапки ушанки связанные

Утверждение результатов соут

Бадьян можно ли беременным

Topic стих не жалей

Инструкции по охране труда для начальника цеха

Сбербанк адреса улан удэ

Причины совершения краж

Report Page