Корреляционная зависимость корреляционная таблица

Корреляционная зависимость корреляционная таблица

Корреляционная зависимость корреляционная таблица

Корреляционная таблица



=== Скачать файл ===




















Корреляционный анализ и регрессионный анализ данных. Корреляционный анализ — это совокупность методов обнаружения так называемой корреляционной зависимости между случайными величинами. Для двух случайных величин Х и Y корреляционный анализ состоит из следующих этапов: Рассмотрим подробнее каждый из указанных этапов. Корреляционное поле и корреляционная таблица являются исходными данными при корреляционном анализе. Пусть , , — результаты парных наблюдений над случайными величинами Х и Y. Изображая полученные результаты в виде точек в декартовой системе координат, получим корреляционное поле. По характеру расположения точек поля можно составить предварительное представление о форме зависимости случайных величин например, о том, что одна из них в среднем возрастает или убывает с возрастанием другой. Исследование зависимости между среднемесячными доходами X на семью в тыс. Построить корреляционное поле и сделать предварительный вывод о форме зависимости случайных величин. Корреляционное поле, построенное по статистическим данным, приведено на рис. При этом связь имеет положительную тенденцию, то есть с ростом переменной X наблюдается увеличение отклика Y. При большом объеме выборки результаты группируются и представляются в виде корреляционной таблицы. По 20 туристическим фирмам были установлены затраты X на рекламу и количества туристов Y , воспользовавшихся услугами каждой фирмы. В таблице фирмы ранжированы по величине затрат на рекламу: Построить корреляционную таблицу и сделать предварительный вывод о форме зависимости случайных величин. Исходные данные, ранжированные по величине затрат на рекламу, уже могут быть использованы при ответе на вопрос о наличии или отсутствии корреляционной связи. Этот простейший прием обнаружения связи называется сопоставлением двух параллельных рядов. Согласно этому элементарному приему, значения факторного признака X располагают в неубывающем порядке и затем прослеживают направление изменения результативного признака Y. По таблице можно видеть, что в целом для всей совокупности фирм увеличение затрат на рекламу приводит к увеличению количества туристов, пользующихся услугами фирмы. Хотя в отдельных случаях наличие такой зависимости может не усматриваться. Например, сопоставим данные по фирмам с порядковыми номерами 7 и Здесь можно увидеть даже обратное соотношение: В каждом отдельном случае количество туристов, воспользовавшихся услугами фирмы, будет зависеть не только от размера затрат фирмы на рекламу, но и от того, как сложатся прочие факторы, определяющие величину результативного признака. Однако наличие большого числа различных значений результативного признака, соответствующих одному и тому же значению признака-фактора, затрудняет восприятие таких параллельных рядов. Особенно это сказывается при большом числе единиц, составляющих изучаемую совокупность. В таких случаях целесообразнее воспользоваться для установления факта наличия связи корреляционной таблицей. Построение корреляционной таблицы начинают с группировки значений факторного и результативного признаков. Поскольку в приводимом примере факторный признак представлен всего пятью вариантами повторяющихся значений, достаточно в первом столбце корреляционной таблицы выписать эти результаты. Для результативного признака необходимо определить величину интервала группировки. Это можно сделать с помощью формулы Стержэсса: В корреляционной таблице факторный признак X , как правило, располагают в строках, а результативный признак Y — в столбцах таблицы. Числа, расположенные на пересечении строк и столбцов таблицы, означают частоту повторения данного значения X и Y: Данная корреляционная таблица уже при общем знакомстве дает возможность выдвинуть предположение о наличии или отсутствии связи, а также выяснить ее направление. Если же частоты расположены по диагонали из правого верхнего угла в левый нижний, то предполагают наличие обратной связи между признаками. Необходимо подчеркнуть, что при рассмотрении корреляционной таблицы важно установить расположение основной части частот. Возможны варианты, когда все клетки корреляционной таблицы окажутся заполненными. Однако это обстоятельство еще не означает, что корреляционная связь между признаками отсутствует. Нужно установить, как расположена в таблице основная масса частот. Так, в рассматриваемом примере среднее число туристов для первой группы, состоящей из трех фирм, которые тратят на рекламу 8 усл. Для следующей группы, состоящей из пяти фирм, у которых затраты на рекламу 9 усл. Итак, увеличение средних значений результативного признака с увеличением значений факторного признака еще раз свидетельствует о возможном наличии прямой корреляционной зависимости числа туристов, воспользовавшихся услугами фирмы, от затрат фирмы на рекламу. Корреляционная таблица позволяет сжато, компактно изложить материал. Поэтому все последующие расчеты можно вести по корреляционной таблице. Для простой негруппированной выборки формулы 6. В частности, для любой выборки. Однако значимость такой зависимости должна быть. Проверка гипотезы о наличии корреляции осуществляется следующим образом. Основная гипотеза — отсутствие линейной статистической связи ; альтернативной гипотезой может выступать любая из трех возможных. В тех случаях, когда справедливо предположение о нормальном распределении двумерного генерального вектора , подходящей статистикой для проверки основной гипотезы является статистика Стъюдента. В таблице представлены результаты измерений роста Х см и веса Y кг 50 мужчин — слушателей военной академии: Вычислить выборочный коэффициент корреляции и проверить гипотезу о значимости корреляционной связи. По формулам группированной выборки вычисляем средние. Далее, используя формулы 6. Наконец, по формуле 6. Проверим значимость коэффициента корреляции при двусторонней альтернативе и. Из таблицы распределения Стъюдента находим квантиль. Выборочное значение статистики Z равно: Несколько обескураживающий результат предыдущего примера отвергнута при достаточно малом значении r объясняется сильной зависимостью статистики Стъюдента от объема выборки n. В следующем параграфе при анализе регрессии будет показано, что линейная связь может оказаться значимой и при малых значениях коэффициента корреляции r. Однако для получения надежных выводов при использовании статистики Z следует иметь более наблюдений. Менее чувствительной к объему выборки является статистика U , основанная на преобразовании Фишера: Стандартизуя V , получим подходящую статистику Фишера: Проведены парные измерения производительности труда Y в зависимости от уровня механизации работ X для 28 промышленных предприятий Московской области. В результате получен выборочный коэффициент корреляции. Решить следующие две задачи. Из таблицы нормального распределения, полагая , находим: По таблице нормального распределения находим квантиль. Зависимость между случайными величинами X и Y называется стохастической , если с изменением одной их них например, Х меняется закон распределения другой Y. В качестве примеров такой зависимости приведем зависимость веса человека Y от его роста Х , предела прочности стали Y от ее твердости Х и т. В теории вероятностей стохастическую зависимость Y от Х описывают условным математическим ожиданием: Переменная х называется регрессионной переменной или регрессором. Кривые регрессии обладают следующим свойством: На практике это используется для прогноза Y по Х: Наиболее простым является случай, когда регрессия Y на x линейна: В таком случае, речь может идти лишь о каком либо приближении к теоретической кривой регрессии, построенном на основе выборочных данных. Другими словами, задача заключается в подборе подходящей функциональной зависимости, наилучшим образом в некотором статистическом смысле приближающей стохастическую зависимость. Если вид функциональной зависимости зафиксирован, то статистическую модель регрессии можно записать следующим образом: При исследовании качества построения модели важно уметь разделять эти ошибки. Поскольку уровень шума определяется дисперсией , то задача состоит в подборе параметров , которые минимизируют. В действительности минимизируется не сама дисперсия она неизвестна , а ее выборочная оценка, которая, как будет показано ниже, пропорциональна сумме квадратов отклонений по оси Оу кривой регрессии от соответствующих выборочных значений , то есть пропорциональна величине. Основанием для выбора критерия МНК служит следующая теорема. Заметим, что по условию теоремы. Из этого выражения следует, что. На практике ошибки измерений часто удовлетворяют поставленным в теореме условиям в силу центральной предельной теоремы. Регрессионный анализ проводится в три этапа. На первом этапе по характеру корреляционного поля выдвигают гипотезу о виде функциональной зависимости. Довольно часто используют следующее представление для функции: Такая модель регрессии называется линейной по параметрам. В частном случае, когда , модель называется полиномиальной. На втором этапе по имеющимся выборочным данным осуществляют подгонку модели, то есть находят МНК-оценки неизвестных параметров регрессии. На третьем этапе анализируют качество построения модели: Этот этап осуществляется средствами проверки статистических гипотез. Построение прямой регрессии Y на x. Пусть получена выборка , , из двумерного распределения. Корреляционный анализ показал, что корреляционная связь Y на x значима на некотором уровне. Выдвигается гипотеза о том, что уравнение прямой регрессии. Найти МНК-оценки параметров а и b. Пусть задан план эксперимента, то есть совокупность точек. Выбор этих точек — отдельная задача, решаемая в рамках теории оптимального планирования эксперимента и на данном этапе не обсуждается. Искомые оценки являются решениями следующей задачи минимизации: Применим классический метод поиска безусловного экстремума дифференцируемой функции. Запишем необходимые условия экстремума: Получаем следующую систему линейных алгебраических уравнений для неизвестных значений а и b: Деля обе части на n и вводя обычные обозначения для выборочных характеристик случайного вектора , приводим данную систему к виду. Решение системы 2 , как нетрудно убедиться, имеет вид: Уравнение линейной регрессии приобретает вид: Заметим, что полученное уравнение аналогично теоретическому уравнению регрессии, если заметить все входящие в него вероятностные моменты соответствующими выборочными оценками в соответствии с методом подстановки. Формулируется следующая линейная модель дисперсионного анализа: Можно считать, что существует некоторый фактор A , имеющий l уровней, воздействие которого приводит к расщеплению всей популяции X на l подпопуляций ,. Современные приложения дисперсионного анализа охватывают широкий круг задач техники, экономики, социологии, биологии, медицины и трактуются в терминах статистической теории проверки гипотез. Если , то получается уже известная нам задача проверки гипотезы о равенстве средних двух независимых нормальных совокупностей. Напомним, что для проверки этой гипотезы использовалась статистика Стъюдента W , основанная на нормированной разности выборочных средних. Обозначим выборочное среднее i -ой выборки: Обозначим через сумму квадратов отклонений результатов наблюдений от общего среднего. Идея ее построения основана на разбиении суммы квадратов: Покажем, как получается это разбиение. Далее обе части равенства необходимо просуммировать сначала по k от 1 до , затем по i от 1 до l. Учтем, что согласно 1: Выражение для этих сумм можно преобразовать к виду более удобному для вычислений: Из этой теоремы и теоремы Фишера следует, что статистика. Нетрудно убедиться, что F является подходящей статистикой для проверки гипотезы. Поэтому , что приводит к событию. Три группы водителей обучались по различным методикам. По окончанию срока обучения был произведен тестовый контроль над случайно отобранными водителями из каждой группы. Результаты контроля сведены в следующую таблицу: По формуле 2 вычисляем тотальное среднее выборки: Далее по формулам 3 и 4 находим ,. По таблице квантилей распределения Фишера находим критическую область. Корреляционный анализ и регрессионный анализ данных 6. Корреляционный анализ Корреляционный анализ — это совокупность методов обнаружения так называемой корреляционной зависимости между случайными величинами. X 4,8 3,8 5,4 4,2 3,4 4,6 3,4 4,8 5,0 3,8 5,2 4,0 3,8 4,6 4,4 Y 75 68 78 71 64 73 66 75 75 65 77 69 67 72 Порядковый номер фирмы Затраты на рекламу, усл. Количество туристов, воспользовавшихся услугами фирмы, чел. Затраты на рекламу, усл. Середина j -го интервала по Y.

900 мл сколько литров

Место словарь даля

Как называется приложение где кошачьи ушки

Где продать трубу

Сколько грамм в луке

Суз 10 причина перегрузки

Где производится рав 4

Уголовно процессуальный кодекс украины 2014

Современная история футбола

Report Page