Checklist
gkМетод наименьших квадратов (МНК) стр 29-30
Основной метод в эконометрике. Идея метода заключается в следующем. Допустим, у нас есть простая модель линейной регрессии, мы имеем выборку из N наблюдений, и хотим понять, как в этой выборке наблюдаемые перемененные связаны между собой. Например, как уровень образования влияет на заработную плату. И МНК помогает нам построить график таким образом, чтобы остатки были минимальны. Остатки это разница между фактическим значением на графике, и нашим прогнозом. В данном случае наименьшие квадраты из названия модели, это про квадрат остатков.
Возведение их в квадрат гарантирует, что при суммировании положительные и отрицательные остатки не дали нам 0.
Наилучшая линейная аппроксимация стр 32
Решение МНК приводит к минимальной сумме квадратов разностей (ошибок аппроксимации).
соответствует минимальной сумме квадратов остатков.
ближе всего находится к графику
Качество подгонки данных моделью (R квадрат) стр. 304
Качество подгонки и термин хорошая подгонка, может говорить нам о том, насколько проста наша модель для интерпретации, с какой уверенностью она может предсказать новые наблюдения, и с какой точностью модель аппроксимирует наблюдаемые данные.
R-квадрат (коэффициент детерминации) это статистическая величина, которая показывает, насколько дисперсия нашей модели отличается от дисперсии реальных значений Y. Если этот коэффициент близок к 1, то условная дисперсия модели достаточно мала и весьма вероятно, что модель неплохо описывает данные. Если же коэффициент R-квадрат сильно меньше, например, меньше 0.5, то, с большой долей уверенности модель не отражает реальное положение вещей.
R-квадрат принимает значение от 0 до 1.
Стандартная ошибка стр 49, 138.198.150
Является мерой точности оценки, и показывает значимость коэффициента. Чем больше стандартная ошибка оценки параметра, тем более оцененные величины отличаются от наблюдаемых значений зависимой переменной и тем менее надежны оценки прогноза, основанные на данной функции регрессии.
Например у нас есть уравнение почасовой заработной платы среди работников, которое показывает, почасовой разности заработной платы β2 между мужчинами иженщинами равна 1,28 доллара со стандартной ошибкой 0,14
Проверка гипотез стр 57
У нас есть проверяемая гипотеза, она же нулевая гипотеза, и мы проверяем ее истинность.
P-value стр 68
P-value –вероятность, минимальный размер критерия, для которого нулевая гипотеза все еще отклонялась бы.
Мы создаем модель, в котором нулевая гипотеза, и смотрим, насколько странно выглядит наше наблюдение. И если Например, мы приходим домой, встречаем нашу собаку с крышкой на голове. Нулевая гипотеза = пес невиновен.
Доверительные интервалы стр 58
интервала всех значений для которых нулевая гипотеза не отклоняется t-критериями. Говоря не совсем точно, доверительный интервал предоставляет диапазон значений для истинного коэффициента βk , которые не являются маловероятными для имеющихся данных,то есть,при условии оценки bk и соответствующей стандартной ошибки.
Мультиколлинеарность стр 32, 81-82
Это проблема, когда в нашей модели возникает высокая корреляция среди переменных, что затрудняет поиск индивидуального воздействия каждой переменной. Например, у нас есть уравнение заработной платы и мы смотрим как на неё влияют возраст, опыт работы, время обучения. И если эти переменные высоко коррелированны между собой, это приведет к неточным оценкам.
Свойства оценок: несмещенность, состоятельность стр 45 71
Несмещенность оценки означает, что при повторных выборках мы можем ожидать, что наша оценка, в среднем, равна истинному значению вектора β .
Когда оценка вектора параметров β сходится к истинному значению, мы говорим,что она является состоятельной оценкой.
Состоятельность является так называемым свойством больших выборок и говорит, что если мы получаем все больше и больше наблюдений, то вероятность, что наша оценка является некоторым положительным числом далеким от истинного значения β , становится все меньше и меньше. Значения, которые b может принимать не вблизи β , становятся все более и более маловероятными. Во многих случаях,нельзя доказать,что оценка является несмещенной и, возможно, что никакой несмещенной оценки не существует (например, в нелинейных или динамических моделях).
В этих случаях минимальное требование к оценке, чтобы она была полезной, является состоятельность.
Оценка параметров модели линейной регрессии
Значимость коэффициентов (t stat)
Остатки модели
Остатки это разница между фактическим значением на графике, и нашим прогнозом.
оценка 82,3168 -- минимальное количество мужчин без образования не-католиков
t stat 0,142857
Если степень розовости 0, значит количество меда равно 15. Коэффициент pinkness показывает, что если pinkness увеличивается на 1, то количество меда возрастает на 15 + 3.
Если количество слез равно 0 мл, значит она не плачет 200 дней.