Checklist

Checklist

gk

Метод наименьших квадратов (МНК) стр 29-30

Основной метод в эконометрике. Идея метода заключается в следующем. Допустим, у нас есть простая модель линейной регрессии, мы имеем выборку из N наблюдений, и хотим понять, как в этой выборке наблюдаемые перемененные связаны между собой. Например, как уровень образования влияет на заработную плату. И МНК помогает нам построить график таким образом, чтобы остатки были минимальны. Остатки это разница между фактическим значением на графике, и нашим прогнозом. В данном случае наименьшие квадраты из названия модели, это про квадрат остатков.

Возведение их в квадрат гарантирует, что при суммировании положительные и отрицательные остатки не дали нам 0.

Наилучшая линейная аппроксимация стр 32

Решение МНК приводит к минимальной сумме квадратов разностей (ошибок аппроксимации).

соответствует минимальной сумме квадратов остатков.

ближе всего находится к графику

Качество подгонки данных моделью (R квадрат) стр. 304

Качество подгонки и термин хорошая подгонка, может говорить нам о том, насколько проста наша модель для интерпретации, с какой уверенностью она может предсказать новые наблюдения, и с какой точностью модель аппроксимирует наблюдаемые данные.

R-квадрат (коэффициент детерминации) это статистическая величина, которая показывает, насколько дисперсия нашей модели отличается от дисперсии реальных значений Y. Если этот коэффициент близок к 1, то условная дисперсия модели достаточно мала и весьма вероятно, что модель неплохо описывает данные. Если же коэффициент R-квадрат сильно меньше, например, меньше 0.5, то, с большой долей уверенности модель не отражает реальное положение вещей.

R-квадрат принимает значение от 0 до 1.

Стандартная ошибка стр 49, 138.198.150

Является мерой точности оценки, и показывает значимость коэффициента. Чем больше стандартная ошибка оценки параметра, тем более оцененные величины отличаются от наблюдаемых значений зависимой переменной и тем менее надежны оценки прогноза, основанные на данной функции регрессии.

Например у нас есть уравнение почасовой заработной платы среди работников, которое показывает, почасовой разности заработной платы β2 между мужчинами иженщинами равна 1,28 доллара со стандартной ошибкой 0,14


Проверка гипотез стр 57

У нас есть проверяемая гипотеза, она же нулевая гипотеза, и мы проверяем ее истинность.

P-value стр 68

P-value –вероятность, минимальный размер критерия, для которого нулевая гипотеза все еще отклонялась бы.

Мы создаем модель, в котором нулевая гипотеза, и смотрим, насколько странно выглядит наше наблюдение. И если Например, мы приходим домой, встречаем нашу собаку с крышкой на голове. Нулевая гипотеза = пес невиновен.

Доверительные интервалы стр 58

интервала всех значений для которых нулевая гипотеза не отклоняется t-критериями. Говоря не совсем точно, доверительный интервал предоставляет диапазон значений для истинного коэффициента βk , которые не являются маловероятными для имеющихся данных,то есть,при условии оценки bk и соответствующей стандартной ошибки.

Мультиколлинеарность стр 32, 81-82

Это проблема, когда в нашей модели возникает высокая корреляция среди переменных, что затрудняет поиск индивидуального воздействия каждой переменной. Например, у нас есть уравнение заработной платы и мы смотрим как на неё влияют возраст, опыт работы, время обучения. И если эти переменные высоко коррелированны между собой, это приведет к неточным оценкам.

Свойства оценок: несмещенность, состоятельность стр 45 71

Несмещенность оценки означает, что при повторных выборках мы можем ожидать, что наша оценка, в среднем, равна истинному значению вектора β .

Когда оценка вектора параметров β сходится к истинному значению, мы говорим,что она является состоятельной оценкой.

Состоятельность является так называемым свойством больших выборок и говорит, что если мы получаем все больше и больше наблюдений, то вероятность, что наша оценка является некоторым положительным числом далеким от истинного значения β , становится все меньше и меньше. Значения, которые b может принимать не вблизи β , становятся все более и более маловероятными. Во многих случаях,нельзя доказать,что оценка является несмещенной и, возможно, что никакой несмещенной оценки не существует (например, в нелинейных или динамических моделях).

В этих случаях минимальное требование к оценке, чтобы она была полезной, является состоятельность.


Оценка параметров модели линейной регрессии

Значимость коэффициентов (t stat)

Остатки модели

Остатки это разница между фактическим значением на графике, и нашим прогнозом.


оценка 82,3168 -- минимальное количество мужчин без образования не-католиков

t stat 0,142857


Если степень розовости 0, значит количество меда равно 15. Коэффициент pinkness показывает, что если pinkness увеличивается на 1, то количество меда возрастает на 15 + 3.

Если количество слез равно 0 мл, значит она не плачет 200 дней.

Report Page