Ответ на вопрос. Регрессии

Ответ на вопрос. Регрессии

August 15, 2018

Ответ: И одного, и другого.

Какой математический метод использовать, зависит от того, какие ситуации мы хотим анализировать и предугадывать. 

Рассмотрим более конкретно каждый случай.


Когда и почему линейная регрессия? 

Линейная регрессия как будто бы рисует прямую линию, которая оптимально близко проходит возле всех данных точек. Вот 2 закономерности, которые позволяют нам использовать линейную регрессию

Закономерность 1

Если посмотреть на эту картинку, игнорируя цвета, то можно увидеть закономерность, что чем больше значение х, тем меньше значение у. А значит мы можем провести прямую, которая будет примерно описывать эту закономерность, то есть сделать линейную регрессию на всех данных и всех классах сразу. (Зеленая линия)

Закономерность 2

Также 2 класса (красненький и синенький) Можно рассматривать отдельно. Даже можно провести линейную регрессию для каждого из классов отдельно. То есть, провести еще 2 линии (синяя и красная), которые будут описывать поведение каждого из этих классов по отдельности. 

Зачем все это? 

Рассмотрим синее облачко. Если, например, вместо «х» подписать ось как «количество времени, проведенного за играми на кампухтере», а ось «у» как «оценки по математике в школе», а каждая точка – это показатели отдельного ученика, то можно с помощью этой синей линии предугадывать оценки других учеников, если мы знаем, сколько часов он шпилил. Только для этого нам нужны данные (оценки детей и часы, проведенные за играми, а не какие-то абстрактные «х» да «у»). Например, за играми провел 20 часов, значит оценка скорее всего равна 3.


Когда и почему логистическая регрессия?

Теперь поговорим о закономерностях, которые позволяют нам использовать логистическую регрессию. 

Логистическая регрессия условно рисует прямую, которая разделит координатную плоскость на 2 полуплоскости. В одной полуплоскости – все или почти все члены красного класса, а в другой – синего. Да, здесь невозможно одной линией четко отгородить всех красных от синих, но нам это и не обязательно, ведь всегда есть место для небольшой статистической ошибки. Точность 95% - тоже приличная точность. А линия, которая примерно разделит наши классы в данном случае – желтенькая. И если нам нужно классифицировать ученика с оценкой 10, который играет в компьютер в среднем 5 часов, то скорее всего он относится к синему классу, потому что эта точка находится сверху над линией.

Report Page