Предсказания по-математишному

Елизавета Иванова

Часто мы видим какие-либо закономерности в процессах происходящих вокруг. То, что летом возрастает спрос на тапки / плавки / мороженое — вроде бы очевидно. Такие предсказания не требуют какой-то изощренной умственной работы. Человеческий гений, однако, в стремлении формализовать и автоматизировать всё и вся придумал кучу методов, как эти закономерности изучать (как обгадиться на пустом месте, конечно же, тоже). Об этом сегодня речь и пойдёт.

Пример стохастического моделирования будущего.

К примеру, мы хотим понять, от чего зависит стоимость квартир в городе. Так, ключевыми параметрами, объясняющими большую часть цены, будут количество комнат в квартире, качество отделки, возраст и тип многоквартирного дома, район, доступность различных общественных благ, а-ля метро, автобусные остановки, школы и тп.

Для предсказания цены мы можем построить модель, которая учитывает все перечисленные параметры, и для каждого отдельного набора значений этих параметров выдает конкретную оценку цены квартиры. Для обывателя модель — чёрный ящик, в который мы вводим данные, и получаем результат. Как калькулятор: вбиваем сложное выражение и получаем результат. Что внутри — для обывателя неважно (в принципе, таро — тоже своего рода модель). Мы однако заглянем немного закулисы вычислений чтобы понять, в какой именно момент всё идёт по матушке-родимой.

Вид модели определяется в зависимости от имеющихся данных. Чаще всего это просто взвешенная сумма различных числовых характеристик модели. Например, (так может выглядеть обычная регрессионная модель):

стоимость-аренды-квартиры = А * число-комнат + Б * время-до-метро-в-минутах-пешком + В * возраст-дома

(Для тех, кто помнит богомерзкую математику)
объясняемые-параметры = функция(объясняющие-параметры)

Тут числа А, Б и В определяются в зависимости от того, какие данные мы рассматриваем. Есть строгая математическая теория в которой описывается, как можно подбирать эти числа, но сейчас не будем об этом.

Линейную регрессию и похожие модели любят в математике. Они наглядны, а также очень хорошо изучены. К тому же, если призадуматься, то они затрагивают большой класс математических моделей. (Вопрос на подумать для тех, кто помнит 10-11 класс алгебры: если у нас есть один параметр, и мы доподлинно знаем, что зависимость объясняемой переменной от параметра полиномиальная (пример: x = А * t * t + Б * t + В), то как мы можем свести задачу к построению линейной регрессионной модели?)

Данные однако могут зависеть не только от каких-то внешних параметров, но и друг от друга. В частности, от того, в каком порядке мы на них смотрим. Обратимся к другому примеру. Допустим, мы хотим предсказывать спрос на продажу мороженного мороженого (хочу мороженку!). Логично предположить, что спрос на него зависит не только от температуры за окном, погоды, но и от времени года в целом. Если мы учтём и такие нюансы, то наша модель может стать гораздо точнее. Модели, где прослеживается явная зависимость от времени, называются (сюрприз-сюрприз) временными рядами.

Хорошо но почему тогда бы не ввести время наблюдения как отдельный параметр? Если коротко, то такие временные зависимости, как правило, бывают очень сложными. В примере с мороженым, можно ожидать как очевидного скачка летом, так и менее очевидных колебаний спроса зависящих от праздников по всему году (как прекрасно батониться с мороженым на пузе перед телеком в новогодние праздники) или усталости людей от мороженого (к августу уже приедается). Причём такие тренды вполне могут и не быть привязанными строго к какой-то дате.

Но как по другому можно уловить такие зависимости? Можно сгруппировать наблюдения по отдельным промежуткам времени и смотреть на то, как вела себя объясняемый параметр (спрос в примере с мороженкой) в предыдущие моменты времени!

К примеру, измерять, сколько продано мороженого в день (всё ещё хочу мороженое!), а также другие параметры, такие как погоду и температуру воздуха, и это всё учитывать в построении зависимостей. Так, используя различные подходы к группировке, можно будет говорить о различных зависимостях. К примеру, можно попытаться построить подобную модель:

число-купивших-мороженку = А * температура-воздуха + Б * число-осадков + Т1 * число-купивших-вчера + Т2 * число-купивших-позавчера + …

Параметры А, Б, Т1, Т2, … определяются в зависимости от имеющихся данных с помощью жуткой математики.

Однако, если наблюдений много, то учитывать их всех в модели нет смысла: модель получится слишком большой. В зависимости от задачи можно попытаться выделить долгие тенденции. К примеру то, что спрос на мороженку зависит от времени года. Такие зависимости, как правило, определяются для каждой задачи отдельно экспертами. Они либо очевидны, либо слишком сложны. Математика тут вряд ли поможет, так как в данных слишком много неопределенности на больших промежутках времени.

Недобросовестные студенты всё подряд пытаются притянуть за уши линейной регрессией. Это плохой подход. Регрессия — не панацея. Не будьте, пожалуйста, как недобросовестные студенты.

Тренды, метод скользящего среднего:

Зато математикам есть, что предложить, если рассматривать небольшие промежутки времени. Для этого есть несколько подходов. Один из них — использовать для предсказания какие-то значения в близкие моменты времени, как параметры. Он был продемонстрирован выше на примере с мороженкой.

Другой — чуть сложнее. Его идея состоит в том, чтобы использовать не просто значения объясняемого параметра в предыдущие дни, а рассмотреть их усредненные значения. Это нужно, чтобы уменьшить влияние фактора случайности в данных, и попытаться найти закономерности на различных промежутках времени. Графически это можно представить как “сглаживание” кривой.

Метод, когда мы получаем новые параметры, усреднением некоторого числа известных значений объясняемых параметров называется методом скользящего среднего. Благодаря своей простоте и эффективности этот метод приобрёл очень большую популярность. Мы как будто скользим небольшим окошком по данным и усредняем всё, что в него попадает.

К примеру, у нас есть измерения спроса на мороженое (сколько мы кило «Коровки из Кореновки» продали) за 5 предыдущих дней. По этим измерениям мы с помощью метода скользящего среднего можем сконструировать еще 3 признака, отражающих средний спрос на мороженное. Возьмём первые три измерения и усредним результат. Затем три измерения начиная со второго, а потом и с третьего. Так получим три новых признака, где отклонение от среднего существенно ниже.

Эффект Слуцкого-Юла:

Однако за все удобства приходится платить. В частности, одним из главных пороков метода скользящего среднего является искусственное конструирование ложных периодических взаимосвязей в данных.

Это называется эффектом Слуцкого-Юла (по имени ученых, его изучавших).

Ложные тренды возникают, если данные, по которым происходит усреднение, пересекаются. Так, в свободном от тренда ряду могут возникнуть колебания, обусловленные этим эффектом. “Пики” и “ямы” в нашей новой искусственной зависимости не всегда появляются через равные временные интервалы, как у таких элементарных периодических функций, как синус или косинус. Амплитуда колебаний также может быть самой разнообразной. Поэтому то, как такие тренды выявлять — сложный вопрос, которому посвящено немало передовых исследований в области статистики и математической физики.

Очевидной проблемой, непосредственно вытекающей из этого является повышенная вероятность исхода, когда модель на тренировочных данных хорошо работает, а на практике не очень. (Мемы с подгонкой данных не на пустом месте основаны).

Поэтому какие-то серьезные тенденции объяснять с помощью метода скользящего среднего нужно очень осторожно. Усреднение по пересекающимся данным приводит к искусственным трендам. То есть к тому, что мы видим закономерности там, где их нет.

Наглядный пример области, в которой на временных рядах крутятся огромные деньги — предсказания стоимости акций, валют и прочих активов. Конечно же, такие модели — не единственный и далеко не лучший инструмент предсказания, но всё же, слишком уж они часто возникают в различных работах по данной тематике. И самое интересное, что есть уникумы, которые про эффект Слуцкого-Юла не знают, хотя и пытаются добиться чего-то скользящим средним!

То, что мы только что обсудили, а именно: изучение зависимости объясняемой переменной времени и, быть может, каких-то параметров, — принято называть анализом временных рядов. Построению подобных моделей, а также многих других по имеющимся измерениям в математике выделен целый раздел — эконометрика.

Как же приятно порой провести статистическое исследование и найти что-нибудь там, где зависимостей и в помине нет. Но не злоупотребляйте этим, пожалуйста. А то говноисследований и так много. А хороших мало. Что-ж, желаю вам провести время здорово и математично! Оревуар, котятки!

Немного оффтопа на добивочку. Есть такой подход, когда мы, имея лишь измерения на определённом маленьком промежутке времени, пытаемся заглянуть в предалёкое будущее. Называется сей процесс экстраполяцией. Так тоже можно моделировать штуки, хотя чаще всего это приводит к очень сомнительным результатам.

Предсказания по-математишному

Тренды, метод скользящего среднего:

Эффект Слуцкого-Юла:

Report Page