Введение

Богдан верни деньги

В сообществе прогнозирования временных рядов существует устоявшийся консенсус: сложные методы не обязательно производят более простые прогнозы, чем более простые методы. Это заключение было сделано на состоявшемся в 1999 году Makridakis and Hibon, 2000.
Таким образом, сложные методы часто плохо рассматриваются в данной области, и это особенно верно для нейронных сетей (NN) и других методов машинного обучения (ML). В частности, AutomatANN, единственный вариант NN, который участвовал в M3, не мог превзойти статистические подходы, которые в основном возглавляли рейтинг. NN также не показали хороших результатов в последующих испытания, например в испытаниях по прогнозированию NN3 и NN5, которые проводились специально для методов ML. В испытании NN3 (Crone et al., 2011) только один участвующий метод ML смог превзойти экспоненциальное сглаживание демпфированного тренда, и ни один из методов не смог превзойти метод Тета, который эквивалентен простому экспоненциальному сглаживанию с дрейфом (Hyndman and Billah, 2003). Оба эти метода являются относительно простыми стандартными методами прогнозирования временных рядов. Тем не менее, за последние два десятилетия были разработаны многочисленные достижения в раскрытии истинного потенциала РНН для прогнозирования временных рядов. Последние разработки были в основном связаны с методами предварительной обработки, такими как десезонализация и детрендинг, чтобы дополнить процесс обучения NN, и новыми архитектурами NN, такими как рекуррентные нейронные сети (RNN), сети эхо-состояния (ESN), обобщенные регрессионные нейронные сети (GRNN) и ансамблевые архитектуры для поднятия ограничения обычной архитектуры NN (*большое перечисление имён*). Кроме того, тщательный выбор параметров сети с правильным выбором архитектуры моделей доказал, что в настоящее время NN могут стать сильной альтернативой традиционным методам статистического прогнозирования.
Хотя некоторые работы показали, что NN могут быть конкурентоспособными даже в ситуациях, когда доступно мало данных, они обычно реализуют весь свой потенциал в ситуациях с большим количеством данных. Из коротких отдельных серий количество извлекаемой информации ограничено. В такой ситуации более простые модели, не чувствительные к шуму и имеющие разумные предварительные предположения о данных, обычно работают хорошо. Сложные модели, напротив, могут не иметь достаточного количества данных для надежной подгонки их параметров, и без надлежащей регуляризации они могут быть перегружены, могут соответствовать случайному шуму в данных обучения. С другой стороны, когда доступно больше данных, можно достоверно оценить больше параметров модели, прежние предположения о данных становятся менее важными, а более сложные комплексные модели можно оценивать, не подвергаясь перегрузке. С появлением большего количества данных также становится более четким различие между сигналом и шумом, и простые модели не смогут приспособиться к сложным сигналам. В непараметрических методах, таких как NZ, количество параметров модели и их сложность могут быть увеличены, когда количество доступных данных, соответственно, увеличится. Таким образом, когда их сложность модели контролируется адекватно, они подходят для обеих ситуаций, хотя в ситуациях с меньшим количеством данных они испытывают сильную конкуренцию из более простых, более специализированных моделей, которые делают разумные предварительные предположения относительно данных, и моделирование предшествующего знания и сложности модели должно выполняться осторожно. Особенность прогнозирования временных рядов заключается в том, что эти соображения часто даже сохраняются, если во временных рядах доступны большие объемы данных. The distant past (хз что это), как правило, менее полезно для прогнозирования, поскольку базовые модели и взаимосвязи тем временем изменятся, поэтому объем данных с соответствующими характеристиками для прогнозирования все еще ограничен.

Таким образом, распространенное мнение состоит в том, что, если базовый временной ряд не является очень длинным и является частью очень стабильной системы, NN не смогут существенно превзойти более простые модели, так как у них не будет достаточно данных для подбора сложных моделей, или они не будут обрабатывать нестационарность в данных адекватно. Эти общие рассмотрения из одномерного контекста временных рядов также не легко меняются с появлением "Big Data", где многие компании в настоящее время собирают все большие объемы данных для повседневного функционирования своего бизнеса — например, для измерения производительности сервера в компьютерных центрах. Это связано с тем, что в контексте временного ряда наличие большего количества данных обычно не означает, что изолированные серии изменяются или содержат больше данных, к примеру, что они длиннее или имеют более высокую частоту дискретизации, так как они определяются приложением, а не возможностями захвата и хранения. Вместо этого это означает, что доступно большое количество схожий серий.

Таким образом, несмотря на то, что большие базы данных являются естественным вкладом в прогнозирование, предоставляя огромное количество данных, современные методы прогнозирования временных рядов еще не раскрыли их истинный потенциал. Это происходит главным образом потому, что традиционные методы одномерного прогнозирования обрабатывают каждый ряд отдельно и прогнозируют каждый ряд изолированно. Таким образом, прогнозирование временных рядов в этих областях с использованием традиционных однофакторных процедур прогнозирования оставляет большой потенциал для создания более точных прогнозов, поскольку для каждого временного ряда создается отдельная модель, и информация из других рядов не учитывается.

Здесь конкурентное преимущество разворачивается в моделях прогнозирования, которые можно обучать глобально во всех сериях, где традиционные методы однофакторного прогнозирования, такие как ETS, ARIMA, Theta и другие не могут быть использованы. Чтобы использовать сходства между связанными временными рядами, были введены методы для построения глобальных моделей по наборам временных рядов. Например, Hartmann и другие в 2015 году вводят регрессионную модель поперечного сечения для наборов связанных временных рядов, наблюдаемых в один и тот же период времени, чтобы смягчить присутствие пропущенных значений в отдельных временных рядах. Также Trapero и другие в 2015 году используют объединенную регрессионную модель путем объединения наборов связанных временных рядов для получения надежных рекламных прогнозов в отсутствие данных о продажах. Однако свойства аппроксимации универсальной функции, то есть способность оценивать линейные и нелинейные функции, наряду с большими количествами данных временных рядов, доступных при экспонировании больших данных, позиционируют NN как идеальных кандидатов для использования информации, рассредоточенной по многим временным рядам.

RNN, и в частности сети с короткой кратковременной памятью (LSTM), становятся все более популярными, чтобы восполнить этот пробел. Они естественным образом подходят для моделирования задач, требующих захвата зависимостей в последовательном контексте, и способны сохранять сведения в процессе выполнения последующих задач. В результате RNN широко используются в таких областях, как обработка естественного языка (Mikolov et al., 2010), машинный перевод (Sutskever et al., 2014) и распознавание речи (Graves et al., 2013), а также набирает популярность в исследованиях временных рядов (Fei and Yeung, 2015; Paw lowski andKurach, 2015; Lipton et al., 2015; Zimmermann et al., 2012).В последнее время они доказали свою высокую конкурентоспособность в работе Smyl (2016), которая представила алгоритм, который смог выиграть конкурс прогнозирования CIF2016 для ежемесячных временных рядов (ˇStˇepniˇcka and Burda, 2016), опережая современные одномерные алгоритмы такие как ETS (Hyndman et al., 2008), BaggedETS (Bergmeir et al., 2016), Theta (Hyndman and Billah, 2003) и ARIMA (Box et al., 2015).

При построении таких глобальных моделей для базы данных временных рядов теперь возникает проблема, заключающаяся в том, что эти глобальные модели потенциально обучаются по разным рядам, что может плохо сказаться на общей точности. Мы предлагаем преодолеть этот недостаток, создав отдельные модели для подгрупп временных рядов. Группировка может быть основана на дополнительных доступных знаниях о домене или, в отсутствие такой естественной группировки, на полностью автоматическом механизме, который работает с базами данных временных рядов в целом и учитывает различия в наборе временных рядов. Предложенная методология может быть обобщена на любой вариант RNN, такой как LSTM, Gated Recurrent Units (GRU) и другие. Для оценки нашей методологии мы используем LSTM, многообещающий вариант RNN, который активно используется в парадигме моделирования последовательностей. В частности, мы предлагаем дополнить исходную схему прогнозирования RNN, разработанную Smyl и Kuber (2016), схемой кластеризации временных рядов, которая расширяет возможности базового алгоритма RNN, используя сходства между временными рядами.

В частности, предлагаемый нами метод первоначально обнаруживает кластеры аналогичных рядов из общего набора временных рядов в качестве шага дополнения для использования сходства между ними. Мы предлагаем подход кластеризации, использующий набор интерпретируемых признаков временных рядов для получения значимых кластеров. Во-первых, мы извлекаем соответствующие особенности из временных рядов по методу, предложенному Hyndman и другими в 2015 году. Затем алгоритм извлечения «Snob» (смешанная модель, основанная на концепции минимальной длины сообщения), представленная Уоллесом и Доу в 2000 году, применяется к извлеченному вектору признаков для получения кластеров. Как только мы различаем временные ряды на основе их свойств, для каждого кластера временных рядов мы строим отдельную прогнозирующую модель RNN. Мы стабилизируем вариативность ряда, а затем обрабатываем сезонность с помощью двухэтапного подхода, включающего детерминированную десезонализацию ряда и сезонные "лаги/запаздывания". Тенденция обрабатывается методом нормализации окна. Наши результаты показывают, что предварительная подгруппировка временных рядов способна улучшить производительность базовой модели RNN во многих ситуациях.

Оставшаяся часть теста организована следующим образом: в разделе 2 мы предоставляем краткий обзор эволюции нейронных сетей в прогнозировании временных рядов и обзор подходов кластеризации временных рядов. В разделе 3 мы подробно обсудим предложенную методологию. Раздел 4 представляет экспериментальную установку и результаты, а раздел 5 завершает работу.

Введение

Report Page