時系列分析入門(時系列データ・定常性)

時系列分析入門(時系列データ・定常性)

宮森望

この記事は 茨大 Advent Calendar 2019 1日目の記事でした。

時系列分析入門(時系列データ・定常性)

自己紹介と記事について

初日を飾る私は宮森望とかいう人です。茨城大学の情報工学専攻に生息しています。このAdvent Calenderに参加したきっかけは、ありがたいことに茨大 Advent Calendar 2019の企画立案者の河野くん(彼は2日目の記事の担当でもあります)が誘ってくださいました。この場を借りて感謝します。

この記事は絶賛勉強中の沖本竜義著の経済・ファイナンスデータの計量時系列分析がベースです(というかそれ以外にないです)。興味のある方はお付き合いください。

大学1年生レベルを念頭においた平易な言葉での説明にしました。それでもわかんなかったら私が悪いです。

時系列データ

時系列分析というのはある時系列データの性質を明らかにする手法や行為のことです。時系列データとは時間に沿って並んだデータのことです。例えば、毎時間の温度、毎日の体重、毎月の電気代、毎年の大学合格者数とかです。

逆に時系列データじゃないデータはクロスセクションデータといいます。例えば、全茨城大学生の身長、日立市の企業の資産とかです。これらのデータは時間に沿っていないので時系列データではありません。しかし時間の情報を付与して元のデータの形を少し変えれば時系列データに変換することは可能です。例えば、毎年の全茨城大学生の平均身長、毎月の日立市の企業の資産の分散とかです。時間というのはあらゆるデータが備えるもので時系列データというのはごく自然なものなのです。

時系列データはの記述は$\{y_t\}_{t=1}^T$のように記述します。$\{y_t\}_{t=1}^T$は時点$1$から時点$T$の間で観測したデータ$y_t$を集めたものという意味です。観測の範囲($t$の取りうる値)が明らかなときは$y_t$のように$\{\}_{t=0}^T$を省略してしまいます。$y(t)$とか、$\{(y_t,t) \mid 1 \le t \le T\}$とかも、$\{y_t\}_{t=1}^{T}$と同じ意味です。肝に命じておくことは時系列データは*時間で並んだデータの集まり*ということです

余談ですがクロスセクションデータから時系列データを作れるように時系列データから時系列データを生成することも可能です。例えば、毎月の身長の伸び率とか、毎月の収益の変化率とかです。このとき元の時系列データのことを**原系列**と呼ぶことがあります。

定常性

定常性の前に基本的な統計量である、期待値(平均)、分散、共分散についてです。時系列データの統計量もクロスセクションデータの統計量と大きく違いはありません。期待値は$\mathrm{E}[y_t]$、分散は$\mathrm{Var}[y_t]$、共分散は$\mathrm{Cov}[y_t,y_{t-k}]$と書きます。この中で共分散だけは他2つの統計量にはない$k$というパラメータを持っています。共分散の定義は次の式となります。

$$

\mathrm{Cov}[y_t,y_{t-k}] = \mathrm{E}[(y_t - \mu_t)(y_{t-k} - \mu_{t-k})] = \gamma_{k,t} \tag{1}

$$

上式において$\mu_{t-k} = \mathrm{E}[y_{t-k}]$です。$k$というのはある時点$t$からの時間差を表しています。時系列データの共分散はクロスセクションデータと違い自分自身の共分散をとるので**自己共分散**と呼ばれます。時間差が$k$のときの自己共分散は$k$次の自己共分散と呼びます。

もう1つ定常性の前に大事な話として時系列データというのは時系列データを生成した過程のある一部分であるということです。そしてこの時系列データを生成した過程に何らかの構造を仮定します。時系列データを生成した過程のことを**確率過程**または単に過程と呼び、$\{y_t\}_{t=-\infty}^{\infty}$のように表します。そして過程の構造(過程を表す数式)のことを時系列モデルまたは単にモデルといいます。確率過程にとあるモデルを仮定するのは、ある程度の仮定を置かないと次のようにどうやっても対処しようのないことがあるからです。

まず1つに私たちは未来や過去を見ることはできません。過程$\{y_t\}_{t=-\infty}^{\infty}$というのは観測可能なすべての値を表しますが、私たちは$-\infty$から$\infty$のすべてを実際に見ることはできません(一部なら可能)。例えば、今から未来の2100年に行って日本人の出生数を調べることは不可能ですし、逆に紀元前に行って縄文時代の日本人の出生数を調べることも不可能です。

未来や過去を観測できないことに加え、ある時点のデータは1つしか手に入りません。これはその時点の平均や分散を計算する上でも大変不便です。例えば2019年の出生数が分かったとします。その1つのデータだけを使って同年2019年の出生数の期待値を計算するのは不可能ではありませんが、あまり賢明とは言えないでしょう(2019年のデータそのものを期待値とすることも可能ですが、それに意味はあるでしょうか?)。それよりはそのデータを生み出した過程に何らかの構造を仮定して、2019年の出生数の期待値を算出するほうがより意味のある結果を見出せそうです。

以上の話を踏まえ、定常性というのは確率過程に対する以下の定義のことです。

(定常性の定義) 任意の時点$t$と、任意の時間差$k$において、過程$y_t$が次の2つの性質を満たすとき$y_t$は定常であるという

$$

\mathrm{E}[y_t] = \mu \tag{2}

$$

$$

\mathrm{Cov}[y_t, y_{t-k}] = \gamma_k \tag{3}

$$

ここで大事なことは期待値も自己共分散も時点$t$に依存しないことです。つまり定常な過程というのは、いつも値$\mu$を取りやすくなっていて、ある時点周辺のデータの関係を見るときは、ある時点がいつなのかはどうでもよいということになります(時間差$k$のみ気にすればよい)。

どうして定常性というのを定義したのかというと定常性が私たちの身の回りの過程にも存在する重要な性質だからです。次回お話するホワイトノイズも定常性を満たします。また非定常な時系列モデル(過程)であっても根底には定常性を持つ時系列モデルがあります。定常性をおさえることが時系列分析または時系列モデルを理解する上で欠かせません。

定常性には弱定常性と強定常性の2つがあります。今回説明したものは弱定常性です。一般に定常性というと弱定常性を指します。

おわりに

時系列分析の基本である時系列データと定常性についてお話しました。この文章を読んで時系列分析に興味を持ったり、時系列分析について少しでも理解できたのでしたら幸いです。次回(12/13)はホワイトノイズと時系列モデルの1つMAモデルについてお話します。

Report Page