タイミング解析の一般的なアルゴリズムはすべてここにあります

時系列分析とは、過去の出来事の時間特性を利用して、将来の出来事の特性を予測することです。これは比較的複雑な予測モデリングの問題です。回帰分析モデルの予測とは異なり、時系列モデルはイベントの発生順序に依存します。同じサイズの値でも、入力の順序が変わると異なる結果が生成されます。

すべての時系列問題は回帰問題として考えられますが、回帰方法（線形回帰、ツリーモデル、ディープラーニングなど）には一定の違いがあります。

タイミング解析には、静的タイミング解析 (STA) と動的タイミング解析が含まれます。

以下は一般的なタイミング解析アルゴリズムです。

1 ディープラーニングのタイミング分析

RNN (リカレントニューラルネットワーク)

リカレントニューラルネットワークは、時間の経過とともに繰り返される構造です。自然言語処理 (NLP)、音声、画像など、多くの分野で非常に幅広い用途があります。 RNN ネットワークと他のネットワークの最大の違いは、RNN が特定の「メモリ機能」を実現でき、時系列分析に最適な選択肢であることです。人間が過去の記憶を通して世界をよりよく理解できるのと同じです。 RNN は人間の脳に似たメカニズムも実装しており、処理した情報のメモリを保持できない他のタイプのニューラルネットワークとは異なり、処理した情報の一定量のメモリを保持します。

アドバンテージ：

時間メモリ機能を備えており、時系列の短い間隔の問題を解くのに適しています。

欠点:

離れた時間ステップのデータの場合、勾配消失や勾配爆発の問題が容易に発生する可能性があります。

LSTM (長期短期記憶)

Long Short-Term Memory (LSTM) は、一般的な RNN (リカレントニューラルネットワーク) の長期依存性問題を解決するために設計された時間リカレントニューラルネットワークです。すべての RNN は、繰り返されるニューラルネットワークモジュールのチェーン形式を持っています。

アドバンテージ：

非常に長い間隔と遅延を持つ時系列の重要なイベントを処理および予測するのに適しています。

欠点:

パラメータの数が多すぎるため、過剰適合の問題が簡単に発生する可能性があります。

2 従来のタイミング解析モデル

自己回帰（AR）
移動平均（MA）
自己回帰移動平均（ARMA）
自己回帰和分移動平均 (ARIMA)
季節自己回帰積分移動平均 (SARIMA)
外生回帰変数を用いた季節自己回帰積分移動平均 (SARIMAX)

自己回帰モデル

自己回帰モデル (略して AR モデル) は、時系列変数とその過去の値との関係を記述するために使用される時系列分析方法です。 AR モデルは、現在の観測値と過去の観測値の間に線形関係があると仮定し、過去の観測値を使用して将来の観測値を予測します。

アドバンテージ：

シンプルさ: AR モデルは、理解しやすく実装しやすい線形モデルです。過去の観察のみを独立変数として使用し、考慮すべき他の複雑な要因はありません。
モデリング機能: AR モデルは、時系列データの自己相関構造、つまり現在の観測値と過去の観測値の関係を捉えることができます。将来の観測結果を予測し、データの傾向やパターンを明らかにすることができます。

欠点:

定常系列にのみ適用可能: AR モデルでは、時系列が定常であること、つまり平均、分散、自己相関が時間の経過とともに変化しないことが求められます。系列が定常でない場合は、差分を実行するか、別のモデルを使用して非定常性を処理する必要がある場合があります。
過去の観測に対する感度: AR モデルの予測結果は過去の観測に影響を受けるため、長期予測を扱う場合には誤差の蓄積の問題が発生する可能性があります。次数が大きいとモデルの過剰適合につながる可能性があり、次数が小さいと時系列の複雑なダイナミクスを捉えられない可能性があります。
季節データの処理不可: AR モデルは、明らかな季節性を持つ時系列を直接処理できません。季節パターンを持つデータの場合、季節 AR モデル (SAR) または ARIMA モデルを使用してモデリングできます。

移動平均（MA）

移動平均（MA）：この方法はデータの平均に基づいており、将来の値は過去の値と比較して比較的安定していると想定しています。

アドバンテージ：

時系列データ内の移動平均関係をキャプチャできます。 MA モデルは、過去の時間ステップからのホワイトノイズエラー項の線形結合を使用して現在の観測を予測し、データの移動平均の性質を捉えます。

比較的シンプルで直感的です。 MA モデルのパラメータは、過去の時間ステップにおけるホワイトノイズ誤差項の重みを表し、これらの重みを推定することでモデルを適合できます。

欠点:

移動平均関係のみを捉えることができ、自己回帰関係は捉えることができません。 MA モデルは過去の時間ステップでの観測を無視し、データ内の自己相関を捉えられない可能性があります。
一部の時系列データでは、MA モデルでデータをより適切に適合させるためにより高い次数が必要になる場合があり、その結果、モデルの複雑さが増します。

自己回帰移動平均モデル

自己回帰および移動平均モデル (ARMA モデル) は、時系列を研究するための重要な方法です。これは、自己回帰モデル (AR モデル) と移動平均モデル (MA モデル) の「混合」です。幅広い適用範囲と小さい予測誤差という特徴があります。

自己回帰和分移動平均 (ARIMA)

ARIMA モデルの正式名称は、自己回帰積分移動平均モデルです。 ARIMA モデルは、主に自己回帰モデル (AR)、差分プロセス (I)、移動平均モデル (MA) の 3 つの部分で構成されます。

ARIMA モデルの基本的な考え方は、データ自体の履歴情報を使用して将来を予測することです。ある時点のラベル値は、過去の期間のラベル値と過去の期間の偶発的なイベントの両方の影響を受けます。つまり、ARIMA モデルでは、ラベル値は時間の一般的な傾向を中心に変動すると想定されていますが、傾向は過去のラベルの影響を受け、変動は一定期間の偶発的なイベントの影響を受け、一般的な傾向自体は必ずしも安定しているわけではありません。

つまり、ARIMA モデルは、データの自己相関と差異を通じてデータの背後に隠れた時系列パターンを抽出し、これらのパターンを使用して将来のデータを予測しようとします。で：

AR 部分は、時系列の自己回帰部分を処理するために使用されます。これは、過去のいくつかの期間の観測が現在の値に与える影響を考慮します。
I 部分は、非定常時系列を定常化するために使用され、一次または二次差分処理を通じて時系列の傾向と季節要因を除去します。
MA 部分は、過去の予測誤差が現在の値に与える影響を考慮した時系列の移動平均部分を処理するために使用されます。

これら 3 つの部分を組み合わせることで、ARIMA モデルはデータの傾向の変化を捉えられるだけでなく、一時的、突然の変化やノイズの多いデータも処理できるようになります。したがって、ARIMA モデルは多くの時系列予測問題で優れたパフォーマンスを発揮します。

アドバンテージ：

このモデルは非常にシンプルで、他の外生変数を必要とせず、内生変数のみを必要とします。（いわゆる内生変数は、他の変数を必要とする回帰とは異なり、データ自体にのみ依存します）

欠点:

時系列データは定常であるか、差分処理後に安定している必要があります。

本質的には、線形関係しか捉えられず、非線形関係は捉えられません。

季節的自己回帰積分移動平均モデル SARIMA

SARIMA は、季節データ用の ARIMA モデルの拡張である、一般的に使用される時系列分析方法です。 SARIMA モデルは、年間売上や毎週の Web サイト訪問数などの季節的な時系列データを予測するために使用できます。 SARIMA モデルの利点と欠点は次のとおりです。

アドバンテージ：

SARIMA モデルは、時系列データの季節性を考慮するため、季節データに適しています。
SARIMA モデルは、データの傾向と周期的な変化を捉えることができるため、時系列データの長期予測を行うことができます。
SARIMA モデルは、複数の変数間の関係を同時に考慮できるため、多変量時系列データに使用できます。

欠点:

SARIMA モデルをトレーニングするには大量の履歴データが必要なので、データ量が少ない場合には適用できない可能性があります。
SARIMA モデルは外れ値の影響を受けやすいため、外れ値を処理する必要があります。
SARIMA モデルの計算の複雑さは高く、多くの計算と最適化が必要になります。

外生回帰変数を用いた季節的自己回帰積分移動平均モデル SARIMAX

季節的自己回帰積分移動平均と外生的回帰変数 (SARIMAX) モデルは、季節 (S、季節的) および外生的要因 (X、外生的) が追加された ARIMA モデルに基づいています。つまり、ARIMA 基底に周期性と季節性を加えたものは、時系列に明らかな周期性と季節性を持つデータに適しています。

3 その他のタイミングモデル

このタイプの方法は lightgbm と xgboost によって代表されます。一般的に、時系列問題は教師あり学習に変換され、特徴エンジニアリングと機械学習の方法を通じて予測が行われます。このモデルは、ほとんどの複雑な時系列予測モデルを解決できます。複雑なデータモデリング、多変量共回帰、非線形問題をサポートします。

ただし、この方法ではより複雑な人工特徴処理が必要となり、特徴エンジニアリングには一定の専門知識や豊かな想像力が必要になります。多くの場合、特徴エンジニアリング機能のレベルによって機械学習の上限が決まり、機械学習の手法ではこの上限にできるだけ近づくことだけが試みられます。特徴が確立されたら、ツリーモデルアルゴリズム lightgbm/xgboost を直接適用できます。これら 2 つのモデルは、非常に一般的な高速モデリング手法です。さらに、次の特徴があります。

高速な計算速度と高いモデル精度。
欠損値を処理する必要がないため、より便利です。
カテゴリ変数をサポートします。
機能のクロスオーバーをサポートします。

選択する具体的な方法は、データの性質、問題の特性、自身の経験や能力などに基づいて総合的に検討する必要があります。

特定のデータ特性、問題の要件、および自身の能力に基づいて、適切な時系列予測方法を選択する必要があります。場合によっては、複数の方法を組み合わせることで、予測の精度と安定性が向上することがあります。同時に、モデルの選択や予測結果の評価をより適切に行うためには、データの視覚的な分析やモデル診断を行うことも重要です。

<<: OpenAIは、GPT-4の「怠惰」問題を近い将来に修正し、オフライン評価とA/Bテストの後にモデルを更新すると発表した。

>>: AI、新たなアリババとテンセント