時系列予測におけるディープラーニングの概要と今後の方向性の分析

時系列予測におけるディープラーニングの概要と今後の方向性の分析

2023年は大きな言語モデルと着実な普及の年です。時系列の分野ではそれほど大きな成果は得られていませんが、ゆっくりと着実に進歩しています。 Neurips、ICML、AAAI などのカンファレンスでは、トランスフォーマー構造 (BasisFormer、Crossformer、Inverted transformer、Patch transformer) の改善、数値時系列データをテキストや画像と合成する新しいアーキテクチャ (CrossVIVIT)、時系列に直接適用できる可能性のある LLM、新しい形式の時系列正規化/正規化手法 (sans) などが発表されました。

本稿では、2023年の時系列予測におけるディープラーニングの発展を総括し、2024年の今後の方向性を分析します。

ニューリップス 2023

今年の NIP では、トランスフォーマー、正規化、定常性、マルチモーダル学習に関する興味深い新しい論文がいくつか発表されました。しかし、時系列分野では大きな進歩はなく、実用的で段階的なパフォーマンスの向上と興味深い概念実証がいくつかあるだけです。

1. 非定常時系列の適応正規化

この論文では、非定常時系列データの予測を簡素化するための「モデルに依存しない正規化フレームワーク」を紹介しています。著者らは、SAN を 2 つのステップで動作させます。つまり、統計予測モデル (通常は ARIMA) をトレーニングし、次に実際のディープ タイム シリーズ ベース モデルをトレーニングします (統計モデルを使用して TS データをスライス、正規化、非正規化します)。統計モデルは、入力時系列をスライスして、時系列のより堅牢な表現を学習し、非定常な特性を除去します。 「スライス レベルの機能をモデル化することで、SAN はローカル領域の非定常性を排除できます」と著者らは述べています。SAN は、ターゲット ウィンドウの統計 (標準偏差/平均) も明示的に予測します。これにより、非定常データを扱う際に、通常のモデルよりも時間の経過に伴う変化に適応しやすくなります。

変圧器モデルは、代表的な時系列予測ベンチマーク(電力、為替、輸送など)の指標を検証するための基本予測モデルとして使用されます。著者らは、SAN がこれらのベンチマーク データセットでベース モデルのパフォーマンスを一貫して向上させたことを発見しました (ただし、この論文は Inverted Transformer より前に公開されたため、Inverted Transformer はテストしていません)。

このモデルは統計モデル (通常は ARIMA) と通常のトランスフォーマーを組み合わせているため、チューニングとデバッグが難しくて面倒になる可能性があると思います (特に新しいデータセットの場合)。これは、ほぼすべての時系列モデルがシーケンス入力の長さをハイパーパラメータとして使用するためです。もう一つの疑問は、「slice」のスライスは通常のシーケンスウィンドウとどう違うのかということです。著者はまだそれを明確に説明していません。全体的に、実験結果とプラグアンドプレイの特性により、これは依然としてかなり強力な貢献であると思います。

2. 基礎

BasisFormer は、学習可能で解釈可能な「基底」を使用して、一般的なトランスフォーマー アーキテクチャを改善します。ここでの「基礎」とは、NBeats に似たニューラル「基礎」を作成することを指します (例: 多項式ベースの関数の傾向、季節性などの係数を学習する)。モデルは、基本モジュール、係数モジュール、予測モジュールの 3 つの部分に分かれています。基本モジュールは、自己教師方式で、過去の時系列データと将来の時系列データの両方に適用可能な、データ内の基本的な傾向のセットを決定しようとします。基礎モジュールは、対照学習と、InfoNCE 損失と呼ばれる特定の損失関数 (将来の時系列と過去の時系列間の接続を学習しようとする) を使用します。係数モデルは、「時系列と一連の基礎となる傾向の間の類似性をモデル化」しようとします。係数モデルの場合、著者らは基底と時系列を入力として受け取る交差注意モジュールを使用しました。出力は、複数の MLP で構成される予測モジュールに送られます。

著者らは、典型的な時系列予測データセット (ETH1、ETH、天気、取引所) で論文を評価します。 BasisFormer は他のモデル (Fedformer、Informer など) のパフォーマンスを 11 ~ 15% 向上させることがわかりました。 BasisFormer はまだリリースされていないため、Inverted Transformer と比較されていません。 Inverted Transformer とおそらく Crossformer は BasisFormer よりわずかに優れているようです。

昨年、「Transformers は時系列予測に効果的か?」という論文が発表されました。この論文では、多くの Transformers モデルが批判され、シンプルなモデル「D-Linear」がそれらを上回るパフォーマンスを発揮できることが示されていました。 2023年のBasisFromerから、これらの問題を徐々に解決し、上記のベースラインモデルを超え始めました。

この論文のモデルの技術はしっかりしているが、この論文の利点は理解しにくい。著者は「基礎」を学習するという概念を紹介しているものの、このアプローチの斬新さや他のモデルとの違いについては実際には説明していないからです。

3. 時空間コンテキストを活用した前日太陽放射量時系列予測の改善

この論文では、翌日の太陽エネルギー生産量を予測するためのハイブリッド(ビジョンと時系列)ディープラーニングベースのアーキテクチャを提案しています。太陽エネルギーの生産は雲量の影響を受けることが多く、これは衛星画像データでは確認できますが、数値データではうまく表現されません。モデル自体に加えて、この論文のもう一つの貢献は、研究者が構築してオープンソース化したマルチモーダル衛星画像データセットです。著者らは、数値時系列と画像データの両方に焦点を当てたマルチレベル Transformers アーキテクチャについて説明します。時系列データは Temporal Transformers を通過し、画像は Visual Transformers を通過します。次に、交差アテンション モジュールが最初の 2 つのモジュールからの画像データを結合します。最後に、データは最終的な時間的トランスフォーマーに送られ、予測が出力されます。

著者らが論文で言及しているもう 1 つの有用なアイデアは、ROPE (回転位置エンコーディング) と呼ばれます。これにより、エンコーディング/位置埋め込みに座標ペアが作成されます。これは、雲から太陽光発電所までの距離を表すために使用されます。

著者らは、Informer、Reformer、Crossformer、およびその他のディープタイムシリーズモデルのパフォーマンスを比較しながら、新しいデータセットを評価およびベンチマークします。著者らはまた、画像データの統合における難しいタスクと簡単なタスクを区別しており、そのアプローチは他のモデルよりも優れています。

この論文は興味深いフレームワークを提供しており、ROPE の概念は興味深く、座標形式の地理データを扱う人にとって役立つ可能性があります。データセット自体は、マルチモーダル予測に関する進行中の作業に非常に役立つため、これは非常に有益な貢献となります。

4. 大規模言語モデルはゼロショットの時系列予測器である

この論文では、事前トレーニング済みの LLM が時系列データを整数形式で直接入力し、ゼロショット方式で将来のデータを予測できるかどうかを調査します。著者らは、オープンソースの LLM で GPT-3 と GPT-4 を使用して、構造をさらに変更せずに時系列値と直接対話する方法について説明しています。最後に、モデルのゼロショットトレーニング動作の起源についての考えを述べます。著者らは、この動作は事前トレーニングから抽出された知識の一般化可能性の結果であると仮定しています。

彼らは、上記の標準的な時系列ベンチマーク データセットでモデルを評価します。このモデルは SOTA のパフォーマンスには達していませんが、完全にゼロショットであり、追加の微調整がされていないことを考慮すると、依然として良好なパフォーマンスを発揮します。

LLM はすべてテキスト データでトレーニングされているため、すぐに TS 予測を実行できます。この分野は将来さらに調査する価値がある可能性があり、この論文は前進への良い一歩です。しかし、このモデルは現在、単変量時系列しか扱えない。

ICML、ICLR 2023

Neurips に加えて、ICML と ICLR 2023 では、時系列予測/分析のためのディープラーニングに関するいくつかの論文も紹介されました。以下に、私が興味深く、今後も関連性があると思った提案をいくつか示します。

1. クロスフォーマー

このモデルは、多変量時系列予測 (MTS) 用に特別に開発されました。このモデルは、次元セグメント埋め込み (DSW) メカニズムを採用しています。 DSW 埋め込みは、データが 2 次元形式であると想定する点で従来の埋め込みとは異なります。また、変数と時間の次元にわたって MTS データからセグメントを明示的に生成します。

このモデルは標準の MTS データセット (ETH、取引所など) で評価されており、リリース時点では Informer や DLinear などの他のほとんどのモデルよりも優れています。著者らはdSWのアブレーション研究も行った。

ICLR のこの論文は、川の流れを予測するのには適していますが、一度に複数のターゲットを予測するとパフォーマンスが大幅に低下するようです。そうは言っても、Informer や関連する Transformers モデルよりもパフォーマンスが優れていることは確かです。

2. 時系列予測を説明する摂動の学習

ディープラーニングの説明のための摂動技術のほとんどは、静的データ (画像とテキスト) を対象としています。ただし、時系列、特に多変量 TS の場合、ランダム効果を学習するには、より広い範囲の摂動が必要になります。著者らは、特徴の重要性をより適切に説明するために、データのマスクと関連する摂動を学習できるディープラーニング ベースの方法を提案しています。次に、マスクされ、変化した入力がモデルに渡され、その出力が変化されていないデータの出力と比較されます。損失は​​ 2 つの出力の差として計算されます。

ますます多くの研究者がディープラーニング モデルの解釈に取り組んでいるのは良いことです。この論文では、既存の方法とその欠点を概説し、改善されたアプローチを提案します。追加のニューラル ネットワークを使用して摂動を学習するというアイデアは、レイヤーとネットワークを追加するたびに、特にすでに大規模なネットワークでは問題が発生する可能性が高くなるため、不必要な複雑さを追加することになると思います。オッカムの剃刀を忘れないでください。必要な場合を除き、エンティティを増やさないでください。

3. ディープタイムインデックスモデルの学習

この記事では、オプティカルフローとメタ学習による予測について説明し、非定常時系列を予測する方法を学習する方法について説明します。よく知らない人のために説明すると、メタ学習はコンピューター ビジョン データセットによく適用され、MAML などの論文では新しい画像クラスで少数ショット学習を実行できるようになっています。 MAML やその他のモデルには、モデルに学習方法を教える内部ループと、特定のタスクに合わせてモデルを微調整する外部ループがあります。論文の著者らはこのアイデアを採用し、ほぼすべての非定常性を新しい学習タスクとして扱うように適用しました。新しい「タスク」は、長い時系列シーケンスのチャンクです。

著者らは、ETH、気温、取引所のデータセットでモデルをテストしました。彼らのモデルは SOTA の結果を達成していませんが、現在の SOTA アーキテクチャと競合可能です。

この論文は時系列予測に関して興味深い視点を提供し、従来の方法と比べて新たなブレークスルーをもたらしています。SOTA を超えなかったにもかかわらず採用された理由の 1 つがこれだと思います。

4. 逆変換は時系列予測に効果的

「Inverted Transformers」は2024年に発表された論文です。これは、現在の時系列予測データセットの SOTA でもあります。基本的に、Inverted Transformers は、時系列用の Transformer アーキテクチャを採用し、それを反転します。時系列シーケンス全体を使用してトークンが作成されます。次に、時系列は互いに独立して埋め込まれます。 Attention は複数の時系列埋め込みに対して動作します。これは Crossformer と多少似ていますが、標準の Transformers アーキテクチャに従うという点で異なります。

著者は標準的な時系列データセットでモデルを評価し、現在のところ Informer、Reformer、Crossformer など他のすべてのモデルよりも優れたパフォーマンスを発揮しています。

このモデルは既存のモデルよりも優れているため、強力な論文です。しかし、場合によっては、モデルに対するその優位性はそれほど重要ではありません。まずはこの論文を見てテストしてみてください。

時間GPT

最後に、TimeGPT についてお話しします。TimeGPT は主要な会議では受け入れられず、その評価方法には疑問が残ります。残念ながらインターネット上でかなり話題になっているので、もう一度触れておきます。

1. 著者らは、その結果を他の SOTA タイプのモデルと比較せず、単に「テスト セットには、金融、ネットワーク トラフィック、IoT、天気、需要、電力など、複数のドメインからの 300,000 を超える時系列が含まれています」と引用し、テスト セットへのリンクを提供しておらず、論文の中でこれらのデータセットが何であるかを明記していません。

2. 論文内のアーキテクチャ図とモデルアーキテクチャの説明が非常に貧弱です。著者らは他の論文から図をコピーし、LLM に関連する注目の定義と流行語を押し付けたようです。

3. 著者の Nixtla 社は非常に小規模で、おそらく小規模なスタートアップであり、「成功する時系列ベースモデル」を完全にトレーニングするのに十分なコンピューティング リソースがあるかどうか。この発言は差別的ですが、私が独学で1週間で法学修士号を取得したと言ったら、誰も信じないでしょう?

OpenAI、Google、Amazon、Meta などの企業は、巨大なモデルを作成するために十分なコンピューティング リソースを提供しています。 TimeGPT が本当に大量の時系列データでトレーニングされた単純な Transformers モデルであるなら、なぜ他の機関や、大量の GPU を持つ個人がこれを実行できないのでしょうか? 答えは、それは決してそれほど単純ではないということです。

時系列の「基本モデル」を作成する機能はまだ完璧ではありません。多変量時系列予測の重要な要素は、共変量間の依存関係を学習することです。 MTS の次元はデータセットによって大きく異なります。テキスト データを持つ Transformer の場合、常に単語を数値 ID にマッピングし、特定のディメンションの埋め込みを作成します。

MTS では、値が変化するだけでなく、あるデータセットには 100 個の変数があり、別のデータセットには 10 個しかない場合もあります。このため、さまざまなサイズの MTS データセットを共通の埋め込み次元にマッピングする汎用マッピング レイヤーを設計することはほぼ不可能になります。したがって、数日前にリリースした Lag-Llama も、単一の変数の予測であったことを思い出してください。

他の時系列(変数の数が同じであっても)でモデルを事前トレーニングしても、結果は改善されません(少なくとも現在のアーキテクチャでは)。

要約と今後の方向性の分析

2023 年には、時系列予測のための Transformers の継続的な改善と、LLM およびマルチモーダル学習への新しいアプローチが見られました。 2024 年が進むにつれて、時系列での Transformers アーキテクチャの使用において進歩と改善が続くでしょう。マルチモーダル時系列予測と分類の分野ではさらなる発展が見られるかもしれません。

<<:  OpenAI憲章中国語版

>>:  人工知能は世界を支配するのでしょうか?

ブログ    
ブログ    

推薦する

北京大学光華管理学院 周連:人工知能は中間所得層にどのような影響を与えるのでしょうか?

オピニオンリーダー | 北京大学光華管理学院文:周 連(北京大学光華管理学院副学長)新興技術である人...

崑崙万為が「天宮」13Bシリーズ大型モデルをオープンソース化、商用利用のハードルはゼロ

10月30日、崑崙万為は、数百億語の容量を持つ大規模言語モデル「天工」Skywork-13Bシリーズ...

...

最も孤独なニューラル ネットワーク: たった 1 つのニューロンですが、「クローンをシャドウ」することができます

世界で最も先進的なニューラルネットワークモデルは何ですか?それは人間の脳に違いない。人間の脳には86...

クラウドコンピューティング、ビッグデータ、AI の関係と違いを 1 つの記事で理解する

クラウドコンピューティング、ビッグデータ、人工知能という言葉は誰もが聞いたことがあると思いますが、こ...

...

マイクロソフトがローブを買収:一般の人々が人工知能を簡単に利用できるように

マイクロソフトは、人工知能はテクノロジー大手が反体制派を排除するための武器として利用されるべきではな...

LSTMとトランスフォーマーの利点を組み合わせることで、DeepMindの強化学習エージェントはデータ効率を向上させます

[[423163]]近年、マルチエージェント強化学習は飛躍的な進歩を遂げています。例えば、Deep...

...

...

オリンピックチャンピオンでさえ正しく答えられなかった質問が ML モデルのテストに使用されているのですか? GPT-3: できない

機械学習モデルの数学解答能力を測定するために、カリフォルニア大学バークレー校とシカゴ大学の研究者らは...

メタは昨年、同社への信頼の欠如によりAI研究者の3分の1を失った。

6月19日、MetaのCEOマーク・ザッカーバーグ氏は人工知能の分野に多額の投資を行っていたが、人...