革新的なトランスフォーマー!清華大学はSOTAを実現する長期時系列予測のための新しいバックボーンネットワークを提案

革新的なトランスフォーマー!清華大学はSOTAを実現する長期時系列予測のための新しいバックボーンネットワークを提案

[[410176]]

予測時間を可能な限り延長することが時系列予測の中心的な課題であり、エネルギー、輸送、経済の長期計画、気象災害や病気の早期警報などにとって非常に重要です。

清華大学ソフトウェア学院の機械学習研究室の研究者らは最近、情報が限られている場合に長期的な未来を予測するという困難な問題を検討した論文を発表した。

上記の問題に対処するために、著者らはTransformerに大幅な革新を加え、長期時系列予測でSOTAを達成し、効率とパフォーマンスの点でTransformerとそのバリアントを上回る新しいAutoformerモデルを提案しました。

論文リンク:
https://arxiv.org/abs/2106.13008

背景

Transformer ベースのモデルは最近、時系列予測において一連の進歩を遂げていますが、Transformer の固有の設計では、長期シーケンスを扱う際にまだいくつかの欠点があります。

  • 予測時間が長くなると、自己注意メカニズムを直接使用して複雑な時間パターンから信頼性の高い時間依存性を見つけることが難しくなります。
  • 自己注意の二次複雑性の問題により、モデルはスパースバージョンを使用する必要がありますが、これにより情報利用の効率が制限され、予測効果に影響します。

著者は、時系列分析の古典的な方法とランダムプロセスの古典的な理論に触発されてモデルを再設計し、元の Transformer アーキテクチャを破壊して、Autoformer モデルを取得しました。

  • 深層分解アーキテクチャ: 時系列分解を前処理として使用する従来の方法を打ち破り、シーケンス分解ユニットは深層モデルを組み込むように設計されており、段階的な予測を実現し、より予測可能なコンポーネントを徐々に取得します。
  • 自己相関メカニズム: ランダムプロセスの理論に基づいて、ポイント単位の接続の自己注意メカニズムを破棄し、シリーズ単位の接続の自己相関メカニズムを高度な複雑さで実装し、情報利用のボトルネックを解消します。
  • 長期予測の問題に対応して、Autoformer はエネルギー、輸送、経済、気象、疾病の 5 つの主要分野でパフォーマンスを 38% も大幅に向上させました。

方法の紹介

著者らは、内部シーケンス分解ユニット、自己相関メカニズム、および対応するエンコーダーとデコーダーを含む Autoformer モデルを提案しました。

(1)深層分解アーキテクチャ

オートフォーマーアーキテクチャ

時系列分解は時系列分析の古典的な方法であり、時系列を周期項、トレンド項などのいくつかの種類の潜在的な時間パターンに分解できます。

予測タスクでは、未来が予測不可能であるため、通常は最初に入力を分解し、次に各コンポーネントを個別に予測します。

しかし、これにより予測結果は分解効果に限定され、長期的な将来におけるさまざまなコンポーネント間の相互作用は無視されます。

上記の問題に対処するために、著者らは、予測プロセス中に潜在変数からトレンド項とサイクル項を徐々に分離して漸進的分解を実現する、深層分解アーキテクチャを提案しました。

さらに、このモデルは予測結果の最適化とシーケンス分解を交互に実行し、両者の相互促進を実現できます。

A. シーケンス分解ユニット

スライディング平均の考え方に基づいて、時系列を平滑化し、周期項とトレンド項を分離します。

このうち、 は分解される潜在変数、 はそれぞれトレンド項と期間項であり、上記の式は として記録されます。

B. コーデック

エンコーダー: 上記の分解ユニットを通じて、モデルは周期的な項を分離できます。この周期性に基づいて、自己相関メカニズムはさらに、異なる期間の同様のサブプロセスを集約するために使用されます。

デコーダー: トレンド項目と期間項目を個別に予測します。

  • 周期的な項目の場合、自己相関メカニズムを使用して、シーケンスの周期的な性質に基づいて依存関係マイニングを実行し、同様のプロセスを持つサブシーケンスを集約します。
  • トレンド項目については、予測された潜在変数からトレンド情報を徐々に抽出するために累積的なアプローチが使用されます。

(2)自己相関メカニズム

異なる期間の類似したフェーズは通常類似したサブプロセスを示すことを観察し、シーケンスの固有の周期性を利用して、効率的なシーケンスレベルの接続のための自己相関メカニズムを設計します。

自己相関メカニズムには、期間ベースの依存関係と時間遅延の集約が含まれます。

自己相関メカニズム、右側は遅延情報の集約である

A. サイクルベースの依存関係の検出

上記の観察に基づいて、同様のサブプロセスを見つけるには、シーケンスの周期を推定する必要があります。ランダム過程の理論に基づいて、実際の離散時間過程の自己相関係数は次のように計算できます。

自己相関係数は、シーケンスとその遅延間の類似性を表します。

自己相関メカニズムでは、この時間遅延の類似性は、正規化されていない周期推定値の信頼度、つまり周期長の信頼度と見なされます。

実際、ウィーナー・ヒンチン理論に基づいて、自己相関係数は高速フーリエ変換 (FFT) を使用して取得でき、計算プロセスは次のようになります。

このうち、 と はそれぞれ FFT とその逆変換を表します。したがって、複雑さは です。

B. 遅延情報の集約

シーケンス レベルの接続を実現するには、類似のサブシーケンス情報を集約する必要があります。自己相関メカニズムは、推定された期間の長さを使用して、まず情報を整列させ、次にそれを集約します。

ここでは、クエリ、キー、値のマルチヘッド形式が引き続き使用されるため、自己注意メカニズムをシームレスに置き換えることができます。

同時に、無関係な位相や反対の位相がマージされるのを避けるために、最も可能性の高いサイクル長が選択されます。自己相関メカニズム全体の複雑さは依然として残っています。

C. 比較分析

自己相関メカニズムと自己注意メカニズムの比較

従来のポイントツーポイント アテンション メカニズムまたはそのスパース バリアントと比較して、自己アテンション (自動相関) メカニズムは、シーケンス レベルでの効率的な接続を実現し、情報をより適切に集約して情報利用のボトルネックを解消します。

実験

著者らは、エネルギー、輸送、経済、気象、疾病の 5 つの主要分野をカバーする 6 つのデータ セットでテストを実施しました。

(1)主な結果

全体的な実験結果

Autoformer は、複数のフィールドのデータセットとさまざまな入出力長さ設定で、一貫した最先端 (SOTA) の結果を達成しました。

input-96-predict-336 設定では、以前の SOTA 結果と比較して、Autoformer は ETT エネルギー データセットで 74% の MSE 改善、電力エネルギー データセットで 24% の MSE 改善、Exchange 経済データセットで 64% の MSE 改善、交通データセットで 14% の MSE 改善、天気データセットで 26% の MSE 改善を達成しました。input-24-predict-60 設定では、ILI 疾患データセットが 30% 改善されました。

上記の 6 つのデータ セットでは、Autoformer によって MSE インジケーターが平均 38% 向上します。

(2)比較実験

ディープ分解アーキテクチャの普遍性: 提案されたディープ分解アーキテクチャを他の Transformer ベースのモデルに適用すると、大幅な改善が達成され、アーキテクチャの普遍性が検証されます。

同時に、予測時間が長くなるにつれて改善効果がより顕著になり、複雑な時間パターンが長期予測の核心的な問題であることが確認されました。

ETT データセットの MSE インジケーターの比較。Origin は直接予測、Sep は予測前の分解、Ours は深い分解アーキテクチャを表します。

自己相関メカニズムと自己注意メカニズム: 自己相関メカニズムも深層分解アーキテクチャに基づいており、従来の Transformer の Full Attention や Informer の PropSparse Attention など、多くの入出力設定において自己注意メカニズムとそのバリアントよりも一貫して優れたパフォーマンスを発揮します。

上記の結果を得るために、Autoformer の自己相関メカニズムを他の自己注意メカニズムに置き換えて、ETT データセットで比較実験を実施しました。

(3)モデル分析

タイミング依存性の視覚化:

シーケンスの最後の時点では、各モデルによって学習された時間的依存関係が視覚化され、図 (a) の赤い線は学習されたプロセスの場所を示しています。

上の図は、Autoformer の自己相関メカニズムが、誤認や識別漏れなく各サイクルで下降プロセスを正しく検出できるのに対し、他の注意メカニズムでは省略やエラーが発生することを示しています。

効率分析:

効率比較、赤い線は自己相関メカニズム

メモリ使用量と実行時間の両方の点で、自己相関メカニズムは優れた空間効率と時間効率を示し、両方の面で自己注意メカニズムとそのスパースバリアントを上回り、効率的な複雑性を実証しました。

要約する

長期時系列予測の問題に対応するために、著者らは、時系列分析の古典的な方法とランダムプロセスの古典的な理論に基づいた、深層分解アーキテクチャと自己相関メカニズムに基づく Autoformer モデルを提案しました。

Autoformer は、段階的な分解とシーケンス レベルの接続を通じて複雑な時間パターンと情報利用のボトルネックに対処し、長期的な予測結果を大幅に改善します。

同時に、Autoformer は 5 つの主要な主流分野で優れた長期予測結果を示しました。このモデルは優れた堅牢性と強力な応用価値を備えています。

<<:  過去 50 年間で最も重要な 8 つの統計的進歩!コロンビア大学教授がAI革命を推進する統計的アイデアを列挙

>>:  ネイチャー誌の表紙:AIの翼に乗って、データが計算社会科学を「担う」

ブログ    
ブログ    
ブログ    

推薦する

人工知能チュートリアル (V): Anaconda とさらなる確率理論

このシリーズの前回の記事では、まず TensorFlow の使い方を紹介しました。これは、人工知能お...

エンコーダー・デコーダーアーキテクチャを放棄し、エッジ検出に拡散モデルを使用する方が効果的です。国立国防科学技術大学はDiffusionEdgeを提案しました。

既存のディープ エッジ検出ネットワークは通常、マルチレベルの特徴をより適切に抽出するためのアップサン...

機械学習: Python による予測

機械学習は基本的に、既存のデータを使用して新しいデータについて予測を行う人工知能のサブセットです。も...

ディープラーニングのこれらの概念をすべて理解できましたか? TF、TLT、TRT、DS

最近、NVIDIA GPU 製品や SDK を使用してディープラーニングを学習している学生に多く出会...

...

周洪義:人工知能には多くのセキュリティ上の弱点がある

3月5日、中国人民政治協商会議全国委員会委員で、360グループ会長兼CEOの周鴻毅氏は、今年の「両会...

GPT-3は創造性に欠けるにもかかわらず、わずか20分で合格できる大学論文を書いた。

GPT-3で書かれた論文は通過したのでしょうか?教育リソースウェブサイトEduRefがこれに関する...

AgentGPT: ブラウザ上の自律型 AI エージェント

翻訳者 |ブガッティレビュー | Chonglou AgentGPT Web は、ユーザーがカスタマ...

...

...

AIの頂点:プレミアムディープラーニングGPU、KG 7204-R5

人工知能(AI)の分野といえば、「人間対機械」ゲームにおける「AlphaGo」という名の名を挙げざる...

ジェンセン・フアン:わずか2年で、Nvidiaと業界全体が完全に変わるだろう

黄仁訓は未来について次のように予言した。コンピューティング技術は10年ごとに100万倍に進歩します。...

「三銃士」グループは、鉱業の諜報活動への発展を促進するためにデビューしました

我が国は鉱物資源が豊富な国であり、石炭、金属、その他の鉱物の生産地が非常に多く、我が国の鉱業開発は常...

2019年の中国人工知能産業の競争環境の分析

近年、人工知能の技術と応用は成熟を続けており、人工知能市場の規模は徐々に拡大しています。中国情報通信...

国内メディアが大々的に報じた「世界初のAI地震監視システム」は的外れ

[[387555]]この記事はLeiphone.comから転載したものです。転載する場合は、Leip...