Transformer の再考: 反転がより効果的になり、現実世界の予測のための新しい SOTA が出現

Transformer の再考: 反転がより効果的になり、現実世界の予測のための新しい SOTA が出現

トランスフォーマーは、ペアワイズ依存関係を記述し、シーケンス内のマルチレベル表現を抽出できるため、時系列予測において強力なツールとして登場しました。しかし、研究者たちはトランスフォーマーベースの予測子の有効性にも疑問を抱いています。このような予測子は通常、同じタイムスタンプの複数の変数を区別できないチャネルに埋め込み、これらの時間トークンに注意を払って時間的な依存関係を捉えます。研究者たちは、時点間の意味的関係ではなく数値的関係を考慮に入れて、統計的予測子まで遡ることができる単純な線形レイヤーが、パフォーマンスと効率の両方において複雑なトランスフォーマーよりも優れていることを発見しました。同時に、変数の独立性を確保し、相互情報量を活用することは、正確な予測を達成するために多変量相関モデルを明示的に確立する最近の研究でますます注目されていますが、一般的な Transformer アーキテクチャを破壊せずにこの目標を達成することは困難です。

トランスフォーマーベースの予測器をめぐる論争を考慮すると、研究者たちは、トランスフォーマーが他の多くの分野で主導的な役割を果たしているにもかかわらず、時系列予測では線形モデルよりもパフォーマンスがさらに劣る理由を疑問に思っています。

清華大学の新しい論文では、異なる視点が示されています。つまり、Transformer のパフォーマンスは固有のものではなく、時系列データへのアーキテクチャの不適切な適用によって引き起こされるということです。

論文アドレス: https://arxiv.org/pdf/2310.06625.pdf

Transformer ベースの予測子の既存の構造は、多変量時系列予測には適さない可能性があります。図2の左側に示すように、同じ時間ステップの点は基本的に完全に異なる物理的意味を表しますが、測定結果は矛盾しています。これらの点はトークンに埋め込まれ、多変量相関が消去されます。さらに、現実の世界では、局所受容野と多変量時点のタイムスタンプの不整合により、単一の時間ステップで形成されたマークアップから有用な情報を明らかにすることは困難です。さらに、シーケンスの変化はシーケンス順序に大きく影響されますが、変化的注意メカニズムは時間次元では適切に使用されません。したがって、Transformer の基本的なシーケンス表現をキャプチャし、多変量相関関係を描写する能力が弱まり、さまざまな時系列データに対する機能と一般化能力が制限されます。

各時間ステップにおける多変量点を(時間)トークンに埋め込むことの不合理性に関して、研究者らは時系列の逆の視点から始めて、各変数の時系列全体を独立して(変数)トークンに埋め込みました。これは、局所受容野を拡大するためのパッチングの極端な例です。反転により、埋め込まれたトークンはシーケンスのグローバル表現を集約し、より変数中心になり、多変量関連付けの注意メカニズムをより有効に活用できるようになります。一方、フィードフォワード ネットワークは、任意のルックバック シーケンスによってエンコードされたさまざまな変数の一般化された表現を巧みに学習し、それらをデコードして将来のシーケンスを予測できます。

研究者たちは、Transformer は時系列予測には効果がないわけではないが、不適切に使用されていると考えています。論文では、研究者らはTransformerの構造を再検討し、iTransformerを時系列予測の基本的な柱として提唱しました。各時系列を変数トークンとして埋め込み、多変量相関アテンションを採用し、シーケンスエンコーディングにフィードフォワードネットワークを使用します。実験結果によると、本論文で提案された iTransformer は、図 1 に示す実際の予測ベンチマークで SOTA レベルに到達し、Transformer ベースの予測子の問題点を予想外に解決しています。

要約すると、この論文の貢献は次のとおりです。

  • 研究者たちは Transformer アーキテクチャを検討し、時系列に関するネイティブ Transformer コンポーネントの機能が十分に開発されていないことを発見しました。
  • この論文で提案されている iTransformer は、独立した時系列をトークンと見なし、自己注意を通じて多変量相関を捕捉し、レイヤー正規化とフィードフォワード ネットワーク モジュールを使用して、時系列予測のためのシーケンスのより優れたグローバル表現を学習します。
  • 実験を通じて、iTransformer は現実世界の予測ベンチマークで SOTA を達成します。研究者らは、反転モジュールとアーキテクチャの選択を分析し、Transformer ベースの予測器の将来的な改善の方向性を指摘しました。

iトランスフォーマー

多変量時系列予測では、過去の観測結果から次のことが分かります。



研究者は、T 個の時間ステップと N 個の変数を使用して、将来の S 個の時間ステップを予測します。便宜上、t を時間ステップ t で同時に記録される多変量変数として表し、各変数は時系列全体で n によってインデックス付けされます。現実の世界では、モニターのシステム遅延や緩く編成されたデータセットにより、時点に本質的に同じタイムスタンプが含まれない場合があることに注意してください。

の要素は物理的な測定値や統計分布において互いに異なる場合がありますが、変数はこれらのデータを共有することがよくあります。


本論文で提案するアーキテクチャを備えた Transformer バリアント (iTransformer と呼ばれる) は、アテンション メカニズムが多変量相関モデリングに適用可能であることを除いて、基本的に Transformer バリアントに対してより具体的な要件を課しません。したがって、効果的な注意メカニズムのセットは、変数の数が増えたときに関連の複雑さを軽減するためのプラグインとして機能できます。

図 4 に示す iTransformer は、埋め込み、投影、および Transformer ブロックで構成される、よりシンプルな Transformer エンコーダーのみのアーキテクチャを利用しています。

実験と結果

研究者らは、さまざまな時系列予測アプリケーションで提案された iTransformer の包括的な評価を実施し、提案されたフレームワークの汎用性を検証し、さらに特定の時系列ディメンションに対する Transformer コンポーネントの役割を反転させる効果を研究しました。

研究者らは、Autoformer が使用する ETT、天気、電力、交通データセット、LST5 Net が提案する太陽エネルギー データセット、SCINet が評価した PEMS データセットなど、6 つの現実世界のデータセットを実験に広範囲に取り入れました。データセットの詳細については、元の論文をお読みください。

予測結果

表 1 に示すように、最適値は赤で示され、下線が引かれたものが最適値です。 MSE/MAE が低いほど、予測結果の精度が高くなります。本論文で提案されている iTransformer は SOTA パフォーマンスを実現します。ネイティブ Transformer コンポーネントは、時間的モデリングと多変量相関が可能であり、提案された反転アーキテクチャは、実際の時系列予測シナリオを効果的に解決できます。

iTransformerの汎用性

研究者らは、このフレームワークを適用して、Reformer、Informer、Flowformer、FlashAttention などの自己注意メカニズムの二次複雑性の問題に一般的に対処している Transformer とそのバリアント上の iTransformer を評価しました。視点を単純に反転するだけで、Transformer ベースの予測子のパフォーマンスが向上し、効率が向上し、目に見えない変数に一般化され、過去の観察をより有効に活用できることがわかりました。

表 2 は、Transformer と対応する iTransformer を評価します。注目すべきは、このフレームワークがさまざまなトランスフォーマーを継続的に改善していることです。全体的に、Transformer は平均 38.9% 向上し、Reformer は平均 36.1% 向上し、Informer は平均 28.5% 向上し、Flowformer は平均 16.8% 向上し、Flashformer は平均 32.2% 向上しました。

さらに、反転構造は変数次元上の注意メカニズムを採用しているため、線形複雑度による効率的な注意の導入により、実際のアプリケーションでは非常に一般的であるが、チャネル独立のリソースを消費する可能性がある 6 つの変数によって引き起こされる効率の問題が根本的に解決されます。したがって、iTransformer は Transformer ベースの予測子に広く適用できます。

この仮説を検証するために、研究者らは iTransformer を別の一般化戦略である Channel Independent と比較しました。Channel Independent は、共有 Transformer を使用してすべてのバリアントのパターンを学習する戦略です。図 5 に示すように、チャネル独立 (CI-Transformers) の一般化誤差は大幅に増加する可能性がありますが、iTransformer 予測誤差の増加ははるかに小さくなります。

注意ネットワークとフィードフォワード ネットワークの役割が逆転しているため、図 6 では、ルックバックの長さが増加するにつれて Transformer と iTransformer のパフォーマンスを評価します。これは、時間的次元で MLP を活用する根拠を検証します。つまり、Transformer は拡張されたルックバック ウィンドウの恩恵を受けることができ、より正確な予測を得ることができます。

モデル分析

トランスフォーマーのコンポーネントの合理性を検証するために、研究者らはコンポーネントの交換 (Replace) とコンポーネントの除去 (w/o) 実験を含む詳細なアブレーション実験を実施しました。表3に実験結果を示します。

詳細は原文をご参照ください。

<<:  OpenAIの初の開発者会議が事前に「公開」され、新しいChatGPTプロトタイプGizmoが公開された

>>:  AIアライメントを徹底レビュー!北京大学などが800以上の文書から4万語を要約し、多くの著名な学者が執筆を担当した。

ブログ    
ブログ    
ブログ    

推薦する

...

AI アルゴリズムがハードウェアを置き換えることは可能でしょうか?

Googleは2021年末にPixel 6シリーズの携帯電話をリリースした際、携帯電話に心拍数モニ...

データマイニングの専門家がプログラムアルゴリズムを使って人生の選択をする

[[118153]]毎年、就職活動の時期になると、どうやって内定を選んだらいいのか、テンセントに行く...

データが増えるほど、AI は賢くなるのでしょうか?私たちはそれを常に当然のこととして受け止めてきました。

人工知能技術の台頭に伴い、AIの問題点が徐々に明らかになってきました。 AI による決定は、依然とし...

...

...

Alibaba のエンジニアは、ナレッジ グラフ データ構築の「難題」にどのように取り組んでいるのでしょうか?

[[233069]]アリ姉の紹介:「トマト」を検索すると、その栄養価やカロリーがわかるだけでなく、...

人工知能教師が将来果たす8つの役割

人工知能の急速な発展は目まぐるしく、教育、特に教師への影響は甚大です。人工知能は、退屈で面倒な仕事に...

アルゴリズムを使って従業員を解雇する人工知能は、労働者の新たなリーダーになったのだろうか?

最近、外国メディアのゲームワールドオブザーバーは、ロシアのオンライン決済サービス企業エクソラがアルゴ...

口コミの逆転、Pika 1.0の試用効果は多くの人々を納得させ、「最高のビデオジェネレーター」と呼んだ

先月末、Pika 1.0と呼ばれる動画生成AIモデルがソーシャルメディア上で話題になった。3Dアニメ...

トレーニング時間とパラメータの数は100分の1に削減され、ラベルは予測に直接使用され、GNNを超えるパフォーマンスを実現

従来のラベル伝播法とシンプルなモデルを組み合わせると、一部のデータセットでは現在の最適な GNN の...

...

米国の学区は校内暴力を防ぐためにAIを活用し、脅迫的な言葉を検知して管理者に通知しているが、事前診断率はわずか25%に過ぎない。

アメリカでまた銃撃事件が発生。 5月24日、テキサス州ユバルデのロブ小学校で銃撃事件が発生し、少なく...