トランスフォーマーは、ペアワイズ依存関係を記述し、シーケンス内のマルチレベル表現を抽出できるため、時系列予測において強力なツールとして登場しました。しかし、研究者たちはトランスフォーマーベースの予測子の有効性にも疑問を抱いています。このような予測子は通常、同じタイムスタンプの複数の変数を区別できないチャネルに埋め込み、これらの時間トークンに注意を払って時間的な依存関係を捉えます。研究者たちは、時点間の意味的関係ではなく数値的関係を考慮に入れて、統計的予測子まで遡ることができる単純な線形レイヤーが、パフォーマンスと効率の両方において複雑なトランスフォーマーよりも優れていることを発見しました。同時に、変数の独立性を確保し、相互情報量を活用することは、正確な予測を達成するために多変量相関モデルを明示的に確立する最近の研究でますます注目されていますが、一般的な Transformer アーキテクチャを破壊せずにこの目標を達成することは困難です。 トランスフォーマーベースの予測器をめぐる論争を考慮すると、研究者たちは、トランスフォーマーが他の多くの分野で主導的な役割を果たしているにもかかわらず、時系列予測では線形モデルよりもパフォーマンスがさらに劣る理由を疑問に思っています。 清華大学の新しい論文では、異なる視点が示されています。つまり、Transformer のパフォーマンスは固有のものではなく、時系列データへのアーキテクチャの不適切な適用によって引き起こされるということです。 論文アドレス: https://arxiv.org/pdf/2310.06625.pdf Transformer ベースの予測子の既存の構造は、多変量時系列予測には適さない可能性があります。図2の左側に示すように、同じ時間ステップの点は基本的に完全に異なる物理的意味を表しますが、測定結果は矛盾しています。これらの点はトークンに埋め込まれ、多変量相関が消去されます。さらに、現実の世界では、局所受容野と多変量時点のタイムスタンプの不整合により、単一の時間ステップで形成されたマークアップから有用な情報を明らかにすることは困難です。さらに、シーケンスの変化はシーケンス順序に大きく影響されますが、変化的注意メカニズムは時間次元では適切に使用されません。したがって、Transformer の基本的なシーケンス表現をキャプチャし、多変量相関関係を描写する能力が弱まり、さまざまな時系列データに対する機能と一般化能力が制限されます。 各時間ステップにおける多変量点を(時間)トークンに埋め込むことの不合理性に関して、研究者らは時系列の逆の視点から始めて、各変数の時系列全体を独立して(変数)トークンに埋め込みました。これは、局所受容野を拡大するためのパッチングの極端な例です。反転により、埋め込まれたトークンはシーケンスのグローバル表現を集約し、より変数中心になり、多変量関連付けの注意メカニズムをより有効に活用できるようになります。一方、フィードフォワード ネットワークは、任意のルックバック シーケンスによってエンコードされたさまざまな変数の一般化された表現を巧みに学習し、それらをデコードして将来のシーケンスを予測できます。 研究者たちは、Transformer は時系列予測には効果がないわけではないが、不適切に使用されていると考えています。論文では、研究者らはTransformerの構造を再検討し、iTransformerを時系列予測の基本的な柱として提唱しました。各時系列を変数トークンとして埋め込み、多変量相関アテンションを採用し、シーケンスエンコーディングにフィードフォワードネットワークを使用します。実験結果によると、本論文で提案された iTransformer は、図 1 に示す実際の予測ベンチマークで SOTA レベルに到達し、Transformer ベースの予測子の問題点を予想外に解決しています。 要約すると、この論文の貢献は次のとおりです。
iトランスフォーマー多変量時系列予測では、過去の観測結果から次のことが分かります。 研究者は、T 個の時間ステップと N 個の変数を使用して、将来の S 個の時間ステップを予測します。便宜上、t を時間ステップ t で同時に記録される多変量変数として表し、各変数は時系列全体で n によってインデックス付けされます。現実の世界では、モニターのシステム遅延や緩く編成されたデータセットにより、時点に本質的に同じタイムスタンプが含まれない場合があることに注意してください。 の要素は物理的な測定値や統計分布において互いに異なる場合がありますが、変数はこれらのデータを共有することがよくあります。 本論文で提案するアーキテクチャを備えた Transformer バリアント (iTransformer と呼ばれる) は、アテンション メカニズムが多変量相関モデリングに適用可能であることを除いて、基本的に Transformer バリアントに対してより具体的な要件を課しません。したがって、効果的な注意メカニズムのセットは、変数の数が増えたときに関連の複雑さを軽減するためのプラグインとして機能できます。 図 4 に示す iTransformer は、埋め込み、投影、および Transformer ブロックで構成される、よりシンプルな Transformer エンコーダーのみのアーキテクチャを利用しています。 実験と結果研究者らは、さまざまな時系列予測アプリケーションで提案された iTransformer の包括的な評価を実施し、提案されたフレームワークの汎用性を検証し、さらに特定の時系列ディメンションに対する Transformer コンポーネントの役割を反転させる効果を研究しました。 研究者らは、Autoformer が使用する ETT、天気、電力、交通データセット、LST5 Net が提案する太陽エネルギー データセット、SCINet が評価した PEMS データセットなど、6 つの現実世界のデータセットを実験に広範囲に取り入れました。データセットの詳細については、元の論文をお読みください。 予測結果 表 1 に示すように、最適値は赤で示され、下線が引かれたものが最適値です。 MSE/MAE が低いほど、予測結果の精度が高くなります。本論文で提案されている iTransformer は SOTA パフォーマンスを実現します。ネイティブ Transformer コンポーネントは、時間的モデリングと多変量相関が可能であり、提案された反転アーキテクチャは、実際の時系列予測シナリオを効果的に解決できます。 iTransformerの汎用性 研究者らは、このフレームワークを適用して、Reformer、Informer、Flowformer、FlashAttention などの自己注意メカニズムの二次複雑性の問題に一般的に対処している Transformer とそのバリアント上の iTransformer を評価しました。視点を単純に反転するだけで、Transformer ベースの予測子のパフォーマンスが向上し、効率が向上し、目に見えない変数に一般化され、過去の観察をより有効に活用できることがわかりました。 表 2 は、Transformer と対応する iTransformer を評価します。注目すべきは、このフレームワークがさまざまなトランスフォーマーを継続的に改善していることです。全体的に、Transformer は平均 38.9% 向上し、Reformer は平均 36.1% 向上し、Informer は平均 28.5% 向上し、Flowformer は平均 16.8% 向上し、Flashformer は平均 32.2% 向上しました。 さらに、反転構造は変数次元上の注意メカニズムを採用しているため、線形複雑度による効率的な注意の導入により、実際のアプリケーションでは非常に一般的であるが、チャネル独立のリソースを消費する可能性がある 6 つの変数によって引き起こされる効率の問題が根本的に解決されます。したがって、iTransformer は Transformer ベースの予測子に広く適用できます。 この仮説を検証するために、研究者らは iTransformer を別の一般化戦略である Channel Independent と比較しました。Channel Independent は、共有 Transformer を使用してすべてのバリアントのパターンを学習する戦略です。図 5 に示すように、チャネル独立 (CI-Transformers) の一般化誤差は大幅に増加する可能性がありますが、iTransformer 予測誤差の増加ははるかに小さくなります。 注意ネットワークとフィードフォワード ネットワークの役割が逆転しているため、図 6 では、ルックバックの長さが増加するにつれて Transformer と iTransformer のパフォーマンスを評価します。これは、時間的次元で MLP を活用する根拠を検証します。つまり、Transformer は拡張されたルックバック ウィンドウの恩恵を受けることができ、より正確な予測を得ることができます。 モデル分析 トランスフォーマーのコンポーネントの合理性を検証するために、研究者らはコンポーネントの交換 (Replace) とコンポーネントの除去 (w/o) 実験を含む詳細なアブレーション実験を実施しました。表3に実験結果を示します。 詳細は原文をご参照ください。 |
<<: OpenAIの初の開発者会議が事前に「公開」され、新しいChatGPTプロトタイプGizmoが公開された
>>: AIアライメントを徹底レビュー!北京大学などが800以上の文書から4万語を要約し、多くの著名な学者が執筆を担当した。
サイバーセキュリティは、攻撃と防御の継続的なゲームです。防御戦略が進化し続ける一方で、攻撃者も攻撃の...
GPT-4やLlamaなどの基本モデル(FM)が次々と誕生し、現在の生成AIのエンジンとなっています...
環球時報などの報道によると、春の干ばつ、少雨、強風の影響で、18日にモンゴルで草原の山火事が発生した...
生成型人工知能 (GenAI) を実装したいですか? 朗報です! ほとんどの IT 意思決定者は、こ...
人工知能と自動化はもはやSFの世界の話ではなく、ビジネスの世界と消費者の世界の両方で非常に現実的かつ...
2020 年に入り、さまざまな業界で人工知能技術の導入が進み続けています。この二次微分効果は、ビジネ...
この記事は、テンセントCSIGテクニカルディレクターの黄文馨氏が[WOT2023深圳駅]カンファレン...
シカゴ大学の助教授イシャヌ・チャトパディアイ氏は、彼と彼のチームが「アーバン・ツイン」モデルを作成し...
人工知能 (AI) とデジタル ツインは、複数の業界で重要な用途を持つ、よく議論される 2 つの技術...
2018年3月18日、アメリカ・アリゾナ州で、セーフティドライバーを乗せたUberの自動運転車が道...
[[358972]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitA...