時系列を大規模モデルと組み合わせることはできますか?アマゾンの最新研究：大規模モデルで時系列予測を説明できる

最近、Amazon は時系列予測にビッグモデルを使用する方法に関する論文を発表しました。これは時系列予測におけるビッグモデルの初めての調査であり、ビッグモデルを使用して金融シナリオ予測におけるマルチモーダルデータ処理機能と解釈可能性を向上させます。この記事は興味深い調査であり、そのアイデアは参考として使用できますが、SOTA の結果を達成するにはさらなる研究が必要です。以下では、この記事のモデリングのアイデアを紹介します。

論文タイトル: 時間データと LLM の融合 - 説明可能な金融時系列予測

ダウンロードアドレス: https://arxiv.org/pdf/2306.11025v1.pdf

1.問題の背景

金融分野は時系列予測技術の重要な応用シナリオです。通常の時系列予測とは異なり、金融分野における時系列予測モデリングは、主に次の 3 つの側面で大規模なモデルを使用して解決できるより複雑な課題に直面しています。

最初のポイントは、シーケンス間の複雑な関係をどのようにモデル化するかということです。株価予測では、異なる株価の間には強い依存関係や相関関係があるため、シーケンス間の関係を適切にモデル化することが重要です。大規模モデルには強力なシーケンスモデリング機能と複数シーケンスの関係モデリング機能があるため、大規模モデルのこれらの機能をシーケンス予測に適用することができます。

2つ目のポイントは、テキストデータを処理する能力です。金融シナリオにおける現在の時系列予測の問題の多くは、金融情報を処理し、それを時系列予測モデリングに統合する方法に焦点を当てています。株価の変動は主に財務情報から生じており、単純な時系列モデリングではすべての情報をカバーすることはできません。このマルチモーダル情報の効果的な導入は、金融シナリオにおける時系列予測効果に大きく役立ちます。大規模なモデルは当然強力なテキスト処理機能を備えているため、当然この問題に対する強力なソリューションとなります。

3 つ目のポイントは解釈可能性です。これもさまざまな分野のディープラーニングモデルが追求しているポイントです。モデルの予測結果をいかに解釈可能にするかによって、予測結果の価値が高まり、私たちの行動を導くことができます。大規模モデルは解釈可能性も高く、たとえば、思考の連鎖やその他の方法を通じて、与えられた回答の理由を生成できます。

上記の考慮に基づいて、本論文では、大規模なモデルを使用して時系列を実行し、上記の 3 つの問題を同時に解決することを試みます。

2.実施方法

全体的なモデリング方法は、主に時系列処理、テキスト情報の導入、プロンプト設計、および命令チューニングに基づく大規模モデルの微調整の4 つの部分で構成されます。

時系列処理：本稿では、時系列を離散化により記号表現に変換する。本稿における予測対象は、ナスダック100の各企業の株式の投資収益、すなわち、サイクルの始まりと比較したサイクルの終わりの株価の上昇である。この記事では、増加を記号に変換します。たとえば、D1 は 1% 以内の低下を表し、U2 は 2% 以内の増加を表します。これをシンボリック表現に処理すると、後続の大規模モデルに入力しやすくなります。

テキスト情報の紹介：テキスト情報に関しては、記事内でGPT4を使用して、企業全体の紹介、株価に影響を与える可能性のある長所と短所、その他のテキスト情報などの情報を生成します。また、ニュース情報の場合、後続の入力として要約生成とキーワード抽出にGPT4が使用されます。企業紹介と概要作成の例は次のとおりです。

プロンプト設計: 上記の情報を基に、全体的な予測プロンプトは下図のようになります。入力には、離散化された時系列の記号表現、GPT4 によって生成された企業プロファイル、ニュースの概要などの情報が含まれており、大規模なモデルが予測結果を提供できます。

命令チューニング：このゼロショットアプローチだけでは、大規模モデルの最強の能力を引き出せない可能性があります。そのため、この記事ではさらに命令チューニングを採用し、上記の方法を使用して30kの週間予測と7kの月間予測データを構築し、命令チューニングにオープンソースのLLaMaモデルを使用します。（Instruction Tuningはこれまでの記事でも何度も紹介してきました。基本的にはタスクをテキストに変換し、言語モデルをターゲットとして大規模モデルを微調整するものです）

3.実験結果

次の表は、この記事の実験結果を示しています。主に、大規模モデルの効果と、いくつかの単純な時系列予測方法との違いを比較しています。全体的に、このような粗粒度の予測には大規模なモデルを使用することが可能です。同時に、GPT4 の効果は非常に大きく、GPT4 の少数ショット効果は、LLaMa に基づく命令チューニング方法よりも優れています。