LLM に代わる 2 億パラメータのタイミングモデル? Googleの画期的な研究は「初心者のミス」と批判される

最近、Google の論文が X などのソーシャルメディアプラットフォーム上で論争を巻き起こしました。

この論文のタイトルは「時系列予測のためのデコーダーのみの基礎モデル」です。

簡単に言えば、時系列予測とは、履歴データの変化する傾向とパターンを分析して、将来のデータの変化を予測することです。この種の技術は、天気予報、交通量予測、商業販売などの分野で幅広く応用されています。たとえば、小売業界では、需要予測の精度を向上させることで、在庫コストを効果的に削減し、収益を増やすことができます。

近年、ディープラーニングモデルはさまざまな設定で優れたパフォーマンスを発揮することが示されているため、豊富な多変量時系列データを予測するための人気のアプローチになっています。

しかし、これらのモデルにはいくつかの課題もあります。ほとんどのディープラーニングアーキテクチャでは、長くて複雑なトレーニングと検証のサイクルが必要であり、このサイクルを短縮するためのすぐに使える基本モデルが緊急に必要とされています。

Google の新しい論文はこの問題に対処するために作成されました。論文では、時系列予測のためのデコーダーのみの基本モデルである TimesFM が提案されました。これは、1,000 億の実際の時点の大規模な時系列コーパスで事前トレーニングされた単一の予測モデルです。最先端の大規模言語モデルと比較すると、TimesFM ははるかに小さくなります (パラメーターは 2 億個のみ)。しかし、この規模であっても、さまざまなドメインと時間粒度のさまざまな未知のデータセットに対するゼロショットのパフォーマンスは、これらのデータセットで明示的にトレーニングされた SOTA 教師あり手法のパフォーマンスに近いことがわかりました。

このアイデアは有望に見え、ある人は「TimesFM は、大規模な時系列コーパスでの事前トレーニングの威力を実証しています。さまざまな公開ベンチマークで実証されたゼロショットのパフォーマンスは本当に素晴らしいです。」とコメントしています。

しかし、使用された評価方法とベンチマークに疑問を呈する人々もいる。ロンドン大学ロイヤル・ホロウェイ校卒業生のヴァレリー・マノキン博士は、論文の著者らが「初歩的なミス」を犯し、「誤解を招く」ベンチマークを使用したと指摘した。

何が起こっているのか？まず、Google のこの論文に何が書かれているのか見てみましょう。

問題となった論文には何が書かれていましたか?

先週の金曜日、Google AI はこの研究を紹介するブログ記事を公開しました。

現在よく見られる大規模言語モデル (LLM) では、通常、トレーニング中にデコーダーのみを使用し、そのプロセスには 3 つのステップが含まれます。まず、テキストはトークンと呼ばれるサブワードに分割されます。次に、トークンはスタックされた因果トランスフォーマーレイヤーに送られ、各入力トークンに対応する出力が生成されます。最後に、i 番目のトークンに対応する出力は、前のトークンのすべての情報を要約し、(i+1) 番目のトークンを予測します。

推論中、LLM は一度に 1 つのトークンの出力を生成します。たとえば、「フランスの首都は何ですか?」というプロンプトが表示された場合、トークン「The」が生成され、次に「フランスの首都は何ですか? The」という条件が生成されます。次のトークン「首都」を生成し、完全な答え「フランスの首都はパリです」が生成されるまでこれを繰り返します。

時系列予測の基本モデルは、大規模な事前トレーニングデータセット内のすべてのパターンをエンコードできるほど強力でありながら、さまざまなコンテキスト (観察するもの) とスコープ (モデルに予測を求めるもの) の長さに適応できると考えています。

LLM と同様に、TimesFM モデルの主な構成要素として、積み重ねられたトランスフォーマーレイヤー (自己注意レイヤーとフィードフォワードレイヤー) を使用できます。時系列予測の文脈では、パッチ（連続した時点のセット）は、最近の長期予測作業のトークンと見なされます。次に、スタックされたトランスフォーマー層の最後の i 番目の出力に基づいて、(i+1) 番目のタイムステップパッチを予測するタスクが発生します。

論文「時系列予測のためのデコーダーのみの基礎モデル」では、Google の研究者が時系列の基礎モデルの設計を試み、ゼロショットタスクで良好な結果を達成しました。

論文リンク: https://arxiv.org/abs/2310.10688

この研究では、研究者らは予測のための基本的な時系列モデル TimesFM を設計しました。このモデルのさまざまな公開データセットに対するゼロショット機能は、業界の現在のトップレベルに近いものです。このモデルは、わずか 2 億個のパラメータを持つパッチデコーダースタイルの注意モデルであり、実世界データと合成データを含む大規模な時系列コーパスで事前トレーニングされています。

Google によると、初めて遭遇したさまざまな予測データセットでの実験により、このモデルがさまざまなドメイン、予測範囲、および時間の粒度にわたって正確なゼロショット予測を生成できることが示されたという。

時系列の基本モデルは、トレーニングデータとコンピューティングの要件を大幅に削減できるため、アプリケーション側に多くの利点をもたらします。しかし、時系列推論の基本モデルが実現可能なアプローチであるかどうかは、まだ議論中です。まず第一に、NLP とは異なり、時系列には明確に定義された語彙や文法がありません。さらに、新しいモデルでは、異なる履歴の長さ (コンテキスト)、予測の長さ (期間)、および時間粒度での予測をサポートする必要があります。さらに、言語モデルの事前トレーニングに使用される大量の公開テキストデータとは異なり、大規模な時系列データセットを構築するのは簡単ではありません。

Google は、これらの問題にもかかわらず、上記の質問に肯定的に答える証拠を提供したと述べています。

図 1: トレーニング中のモデルアーキテクチャ。入力パッチに分解できる特定の長さの入力時系列を表示します。

従来の言語モデルとはいくつかの重要な違いがあります。まず、時系列パッチを位置エンコーディング (PE) とともに Transformer レイヤーに入力できるトークンに変換するための、残差接続を備えた多層パーセプトロンブロックが必要です。これを実現するために、Google は長期予測に関する以前の作業と同様の残差ブロックを使用しました。次に、もう一方の端では、スタックされたトランスフォーマーからの出力トークンを使用して、入力パッチの長さよりも長い後続のタイムポイントの長さを予測できます。つまり、出力パッチの長さは入力パッチの長さよりも長くなる可能性があります。

Google の研究者は、ベースラインが特定のタスクごとに特別にトレーニングまたは調整されている場合でも、TimesFM 用の単一の事前トレーニング済みモデルがベンチマークでベースラインモデルのパフォーマンスに近づくか、それを上回ることができると考えています。

図 2: 3 つのデータセットにおける新しい方法と従来の方法の平均パフォーマンスの比較。指数が低いほど優れています。 Google によると、ベースラインテストでは TimesFM と llmtime のみがゼロサンプルだったとのことです。

図 6: Darts および Monash データセットにおける推論の視覚化。右の図は左の予測部分を拡大したものです。

背景からアイデア、手法、テストまでの一連のプロセスが完了しており、順調に進んでいる模様。Googleでは、このモデルを年内にGoogle Cloud Vertex AIを通じて社外の顧客にも提供していく予定だ。

予想外に、その論文は論争を巻き起こした。

ヴァレリー・マノキンはどのような疑問を提起しますか?

論文の評価方法と選択されたベンチマークに疑問を呈しているのは、機械学習の博士課程の学生である Valery Manokhin 氏です。彼の研究分野には、確率予測、確率予測、機械学習、ディープラーニング、人工ニューラルネットワーク、人工知能、データマイニングが含まれます。

彼はまず、モデルのパフォーマンスを視覚的に示すために論文でグラフ（特に図 6）を使用したのは初心者のミスだと指摘しました。 Christoph Bergmeir と Hansika Hewamalage は、チュートリアル「データサイエンティストのための予測評価: よくある落とし穴とベストプラクティス」の中で、生成された予測の見た目の魅力やその可能性は、予測を評価するための適切な基準ではないことを明確にしています。

次に、Valery Manokhin 氏は、Google の著者らが「ベースモデル」のパフォーマンスを向上するために標準的な戦略を使用したと述べました。これは、従来のモデルで非常に簡単に、ほぼ完璧に適合できる古典的なデータセット (非常に古い航空会社の乗客データなど) を選択するというものです。さらに、Google の著者は、比較のベースラインとして従来のモデルを選択せず、代わりにパフォーマンスの低い別のモデル (llmtime) をコントロールとして選択しました。

Valery の質問に対して、Google Research の Rajat Sen (論文の著者の 1 人) が投稿の下に返信しました。まず、批評家たちは論文中の航空会社の乗客のデータセットというたった 1 つの例に注目し、それが論文で提示された唯一のパフォーマンスデータであると誤って想定したと指摘しています。著者らは、実際には複数のデータセット (Monash、Darts、ETT) でのモデルのパフォーマンスを報告していることを明らかにしています。

さらに、著者らはモデルのパフォーマンスを視覚的に評価しなかったことを強調しています。図 6 は説明のみを目的としており、全体的なパフォーマンスは図 2 に示されています。

著者らは、モデルのパフォーマンスを美化するために結果を恣意的に選択したわけではないことを明確に述べています。図 2 では、一部の教師あり学習モデルの方が彼らのモデルよりもパフォーマンスが優れている可能性があることが示されていますが、彼らのモデルはゼロショットモデルであり、これは重要な利点です。

しかし、ヴァレリー・マノキン氏は、モナッシュ大学のデータセットでは、Google の TimesFM が他のモデルに遅れをとっていると指摘した。

この点に関して、Rajat Sen 氏は Valery Manokhin 氏が非常に重要な点を見落としていると指摘しました。TimesFM は Monash の既存の多くのベースラインよりも優れたパフォーマンスを示しましたが、最も重要なのは、これらのベースラインはこれらのデータセットのみで「トレーニング」されたのに対し、TimesFM は「ゼロサンプル」で予測されたことです。

その後、二人の議論は本文中のある一文に集中した。著者らは論文の序文で、「M5「Accuracy」コンペティションやIARAI Traffic4castコンペティションなど、いくつかの予測コンペティションで優勝したソリューションのほぼすべてが、ディープニューラルネットワークに基づいている」と書いている。ヴァレリー・マノキン氏は、この記述は誤解を招くものだと考えている。

これに対してラジャット・セン氏は、これは記事の核心的な議論ではなく、さらに議論する余地があると述べた。

現在も両者の討論はXプラットフォーム上で更新されており、興味のある読者は視聴することができる。

<<: OpenAI の公式プロンプト単語ガイドよりも包括的な 26 の黄金律により、LLM のパフォーマンスが 50% 以上向上します。

>>: CMU と ETH が画期的な成果を達成: 敏捷性が最大限に高められたロボット犬は、スピードと安全性を兼ね備え、超高速で障害物を乗り越えることができます。