あなたは統計学者になれますか？トランスフォーマーの強力な学習メカニズム「自動アルゴリズム選択」

ChatGPT などの大規模な Transformer ベースの言語モデルには、非常に強力なコンテキスト内学習 (ICL) 機能があり、少数のサンプルを入力するだけで、同様の質問に正しく答えることができます。この ICL 機能をどのように理解すればよいでしょうか?

著者らは、ICL の新しいメカニズムである自動アルゴリズム選択を実験的に発見し、実証しました。これにより、統計学や機械学習の専門家が実際に達成できるものと同様に、単一の Transformer モデルで、さまざまな入力データに適した完全に異なる学習アルゴリズムを実行することを選択できるようになります。この記事では、量子化された Transformer の構築に基づいて、近似精度、予測パフォーマンス、事前トレーニング済みサンプルの複雑さなど、Transformer が ICL を実装するための包括的な統計理論も提供します。

写真

論文アドレス: https://arxiv.org/abs/2306.04637

TransformerはICLで機械学習タスクを実行できる

ChatGPT などの大規模な Transformer ベースのモデルは、入力テキストに基づいてコンテキストから学習できます。この能力を体系的に理解するにはどうすればよいでしょうか? NeurIPS 2022 の論文 (Garg et al. 2022) では、Transformer がコンテキストから機械学習タスクを実行する能力が検討されました。

N 個のトレーニングサンプルと 1 つのテストサンプル (x_1、y_1、…、x_N、y_N、x_{N+1}) をシーケンスとして Transformer に入力し、Transformer に y_{N+1} を出力するように要求します。これらのサンプルは線形モデルなどの単純な統計モデルから取得されますが、各シーケンスは異なるモデルパラメーター (w_\star) によって生成されます。 Transformer が y_{N+1} を常に正しく予測するには、トレーニングサンプルから真のパラメーター w_\star を学習し、それを予測に使用する必要があります。

Gargらは、訓練されたTransformerは常にy_{N+1}を正確に予測でき、その予測性能はデータに対する最適なアルゴリズムに匹敵することを発見しました。たとえば、線形モデルでは、Transformer の予測効果は Least Squares に匹敵し、スパース線形モデルでは Lasso に匹敵し、決定木では Gradient Boosting を上回ることがあります。

写真

図1: TransformerはICLで機械学習タスクを完了できる (Garg et al. 2022)

Transformer はさまざまなタスクで最適なアルゴリズムを実装していますが、これらのアルゴリズムは標準的な機械学習アルゴリズムにすぎず、ChatGPT などの大規模モデルの強力な ICL 機能を完全に説明するにはほど遠いものです。もっと強力なメカニズムはありますか?

自動アルゴリズム選択

統計学者や機械学習の専門家は、実際のデータをどのように分析するのでしょうか?統計学者は、データセットが与えられると、まずデータの構造とサイズを決定し、次にデータの特性に基づいて最も適切なアルゴリズムを選択します。どのアルゴリズムが適切かわからない場合は、複数のアルゴリズムを同時に試し、検証分割またはクロス検証を使用して、パフォーマンスが最も優れたアルゴリズムを選択します。

この記事の著者は、Transformer も同様の自動アルゴリズム選択機能を備えていることを発見しました。自動アルゴリズム選択により、統計学者が実際に実行できるのと同様に、単一の Transformer モデルでさまざまな ICL 問題に対して異なるアルゴリズムを選択できます。

著者は、2 つの一般的なアルゴリズム選択メカニズムを示し、Transformer モデルがこれら 2 つのメカニズムを実装できることを理論的に証明し、Transformer がこれら 2 つのメカニズムを近似的に実装できることを実験的に検証し、単一の機械学習アルゴリズムよりも強力な結果を達成しています。

メカニズム1: 検証セットを使用してアルゴリズムを選択する

このメカニズムでは、Transformer はまず入力データをトレーニングセットと検証セットに分割します。次に、トレーニングセットで K 個のアルゴリズムが同時に実行され、検証セットで K 個のアルゴリズムのパフォーマンスがテストされ、最後に最もパフォーマンスの高いアルゴリズム k_star を使用して予測が行われます。

図 2: アルゴリズムの選択に検証セットを使用する (右) と例 (左)。

このメカニズムを使用することで、Transformer は広範囲にわたるアルゴリズム選択を完了できます。下の図に示すように、適切な事前トレーニングにより、Transformer は異なる正則化を持つ 2 つのリッジ回帰アルゴリズムを同時に実装し、特定のデータ分布に適したアルゴリズムを実装できます。さらに、このタスクでは、Transformer がタスク全体のベイズ最適パフォーマンスを近似できることを理論的に証明できます。

図 3: 単一のトランスフォーマーは、ノイズが異なる 2 つの線形モデルで同時に最適値に近づくことができます。各モデルにおいて、Transformer の予測は、そのモデルのベイズ最適アルゴリズム (異なる正規化によるリッジ回帰) に近くなります。

仕組み2：データ分布を事前に確認する

このメカニズムでは、Transformer は事前にデータ分布を調べて適切なアルゴリズムを決定します (いくつかの統計を計算するなど)。たとえば、下の図では、単一の Transformer で、回帰問題に対して回帰アルゴリズム (線形回帰など) を実装し、分類問題に対して分類アルゴリズム (ロジスティック回帰など) を実装できます。

図 4: データ分布の予備検証 (右) と例 (左)。

図 5: 単一のトランスフォーマーは、回帰問題と分類問題の両方でほぼ最適なパフォーマンスを実現できます。回帰問題では最小二乗法に近く、分類問題ではロジスティック回帰に近くなります。

理論的枠組み

自動アルゴリズム選択に加えて、この論文のもう一つの大きな貢献は、Transformer ICLの完全な統計学習理論セットを提供することであり、

Transformer が、最小二乗法、Lasso、リッジ回帰、一般化線形モデルを解くための凸最適化アルゴリズム、ニューラルネットワーク上の勾配降下法など、さまざまな機械学習アルゴリズムの特定の構築をどのように実装するか。
上記の Transformer のサイズの正確な境界 (レイヤーの数、アテンションヘッドの数、重み行列のノルム)。
標準的な統計的仮定に基づく ICL における上記トランスフォーマーの予測パフォーマンス。
Transformer は、自動アルゴリズム選択を実装するときに同様の保証を実装します。
上記の効果のサンプルの複雑さは、Transformer を事前トレーニングすることによって実現されます。

この理論は、Transformer が ICL を実行するための完全な分析フレームワークを提供します。著者らは、このフレームワークは関連する問題の大規模なクラスに拡張でき、同様の理論的保証を提供できると考えています。

結論

この論文では、Transformer モデルが ICL で自動アルゴリズム選択を実行できることを理論的かつ実験的に明らかにし、ICL の完全な理論的枠組みを提供します。

この記事の結論に基づくと、ICL または自動アルゴリズム選択の他のメカニズム、ICL でベイズ最適パフォーマンスを近似するための他のメカニズム、事前トレーニング済みの Transformer がアルゴリズム選択の内部メカニズムを実装する方法、その他の ICL タスクの分析など、まだ多くの調査の余地があります。著者らは、これらの問題をさらに調査することで、大規模モデルに関するより興味深い発見につながると考えています。

著者について

この記事の著者である Yu Bai は現在、Salesforce Research の上級研究科学者です。ファン・チェンは北京大学で学士号を取得し、MITの博士課程に入学する予定です。 Huan Wang 氏と Caiming Xiong 氏は現在、それぞれ Salesforce Research のリサーチディレクターと副社長を務めています。ソン・メイは現在、カリフォルニア大学バークレー校の統計学部の助教授です。

<<: 人工知能は ICT 専門家にとって味方でしょうか、それとも敵でしょうか?

>>: ChatGPTコードインタープリターとJupyter Notebookを組み合わせてコーディング機能を強化