Transformer のコンテキスト学習機能はどこから来るのでしょうか?

Transformer のコンテキスト学習機能はどこから来るのでしょうか?

トランスフォーマーはなぜ優れたパフォーマンスを発揮するのでしょうか?多くの大規模言語モデルにもたらされるコンテキスト内学習機能はどこから来るのでしょうか?人工知能の分野では、トランスフォーマーはディープラーニングの主流モデルとなっていますが、その優れたパフォーマンスの理論的根拠は十分に研究されていません。

最近、Google AI、ETH チューリッヒ、Google DeepMind の研究者による新たな研究がこの謎を解こうとしています。新しい研究では、トランスフォーマーをリバースエンジニアリングし、いくつかの最適化手法を発見しました。論文: Transformers におけるメサ最適化アルゴリズムの解明

論文リンク: https://arxiv.org/abs/2309.05858

著者らは、一般的な自己回帰損失を最小化すると、Transformer のフォワード パスで実行される補助的な勾配ベースの最適化アルゴリズムが得られることを示しています。この現象は最近「メサ最適化」と呼ばれています。さらに研究者らは、結果として得られたメサ最適化アルゴリズムが、モデルのサイズに関係なく、コンテキスト内少数ショット学習機能を発揮することを発見しました。したがって、この新しい結果は、大規模言語モデルにおける小規模学習に関するこれまでの研究を補完するものである。

研究者らは、Transformers の成功は、フォワード パスでメサ最適化アルゴリズムを実装するというアーキテクチャ上の偏向、つまり (i) 内部学習目標の定義と (ii) 最適化に基づいていると主張しています。

図 1: 新しい仮説の図解: 自己回帰トランスフォーマー fθ の重み θ を最適化すると、モデルのフォワード パスに実装されたメサ最適化アルゴリズムが生成されます。入力シーケンス s_1 として、. 。 、s_tは時間ステップtまで処理され、Transformerは(i)入力とターゲットの関連ペアで構成される内部トレーニングセットを作成し、(ii)結果のデータセットに対して内部目的関数を定義します。この関数は重みWを使用して内部モデルのパフォーマンスを測定するために使用され、(iii)この目的を最適化し、学習したモデルを使用して将来の予測を生成します。

この研究の貢献は次のとおりです。

  • 我々はフォン・オズワルドらの理論を一般化し、理論的には、勾配ベースの方法を使用して内部的に構築された目的を最適化することにより、トランスフォーマーがシーケンスの次の要素を自己回帰的に予測できる方法を示します。
  • 私たちは、単純なシーケンスモデリングタスクでトレーニングされたトランスフォーマーを実験的にリバースエンジニアリングし、そのフォワードパスが2段階のアルゴリズムを実装しているという強力な証拠を発見しました。(i) 初期の自己注意層は、トークンをグループ化してコピーすることで、内部トレーニングデータセットを暗黙的に構築します。内部目的関数を定義し、(ii)これらの目的をさらに最適化して予測を生成します。
  • LLM と同様に、実験では、単純な自己回帰トレーニング済みモデルもコンテキスト学習者になることができ、オンザフライ調整は LLM のコンテキスト学習を改善するために重要であり、特定の環境でのパフォーマンスも改善できることが示されています。
  • 注意層が内部目的関数を暗黙的に最適化しようとするという観察に着想を得て、著者らは、最適値を達成するために単一の勾配ステップを実行するのではなく、最小二乗最適化問題を効率的に解決する新しいタイプの注意層であるメサ層を導入しました。実験では、単一のメサ レイヤーが、単純なシーケンシャル タスクにおいて、ディープ リニア トランスフォーマーやソフトマックス セルフ アテンション トランスフォーマーよりも優れたパフォーマンスを発揮し、より高い解釈可能性も提供することが示されています。


  • 予備的な言語モデリング実験の結果、標準の自己注意レイヤーをメサ レイヤーに置き換えると有望な結果が得られ、レイヤーの強力なコンテキスト学習機能が実証されました。

最近の研究に基づいて、コンテキスト内で少数ショットのタスクを解決するように明示的にトレーニングされたトランスフォーマーは、勾配降下法 (GD) アルゴリズムを実装できることが示されています。ここで著者らは、これらの結果が、LLM をトレーニングするための一般的なアプローチである自己回帰シーケンス モデリングに一般化できることを示しています。

まず、クロスシーケンスメモリを防ぐために各シーケンスが異なる W* によって生成される、単純な線形ダイナミクスでトレーニングされたトランスフォーマーを分析します。このシンプルなセットアップでは、著者は、トランスフォーマーがメサ データセットを作成し、前処理された GD を使用してメサの目的を最適化する方法を示しています。

この研究では、隣接するシーケンス要素を集約するトークン構造に基づいてディープ トランスフォーマーをトレーニングします。興味深いことに、この単純な前処理により、非常にスパースな重みマトリックス(重みの 1% 未満がゼロ以外)が生成され、リバース エンジニアリング アルゴリズムが生成されます。

線形自己注意の単一レイヤーの場合、重みは 1 つの GD ステップに対応します。ディープトランスフォーマーの場合、解釈可能性は難しくなります。この研究は線形プローブに依存しており、隠れた活性化が自己回帰ターゲットまたは前処理された入力を予測できるかどうかを調べます。

興味深いことに、両方の検出方法の予測可能性は、ネットワークの深さとともに徐々に向上します。この発見は、前処理 GD がモデル内に隠されていることを示唆しています。

図 2: トレーニング済みの線形自己注意層のリバース エンジニアリング。

この研究では、学習した学習率 η だけでなく、学習した初期重み W_0 のセットも含め、すべての自由度を構築に使用すると、トレーニング層を完全に適合できることが分かりました。重要なのは、図 2 に示すように、学習したワンステップ アルゴリズムのパフォーマンスが、単一のメサ レイヤーのパフォーマンスよりも大幅に優れていることです。

単純な重み設定により、基本的な最適化を通じて、このレイヤーがここで研究したタスクを最適に解決できることが簡単にわかります。この結果は、メサ最適化に有利な、誘導バイアスをハードコーディングする利点を示しています。

多層ケースに関する理論的な洞察に基づいて、まずディープ リニア アテンション トランスフォーマーとソフトマックスのみのアテンション トランスフォーマーを分析します。著者らは、4チャネル構造に従って入力形式を設定しました。これは、W_0 = 0を選択することに相当します。

単層モデルと同様に、著者らはトレーニングされたモデルの重みに明確な構造を確認しています。最初のリバースエンジニアリング分析として、この研究ではこの構造を活用し、レイヤーヘッダーごとに 16 個のパラメーター (3200 個ではなく) を持つアルゴリズム (RevAlg-d、d はレイヤーの数を表す) を構築します。著者らは、この圧縮された複雑な表現が、訓練されたモデルを記述できることを発見した。特に、実際の Transformer と RevAlg-d の重みの間の補間をほぼロスレスで実行できます。

RevAlg-d 式は、少数の自由パラメータを持つトレーニング済みの多層 Transformer を説明しますが、それをメサ最適化アルゴリズムとして解釈することは困難です。そのため、著者らは線形回帰検出分析 (Alain & Bengio、2017 年、Akyürek ら、2023 年) を使用して、仮説上のメサ最適化アルゴリズムの特性を調べました。

図 3 に示す深層線形自己注意トランスフォーマーでは、両方のプローブを線形にデコードでき、シーケンスの長さとネットワークの深さに応じてデコード パフォーマンスが向上することがわかります。したがって、ベース最適化では、メサ最適化問題の条件数を改善しながら、元のメサ目的関数 Lt (W) をレイヤーごとに下降するハイブリッド アルゴリズムが発見されます。その結果、メサ対物レンズの Lt (W) が急速に減少します。さらに、深さが増すにつれてパフォーマンスが大幅に向上することがわかります。

したがって、自己回帰メサ目標Lt(W)の急速な減少は、より適切に前処理されたデータに対して段階的(クロスレイヤー)メサ最適化を実行することによって達成されると考えられます。

図 3: 構築されたトークン入力をリバース エンジニアリングするための多層 Transformer トレーニング。

これは、トランスフォーマーが構築されたトークンでトレーニングされた場合、mesa 最適化を使用して予測を行うことを示しています。興味深いことに、シーケンス要素を直接与えられた場合、トランスフォーマーは独自に要素をグループ化してトークンを構築します。研究チームはこれを「メサ データセットの作成」と呼んでいます。

結論は

この研究では、Transformer モデルは、標準的な自己回帰目的のもとでシーケンス予測タスク用にトレーニングされた場合、勾配ベースの推論アルゴリズムを開発できることが示されています。したがって、マルチタスクのメタ学習設定で得られた最先端の結果は、従来の自己教師あり LLM トレーニング設定にも転送できます。

さらに、この研究では、学習した自己回帰推論アルゴリズムは、再トレーニングなしで教師あり文脈学習タスクを解決するために再利用でき、単一の統一されたフレームワーク内で結果を説明できることが分かりました。

それで、これは文脈内学習とどのように関係するのでしょうか?この研究では、トランスフォーマーを自己回帰シーケンスタスクでトレーニングした後、適切なメサ最適化が達成され、微調整なしで少量のコンテキスト学習が可能になると主張しています。

この研究では、LLM にもメサ最適化があり、コンテキスト学習能力が向上すると想定しています。興味深いことに、この研究では、LLM のプロンプトを効果的に適応させることで、文脈学習能力が大幅に向上する可能性があることも観察されました。


興味のある読者は、原著論文を読んで研究内容の詳細を知ることができます。

<<: 

>>: 

推薦する

これは機械学習ツールに関する最も包括的なハンドブックかもしれません。

[[419906]]私はこれまで、人工知能とデータサイエンスのオープンソース プロジェクトを数多く...

なぜ巨人たちはドローンに群がるのか?

近年、我が国のドローン産業は急速な発展を遂げています。飛行制御、ナビゲーション、通信、センシングなど...

AIがビールの品質をコントロールするので、コスト効率と信頼性が高まります。

海外メディアの報道によると、食品・飲料業界では人工知能やモノのインターネット技術がますます頻繁に利用...

安定的な動画拡散をリリースしました! 3D合成機能が注目を集める、ネットユーザー「進歩が速すぎる」

安定拡散当局はついにこのビデオに対して行動を起こした――生成ビデオモデルStable Video D...

...

「Nuwa」のAIバージョンが登場!テキストから画像とビデオの生成: 8 つのタスクに 1 つのモデル

最近、視覚合成というタスクが大きな注目を集めています。 NVIDIA の GauGAN は数日前にバ...

...

...

マーク・アンドリーセン氏、AIが世界を救うと語る

ベンチャーキャピタルの億万長者マーク・アンドリーセン氏は、世界は現在人工知能に関して「ヒステリー」状...

次世代ビッグデータ・人工知能基盤技術の発展と動向

2018 年はオープンソース ソフトウェアの歴史の中で最もエキサイティングな年でした。2 件の IP...

...

南洋理工大学と香港中文大学の Talk-to-Edit: 対話により非常にきめ細かな顔の編集が可能に

[[425172]]南洋理工大学と香港中文大学の研究者らは、ユーザーとシステム間の対話を通じてきめ...

1865年から始まるビジネスインテリジェンスの簡単な歴史

[[206158]]ビジネス インテリジェンス (BI) という用語は、1865 年にリチャード ミ...

PyCaret: 機械学習モデルの開発が簡単に

今日の急速に変化するデジタル世界では、組織はローコード/ノーコード (LC/NC) アプリケーション...

...