Transformer のコンテキスト学習機能はどこから来るのでしょうか?

トランスフォーマーはなぜ優れたパフォーマンスを発揮するのでしょうか?多くの大規模言語モデルにもたらされるコンテキスト内学習機能はどこから来るのでしょうか?人工知能の分野では、トランスフォーマーはディープラーニングの主流モデルとなっていますが、その優れたパフォーマンスの理論的根拠は十分に研究されていません。

最近、Google AI、ETH チューリッヒ、Google DeepMind の研究者による新たな研究がこの謎を解こうとしています。新しい研究では、トランスフォーマーをリバースエンジニアリングし、いくつかの最適化手法を発見しました。論文: Transformers におけるメサ最適化アルゴリズムの解明

論文リンク: https://arxiv.org/abs/2309.05858

著者らは、一般的な自己回帰損失を最小化すると、Transformer のフォワードパスで実行される補助的な勾配ベースの最適化アルゴリズムが得られることを示しています。この現象は最近「メサ最適化」と呼ばれています。さらに研究者らは、結果として得られたメサ最適化アルゴリズムが、モデルのサイズに関係なく、コンテキスト内少数ショット学習機能を発揮することを発見しました。したがって、この新しい結果は、大規模言語モデルにおける小規模学習に関するこれまでの研究を補完するものである。

研究者らは、Transformers の成功は、フォワードパスでメサ最適化アルゴリズムを実装するというアーキテクチャ上の偏向、つまり (i) 内部学習目標の定義と (ii) 最適化に基づいていると主張しています。

図 1: 新しい仮説の図解: 自己回帰トランスフォーマー fθ の重み θ を最適化すると、モデルのフォワードパスに実装されたメサ最適化アルゴリズムが生成されます。入力シーケンス s_1 として、. 。、s_tは時間ステップtまで処理され、Transformerは(i)入力とターゲットの関連ペアで構成される内部トレーニングセットを作成し、(ii)結果のデータセットに対して内部目的関数を定義します。この関数は重みWを使用して内部モデルのパフォーマンスを測定するために使用され、(iii)この目的を最適化し、学習したモデルを使用して将来の予測を生成します。

この研究の貢献は次のとおりです。

我々はフォン・オズワルドらの理論を一般化し、理論的には、勾配ベースの方法を使用して内部的に構築された目的を最適化することにより、トランスフォーマーがシーケンスの次の要素を自己回帰的に予測できる方法を示します。
私たちは、単純なシーケンスモデリングタスクでトレーニングされたトランスフォーマーを実験的にリバースエンジニアリングし、そのフォワードパスが2段階のアルゴリズムを実装しているという強力な証拠を発見しました。(i) 初期の自己注意層は、トークンをグループ化してコピーすることで、内部トレーニングデータセットを暗黙的に構築します。内部目的関数を定義し、(ii)これらの目的をさらに最適化して予測を生成します。
LLM と同様に、実験では、単純な自己回帰トレーニング済みモデルもコンテキスト学習者になることができ、オンザフライ調整は LLM のコンテキスト学習を改善するために重要であり、特定の環境でのパフォーマンスも改善できることが示されています。
注意層が内部目的関数を暗黙的に最適化しようとするという観察に着想を得て、著者らは、最適値を達成するために単一の勾配ステップを実行するのではなく、最小二乗最適化問題を効率的に解決する新しいタイプの注意層であるメサ層を導入しました。実験では、単一のメサレイヤーが、単純なシーケンシャルタスクにおいて、ディープリニアトランスフォーマーやソフトマックスセルフアテンショントランスフォーマーよりも優れたパフォーマンスを発揮し、より高い解釈可能性も提供することが示されています。

予備的な言語モデリング実験の結果、標準の自己注意レイヤーをメサレイヤーに置き換えると有望な結果が得られ、レイヤーの強力なコンテキスト学習機能が実証されました。

最近の研究に基づいて、コンテキスト内で少数ショットのタスクを解決するように明示的にトレーニングされたトランスフォーマーは、勾配降下法 (GD) アルゴリズムを実装できることが示されています。ここで著者らは、これらの結果が、LLM をトレーニングするための一般的なアプローチである自己回帰シーケンスモデリングに一般化できることを示しています。

まず、クロスシーケンスメモリを防ぐために各シーケンスが異なる W* によって生成される、単純な線形ダイナミクスでトレーニングされたトランスフォーマーを分析します。このシンプルなセットアップでは、著者は、トランスフォーマーがメサデータセットを作成し、前処理された GD を使用してメサの目的を最適化する方法を示しています。

この研究では、隣接するシーケンス要素を集約するトークン構造に基づいてディープトランスフォーマーをトレーニングします。興味深いことに、この単純な前処理により、非常にスパースな重みマトリックス（重みの 1% 未満がゼロ以外）が生成され、リバースエンジニアリングアルゴリズムが生成されます。

線形自己注意の単一レイヤーの場合、重みは 1 つの GD ステップに対応します。ディープトランスフォーマーの場合、解釈可能性は難しくなります。この研究は線形プローブに依存しており、隠れた活性化が自己回帰ターゲットまたは前処理された入力を予測できるかどうかを調べます。

興味深いことに、両方の検出方法の予測可能性は、ネットワークの深さとともに徐々に向上します。この発見は、前処理 GD がモデル内に隠されていることを示唆しています。

図 2: トレーニング済みの線形自己注意層のリバースエンジニアリング。

この研究では、学習した学習率 η だけでなく、学習した初期重み W_0 のセットも含め、すべての自由度を構築に使用すると、トレーニング層を完全に適合できることが分かりました。重要なのは、図 2 に示すように、学習したワンステップアルゴリズムのパフォーマンスが、単一のメサレイヤーのパフォーマンスよりも大幅に優れていることです。

単純な重み設定により、基本的な最適化を通じて、このレイヤーがここで研究したタスクを最適に解決できることが簡単にわかります。この結果は、メサ最適化に有利な、誘導バイアスをハードコーディングする利点を示しています。

多層ケースに関する理論的な洞察に基づいて、まずディープリニアアテンショントランスフォーマーとソフトマックスのみのアテンショントランスフォーマーを分析します。著者らは、4チャネル構造に従って入力形式を設定しました。これは、W_0 = 0を選択することに相当します。

単層モデルと同様に、著者らはトレーニングされたモデルの重みに明確な構造を確認しています。最初のリバースエンジニアリング分析として、この研究ではこの構造を活用し、レイヤーヘッダーごとに 16 個のパラメーター (3200 個ではなく) を持つアルゴリズム (RevAlg-d、d はレイヤーの数を表す) を構築します。著者らは、この圧縮された複雑な表現が、訓練されたモデルを記述できることを発見した。特に、実際の Transformer と RevAlg-d の重みの間の補間をほぼロスレスで実行できます。

RevAlg-d 式は、少数の自由パラメータを持つトレーニング済みの多層 Transformer を説明しますが、それをメサ最適化アルゴリズムとして解釈することは困難です。そのため、著者らは線形回帰検出分析 (Alain & Bengio、2017 年、Akyürek ら、2023 年) を使用して、仮説上のメサ最適化アルゴリズムの特性を調べました。

図 3 に示す深層線形自己注意トランスフォーマーでは、両方のプローブを線形にデコードでき、シーケンスの長さとネットワークの深さに応じてデコードパフォーマンスが向上することがわかります。したがって、ベース最適化では、メサ最適化問題の条件数を改善しながら、元のメサ目的関数 Lt (W) をレイヤーごとに下降するハイブリッドアルゴリズムが発見されます。その結果、メサ対物レンズの Lt (W) が急速に減少します。さらに、深さが増すにつれてパフォーマンスが大幅に向上することがわかります。

したがって、自己回帰メサ目標Lt（W）の急速な減少は、より適切に前処理されたデータに対して段階的（クロスレイヤー）メサ最適化を実行することによって達成されると考えられます。

図 3: 構築されたトークン入力をリバースエンジニアリングするための多層 Transformer トレーニング。

これは、トランスフォーマーが構築されたトークンでトレーニングされた場合、mesa 最適化を使用して予測を行うことを示しています。興味深いことに、シーケンス要素を直接与えられた場合、トランスフォーマーは独自に要素をグループ化してトークンを構築します。研究チームはこれを「メサデータセットの作成」と呼んでいます。

結論は

この研究では、Transformer モデルは、標準的な自己回帰目的のもとでシーケンス予測タスク用にトレーニングされた場合、勾配ベースの推論アルゴリズムを開発できることが示されています。したがって、マルチタスクのメタ学習設定で得られた最先端の結果は、従来の自己教師あり LLM トレーニング設定にも転送できます。

さらに、この研究では、学習した自己回帰推論アルゴリズムは、再トレーニングなしで教師あり文脈学習タスクを解決するために再利用でき、単一の統一されたフレームワーク内で結果を説明できることが分かりました。

それで、これは文脈内学習とどのように関係するのでしょうか?この研究では、トランスフォーマーを自己回帰シーケンスタスクでトレーニングした後、適切なメサ最適化が達成され、微調整なしで少量のコンテキスト学習が可能になると主張しています。

この研究では、LLM にもメサ最適化があり、コンテキスト学習能力が向上すると想定しています。興味深いことに、この研究では、LLM のプロンプトを効果的に適応させることで、文脈学習能力が大幅に向上する可能性があることも観察されました。

興味のある読者は、原著論文を読んで研究内容の詳細を知ることができます。

<<:

>>:

マイクロソフトとヤフーが検索広告契約を締結、Bingがヤフーの独占アルゴリズムに

Transformer のコンテキスト学習機能はどこから来るのでしょうか?

結論は

マイクロソフトとヤフーが検索広告契約を締結、Bingがヤフーの独占アルゴリズムに

Java プログラミングスキル - データ構造とアルゴリズム「ヒープソート」

IBM TRIRIGA統合ワークプレイス管理システムに新機能が追加

IoTとAIがキャッシュレス小売業をどう推進するか

脳コンピューターインターフェースツール：脳波からテキストまで、必要なのは機械翻訳モデルだけ

ディープラーニングのためのテキスト前処理方法

人工知能の発展の特徴とその3つのタイプの現れについての簡単な分析

生成 AI はデジタル変革の優先事項にどのような影響を与えますか?

ジェネレーティブAIがソフトウェア配信を支援する方法

IBM、投資先企業とフォーチュン500企業とのつながりを支援するブロックチェーン投資ファンドを立ち上げ

推薦する

2018年に人工知能はどのように発展するでしょうか?世界中のトップ20人の専門家がこう言う

【2021年開始】人工知能産業の発展は依然として多くの課題に直面している

ブロックチェーン技術の 6 つのコアアルゴリズム。6 つのコアアルゴリズムを理解すれば、ブロックチェーンの専門家になれます。

人工知能をより人間らしくする高齢者向けにAIをもっとデジタル化すべき

2019年に主流となった10のAIテクノロジー

優れたオープンソース画像背景除去プログラム8選

2018年末のAI分野におけるオープンソースフレームワークのまとめ

今検討する価値のある 21 のロボティックプロセスオートメーション (RPA) ツール

デジタルマーケティング: AI はどのようにして人間の行動パターンを「見抜く」のでしょうか?

ジェネレーションオートメーション：AI主導の労働力

ショック！自動運転車が人をはねたが、救助活動は失敗し、死亡が確認された。

ターゲット検出アルゴリズムにおける正長方形と不規則四辺形 IOU の Python 実装

自動車所有者は完全自動運転を導入すべきでしょうか?マスク氏：よく分かりません