トランスフォーマーはなぜ優れたパフォーマンスを発揮するのでしょうか?多くの大規模言語モデルにもたらされるコンテキスト内学習機能はどこから来るのでしょうか?人工知能の分野では、トランスフォーマーはディープラーニングの主流モデルとなっていますが、その優れたパフォーマンスの理論的根拠は十分に研究されていません。 最近、Google AI、ETH チューリッヒ、Google DeepMind の研究者による新たな研究がこの謎を解こうとしています。新しい研究では、トランスフォーマーをリバースエンジニアリングし、いくつかの最適化手法を発見しました。論文: Transformers におけるメサ最適化アルゴリズムの解明 論文リンク: https://arxiv.org/abs/2309.05858 著者らは、一般的な自己回帰損失を最小化すると、Transformer のフォワード パスで実行される補助的な勾配ベースの最適化アルゴリズムが得られることを示しています。この現象は最近「メサ最適化」と呼ばれています。さらに研究者らは、結果として得られたメサ最適化アルゴリズムが、モデルのサイズに関係なく、コンテキスト内少数ショット学習機能を発揮することを発見しました。したがって、この新しい結果は、大規模言語モデルにおける小規模学習に関するこれまでの研究を補完するものである。 研究者らは、Transformers の成功は、フォワード パスでメサ最適化アルゴリズムを実装するというアーキテクチャ上の偏向、つまり (i) 内部学習目標の定義と (ii) 最適化に基づいていると主張しています。 図 1: 新しい仮説の図解: 自己回帰トランスフォーマー fθ の重み θ を最適化すると、モデルのフォワード パスに実装されたメサ最適化アルゴリズムが生成されます。入力シーケンス s_1 として、. 。 、s_tは時間ステップtまで処理され、Transformerは(i)入力とターゲットの関連ペアで構成される内部トレーニングセットを作成し、(ii)結果のデータセットに対して内部目的関数を定義します。この関数は重みWを使用して内部モデルのパフォーマンスを測定するために使用され、(iii)この目的を最適化し、学習したモデルを使用して将来の予測を生成します。 この研究の貢献は次のとおりです。
最近の研究に基づいて、コンテキスト内で少数ショットのタスクを解決するように明示的にトレーニングされたトランスフォーマーは、勾配降下法 (GD) アルゴリズムを実装できることが示されています。ここで著者らは、これらの結果が、LLM をトレーニングするための一般的なアプローチである自己回帰シーケンス モデリングに一般化できることを示しています。 まず、クロスシーケンスメモリを防ぐために各シーケンスが異なる W* によって生成される、単純な線形ダイナミクスでトレーニングされたトランスフォーマーを分析します。このシンプルなセットアップでは、著者は、トランスフォーマーがメサ データセットを作成し、前処理された GD を使用してメサの目的を最適化する方法を示しています。 この研究では、隣接するシーケンス要素を集約するトークン構造に基づいてディープ トランスフォーマーをトレーニングします。興味深いことに、この単純な前処理により、非常にスパースな重みマトリックス(重みの 1% 未満がゼロ以外)が生成され、リバース エンジニアリング アルゴリズムが生成されます。 線形自己注意の単一レイヤーの場合、重みは 1 つの GD ステップに対応します。ディープトランスフォーマーの場合、解釈可能性は難しくなります。この研究は線形プローブに依存しており、隠れた活性化が自己回帰ターゲットまたは前処理された入力を予測できるかどうかを調べます。 興味深いことに、両方の検出方法の予測可能性は、ネットワークの深さとともに徐々に向上します。この発見は、前処理 GD がモデル内に隠されていることを示唆しています。 図 2: トレーニング済みの線形自己注意層のリバース エンジニアリング。 この研究では、学習した学習率 η だけでなく、学習した初期重み W_0 のセットも含め、すべての自由度を構築に使用すると、トレーニング層を完全に適合できることが分かりました。重要なのは、図 2 に示すように、学習したワンステップ アルゴリズムのパフォーマンスが、単一のメサ レイヤーのパフォーマンスよりも大幅に優れていることです。 単純な重み設定により、基本的な最適化を通じて、このレイヤーがここで研究したタスクを最適に解決できることが簡単にわかります。この結果は、メサ最適化に有利な、誘導バイアスをハードコーディングする利点を示しています。 多層ケースに関する理論的な洞察に基づいて、まずディープ リニア アテンション トランスフォーマーとソフトマックスのみのアテンション トランスフォーマーを分析します。著者らは、4チャネル構造に従って入力形式を設定しました。これは、W_0 = 0を選択することに相当します。 単層モデルと同様に、著者らはトレーニングされたモデルの重みに明確な構造を確認しています。最初のリバースエンジニアリング分析として、この研究ではこの構造を活用し、レイヤーヘッダーごとに 16 個のパラメーター (3200 個ではなく) を持つアルゴリズム (RevAlg-d、d はレイヤーの数を表す) を構築します。著者らは、この圧縮された複雑な表現が、訓練されたモデルを記述できることを発見した。特に、実際の Transformer と RevAlg-d の重みの間の補間をほぼロスレスで実行できます。 RevAlg-d 式は、少数の自由パラメータを持つトレーニング済みの多層 Transformer を説明しますが、それをメサ最適化アルゴリズムとして解釈することは困難です。そのため、著者らは線形回帰検出分析 (Alain & Bengio、2017 年、Akyürek ら、2023 年) を使用して、仮説上のメサ最適化アルゴリズムの特性を調べました。 図 3 に示す深層線形自己注意トランスフォーマーでは、両方のプローブを線形にデコードでき、シーケンスの長さとネットワークの深さに応じてデコード パフォーマンスが向上することがわかります。したがって、ベース最適化では、メサ最適化問題の条件数を改善しながら、元のメサ目的関数 Lt (W) をレイヤーごとに下降するハイブリッド アルゴリズムが発見されます。その結果、メサ対物レンズの Lt (W) が急速に減少します。さらに、深さが増すにつれてパフォーマンスが大幅に向上することがわかります。 したがって、自己回帰メサ目標Lt(W)の急速な減少は、より適切に前処理されたデータに対して段階的(クロスレイヤー)メサ最適化を実行することによって達成されると考えられます。 図 3: 構築されたトークン入力をリバース エンジニアリングするための多層 Transformer トレーニング。 これは、トランスフォーマーが構築されたトークンでトレーニングされた場合、mesa 最適化を使用して予測を行うことを示しています。興味深いことに、シーケンス要素を直接与えられた場合、トランスフォーマーは独自に要素をグループ化してトークンを構築します。研究チームはこれを「メサ データセットの作成」と呼んでいます。 結論はこの研究では、Transformer モデルは、標準的な自己回帰目的のもとでシーケンス予測タスク用にトレーニングされた場合、勾配ベースの推論アルゴリズムを開発できることが示されています。したがって、マルチタスクのメタ学習設定で得られた最先端の結果は、従来の自己教師あり LLM トレーニング設定にも転送できます。 さらに、この研究では、学習した自己回帰推論アルゴリズムは、再トレーニングなしで教師あり文脈学習タスクを解決するために再利用でき、単一の統一されたフレームワーク内で結果を説明できることが分かりました。 それで、これは文脈内学習とどのように関係するのでしょうか?この研究では、トランスフォーマーを自己回帰シーケンスタスクでトレーニングした後、適切なメサ最適化が達成され、微調整なしで少量のコンテキスト学習が可能になると主張しています。 この研究では、LLM にもメサ最適化があり、コンテキスト学習能力が向上すると想定しています。興味深いことに、この研究では、LLM のプロンプトを効果的に適応させることで、文脈学習能力が大幅に向上する可能性があることも観察されました。 興味のある読者は、原著論文を読んで研究内容の詳細を知ることができます。 |
[[419906]]私はこれまで、人工知能とデータサイエンスのオープンソース プロジェクトを数多く...
近年、我が国のドローン産業は急速な発展を遂げています。飛行制御、ナビゲーション、通信、センシングなど...
海外メディアの報道によると、食品・飲料業界では人工知能やモノのインターネット技術がますます頻繁に利用...
安定拡散当局はついにこのビデオに対して行動を起こした――生成ビデオモデルStable Video D...
最近、視覚合成というタスクが大きな注目を集めています。 NVIDIA の GauGAN は数日前にバ...
ベンチャーキャピタルの億万長者マーク・アンドリーセン氏は、世界は現在人工知能に関して「ヒステリー」状...
2018 年はオープンソース ソフトウェアの歴史の中で最もエキサイティングな年でした。2 件の IP...
[[425172]]南洋理工大学と香港中文大学の研究者らは、ユーザーとシステム間の対話を通じてきめ...
[[206158]]ビジネス インテリジェンス (BI) という用語は、1865 年にリチャード ミ...
今日の急速に変化するデジタル世界では、組織はローコード/ノーコード (LC/NC) アプリケーション...