文脈学習 = 対照学習?人民大学が ICL 推論の背後にある暗黙の更新メカニズムを明らかに: 勾配は更新されるのか? 「さらに」

近年、Transformer に基づく大規模言語モデルは、驚くべきコンテキスト内学習 (ICL) 機能を発揮しています。質問を照会する前に、{質問、ラベル} の形式でいくつかの例を追加するだけで、モデルはタスクを学習し、優れた結果を出力できます。

しかし、ICL の背後にあるメカニズムは未解決の問題のままです。ICL の推論プロセス中、モデルのパラメータは明示的に更新されません。モデルはどのようにしてサンプルに基づいて対応する結果を出力できるのでしょうか?

最近、中国人民大学の学者らは、Transformer ベースの ICL 推論プロセスを対照学習の観点から検討することを提案しました。この論文では、注意メカニズムに基づく ICL 推論プロセスは対照学習モデルと同等である可能性があり、ICL を理解するための新しい視点を提供していると指摘しています。

論文アドレス: https://arxiv.org/abs/2310.13220

研究者らはまずカーネル法を使用して、線形注意ではなく一般的に使用されるソフトマックス注意の下での勾配降下法と自己注意メカニズムの関係を確立しました。

次に、負のサンプルなしの対照学習の観点から、ICL の勾配降下プロセスが分析され、自己注意層へのさらなる修正など、可能な改善点が議論されます。

最後に、論文で提示された視点を裏付けるために実験が設計されています。

研究チームは、今回の研究はICLを対照学習の観点から理解した初めての研究であり、対照学習に関する関連研究を参考にすることで、今後のモデルの設計アイデアを促進できると述べた。

背景と動機

教師あり学習による微調整と比較すると、大規模モデルでは ICL 推論プロセス中に明示的な勾配更新は必要ありません。サンプルサンプル内の情報を学習し、クエリの質問に対する回答を出力できます。Transformer ベースの大規模モデルはこれをどのように実現するのでしょうか。

自然で直感的な考え方としては、モデルには学習コンテキストプロセスで明示的な更新はないものの、対応する暗黙的な更新メカニズムが存在する可能性があるということです。

このような状況の中で、多くの研究が、勾配降下法の観点から大規模モデルの ICL 機能を考慮し始めました。

しかし、既存の研究は、Transformer の線形アテンションの仮定に基づくか、モデルパラメータの特定の構成の分析に基づいています。実際のアプリケーションにおけるモデルは、必ずしも上記の仮定に準拠しているわけではありません。

したがって、緊急に対処する必要がある問題が 2 つあります。

（１）重みパラメータ構築法と線形注意の仮定とは独立して、より広く使用されているソフトマックス注意設定下でのICLの暗黙的な更新メカニズムをどのように分析できるか？

（２）この暗黙的な更新プロセスは、損失関数やトレーニングデータなどどのような形式をとるのでしょうか？

方法

まず、モデルに入力されるトークンは、いくつかのサンプルのトークンと最終的なクエリトークンで構成されていると仮定します。各トークンは、{質問、ラベル}の埋め込みによって連結され、クエリトークンのラベル部分は0に設定されています。つまり、

注意メカニズムでは、モデルは最後のトークンを出力し、予測されたラベル結果を読み取ります。

さらに、著者らはカーネル法を適用し、注目行列の各項目をマッピング関数の内積とみなす。

これを基に、著者らは、Transformer 注意メカニズムに基づく推論プロセスと参照モデル上の勾配降下法との間の対応関係を確立しました。

参照モデルの勾配降下中に、サンプルサンプルとクエリトークンはそれぞれトレーニングセットとテスト入力の関連情報を提供します。モデルはコサイン類似度に似た損失関数でトレーニングされ、参照モデルは最終的にテスト入力に対応する出力を出力します。

著者らは、参照モデルの出力は注意メカニズムの下での推論出力と厳密に同等であると指摘しています。つまり、参照モデルが対応するデータセットに対して確率的勾配降下法とコサイン類似度損失のステップを実行した後、得られるテスト出力は注意メカニズムの下で得られる出力と厳密に同等になります。

同値関係

さらに、著者らは、対応する勾配降下プロセスが負のサンプルのない対照学習モデルに類似していることを発見しました。このモデルでは、注意メカニズムの K、V マッピングが一種の「データ強化」とみなすことができます。

参照モデルは、潜在的な表現を学習する必要があるエンコーダーに相当します。マッピングされた K ベクトルを高次元空間に投影して深い表現を学習し、それを元の空間にマッピングして V ベクトルとのコントラスト損失を計算し、2 つを可能な限り類似させます。

比較学習モード

これを踏まえて、著者は対照学習の観点から注意メカニズムを改良し、正規化された損失関数、データ強化、負のサンプルの追加という 3 つの側面を考慮します。

正規化された損失関数

著者らは、コントラスト損失に正規化を追加することは、元の注意メカニズムに特別な分岐を追加することと同等であると指摘しています。

データ拡張

著者は、データ拡張としての元の線形マッピングは潜在的な表現の学習に役立たない可能性があり、特定のデータタイプ向けに設計されたデータ拡張方法の方が効果的である可能性があると考えています。したがって、著者はモデルを変更するためのフレームワークを提供します。

ネガティブサンプルを追加

さらに、著者らは、負のサンプルを増やすという観点から、ICL コントラスト学習モデルと対応する注意メカニズムにも改良を加えました。

実験

実験部分では、著者らは線形回帰タスクに関するシミュレーション実験を設計し、注意メカニズムによる推論プロセスと参照モデルによる勾配降下プロセスの同等性を示しました。つまり、単層注意メカニズムで得られた推論結果は、コントラスト損失に対する勾配降下法の 1 ステップ後の参照モデルのテスト出力と厳密に同等です。

実験では、著者らは注目メカニズムを近似するためのマッピング関数として正のランダム特徴も選択し、注目マトリックスと出力近似に対するさまざまなランダム特徴次元の影響を調べ、マッピング関数の有効性を示しました。

実験図1

著者はまた、近似的な注意行列と、出力と実際の結果の比較を示しており、両者は基本的にパターンが一貫していることを示しています。

実験図2

最後に、著者らは、対照学習の観点から、改良された注意メカニズムのパフォーマンスをさらに調査し、適切な改善方法を選択すると、モデルトレーニングの収束が加速されるだけでなく、最終的により良い結果が得られることを発見しました。これは、将来、対照学習の観点からモデル構造の設計と改善が行われる可能性を示しています。

実験図3

まとめと今後の展望

著者らは、線形注意仮定と重み構築法に依存せずに ICL の暗黙的な更新メカニズムを調査し、ソフトマックス注意メカニズム推論プロセスと勾配降下法の同等性を確立し、さらに対照学習の観点から注意メカニズム推論プロセスを観察するための新しいフレームワークを提案しました。

しかし、著者は、この研究にはまだいくつかの欠陥があることも指摘しています。この記事では現在、ソフトマックス自己注意メカニズムによる前向き推論のみを検討しており、レイヤー正規化、FFNモジュール、デコーダーなどの他のTransformer構造が推論プロセスに与える影響については、さらに研究する必要があります。対照学習の観点からモデル構造をさらに改善し、多くの実際のアプリケーションタスクでのパフォーマンスをさらに調査する必要があります。

<<: AIが生成した写真は奇妙すぎますか?メリーランド大学とニューヨーク大学が共同でニューラルネットワークを解析、CLIPモデルのニューロンは頭蓋骨に似ている

>>: GPT-4+Midjourney がコードなしで「Angry Pumpkin」を作成!実際の経験：閾値は低くなく、再現が難しい