文脈学習 = 対照学習?人民大学が ICL 推論の背後にある暗黙の更新メカニズムを明らかに: 勾配は更新されるのか? 「さらに」

文脈学習 = 対照学習?人民大学が ICL 推論の背後にある暗黙の更新メカニズムを明らかに: 勾配は更新されるのか? 「さらに」

近年、Transformer に基づく大規模言語モデルは、驚くべきコンテキスト内学習 (ICL) 機能を発揮しています。質問を照会する前に、{質問、ラベル} の形式でいくつかの例を追加するだけで、モデルはタスクを学習し、優れた結果を出力できます。

しかし、ICL の背後にあるメカニズムは未解決の問題のままです。ICL の推論プロセス中、モデルのパラメータは明示的に更新されません。モデルはどのようにしてサンプルに基づいて対応する結果を出力できるのでしょうか?

最近、中国人民大学の学者らは、Transformer ベースの ICL 推論プロセスを対照学習の観点から検討することを提案しました。この論文では、注意メカニズムに基づく ICL 推論プロセスは対照学習モデルと同等である可能性があり、ICL を理解するための新しい視点を提供していると指摘しています。

論文アドレス: https://arxiv.org/abs/2310.13220

研究者らはまずカーネル法を使用して、線形注意ではなく一般的に使用されるソフトマックス注意の下での勾配降下法と自己注意メカニズムの関係を確立しました。

次に、負のサンプルなしの対照学習の観点から、ICL の勾配降下プロセスが分析され、自己注意層へのさらなる修正など、可能な改善点が議論されます。

最後に、論文で提示された視点を裏付けるために実験が設計されています。

研究チームは、今回の研究はICLを対照学習の観点から理解した初めての研究であり、対照学習に関する関連研究を参考にすることで、今後のモデルの設計アイデアを促進できると述べた。

背景と動機

教師あり学習による微調整と比較すると、大規模モデルでは ICL 推論プロセス中に明示的な勾配更新は必要ありません。サンプル サンプル内の情報を学習し、クエリの質問に対する回答を出力できます。Transformer ベースの大規模モデルはこれをどのように実現するのでしょうか。

自然で直感的な考え方としては、モデルには学習コンテキスト プロセスで明示的な更新はないものの、対応する暗黙的な更新メカニズムが存在する可能性があるということです。

このような状況の中で、多くの研究が、勾配降下法の観点から大規模モデルの ICL 機能を考慮し始めました。

しかし、既存の研究は、Transformer の線形アテンションの仮定に基づくか、モデル パラメータの特定の構成の分析に基づいています。実際のアプリケーションにおけるモデルは、必ずしも上記の仮定に準拠しているわけではありません。

したがって、緊急に対処する必要がある問題が 2 つあります。

(1)重みパラメータ構築法と線形注意の仮定とは独立して、より広く使用されているソフトマックス注意設定下でのICLの暗黙的な更新メカニズムをどのように分析できるか?

(2)この暗黙的な更新プロセスは、損失関数やトレーニングデータなどどのような形式をとるのでしょうか?

方法

まず、モデルに入力されるトークンは、いくつかのサンプルのトークンと最終的なクエリトークンで構成されていると仮定します。各トークンは、{質問、ラベル}の埋め込みによって連結され、クエリトークンのラベル部分は0に設定されています。つまり、

注意メカニズムでは、モデルは最後のトークンを出力し、予測されたラベル結果を読み取ります。

さらに、著者らはカーネル法を適用し、注目行列の各項目をマッピング関数の内積とみなす。

これを基に、著者らは、Transformer 注意メカニズムに基づく推論プロセスと参照モデル上の勾配降下法との間の対応関係を確立しました。

参照モデルの勾配降下中に、サンプル サンプルとクエリ トークンはそれぞれトレーニング セットとテスト入力の関連情報を提供します。モデルはコサイン類似度に似た損失関数でトレーニングされ、参照モデルは最終的にテスト入力に対応する出力を出力します。

著者らは、参照モデルの出力は注意メカニズムの下での推論出力と厳密に同等であると指摘しています。つまり、参照モデルが対応するデータセットに対して確率的勾配降下法とコサイン類似度損失のステップを実行した後、得られるテスト出力は注意メカニズムの下で得られる出力と厳密に同等になります。

同値関係

さらに、著者らは、対応する勾配降下プロセスが負のサンプルのない対照学習モデルに類似していることを発見しました。このモデルでは、注意メカニズムの K、V マッピングが一種の「データ強化」とみなすことができます。

参照モデルは、潜在的な表現を学習する必要があるエンコーダーに相当します。マッピングされた K ベクトルを高次元空間に投影して深い表現を学習し、それを元の空間にマッピングして V ベクトルとのコントラスト損失を計算し、2 つを可能な限り類似させます。

比較学習モード

これを踏まえて、著者は対照学習の観点から注意メカニズムを改良し、正規化された損失関数、データ強化、負のサンプルの追加という 3 つの側面を考慮します。

正規化された損失関数

著者らは、コントラスト損失に正規化を追加することは、元の注意メカニズムに特別な分岐を追加することと同等であると指摘しています。

データ拡張

著者は、データ拡張としての元の線形マッピングは潜在的な表現の学習に役立たない可能性があり、特定のデータ タイプ向けに設計されたデータ拡張方法の方が効果的である可能性があると考えています。したがって、著者はモデルを変更するためのフレームワークを提供します。

ネガティブサンプルを追加

さらに、著者らは、負のサンプルを増やすという観点から、ICL コントラスト学習モデルと対応する注意メカニズムにも改良を加えました。


実験

実験部分では、著者らは線形回帰タスクに関するシミュレーション実験を設計し、注意メカニズムによる推論プロセスと参照モデルによる勾配降下プロセスの同等性を示しました。つまり、単層注意メカニズムで得られた推論結果は、コントラスト損失に対する勾配降下法の 1 ステップ後の参照モデルのテスト出力と厳密に同等です。

実験では、著者らは注目メカニズムを近似するためのマッピング関数として正のランダム特徴も選択し、注目マトリックスと出力近似に対するさまざまなランダム特徴次元の影響を調べ、マッピング関数の有効性を示しました。

実験図1

著者はまた、近似的な注意行列と、出力と実際の結果の比較を示しており、両者は基本的にパターンが一貫していることを示しています。

実験図2

最後に、著者らは、対照学習の観点から、改良された注意メカニズムのパフォーマンスをさらに調査し、適切な改善方法を選択すると、モデルトレーニングの収束が加速されるだけでなく、最終的により良い結果が得られることを発見しました。これは、将来、対照学習の観点からモデル構造の設計と改善が行われる可能性を示しています。

実験図3

まとめと今後の展望

著者らは、線形注意仮定と重み構築法に依存せずに ICL の暗黙的な更新メカニズムを調査し、ソフトマックス注意メカニズム推論プロセスと勾配降下法の同等性を確立し、さらに対照学習の観点から注意メカニズム推論プロセスを観察するための新しいフレームワークを提案しました。

しかし、著者は、この研究にはまだいくつかの欠陥があることも指摘しています。この記事では現在、ソフトマックス自己注意メカニズムによる前向き推論のみを検討しており、レイヤー正規化、FFNモジュール、デコーダーなどの他のTransformer構造が推論プロセスに与える影響については、さらに研究する必要があります。対照学習の観点からモデル構造をさらに改善し、多くの実際のアプリケーションタスクでのパフォーマンスをさらに調査する必要があります。

<<:  AIが生成した写真は奇妙すぎますか?メリーランド大学とニューヨーク大学が共同でニューラルネットワークを解析、CLIPモデルのニューロンは頭蓋骨に似ている

>>:  GPT-4+Midjourney がコードなしで「Angry Pumpkin」を作成!実際の経験:閾値は低くなく、再現が難しい

ブログ    

推薦する

これを携帯電話の代わりにしたいですか?ネットで人気急上昇のAIハードウェアが衝撃を受ける:Google Glass + ポケベル

たったこれだけで、携帯電話を交換したいですか?最近話題になっている新しいAIデバイス「AI Pin」...

...

顧客サービスの応答時間を短縮して潜在顧客の喪失を回避する方法

急速に変化する今日の世界では、誰も待たされることを好みません。私たちはリクエストに迅速に対応してもら...

残念ながら、自然言語理解はAIがまだ克服していない分野である。

わずか数年で、ディープラーニングのアルゴリズムは大きな進歩を遂げました。チェスのゲームで世界最高のプ...

AI顔認識:スマート監視を開発する方法

顔認識技術は継続的に発展しており、スマート監視システムの開発に貢献しています。これらのシステムにより...

中国初の人工知能教科書が注目を集める:人材育成が鍵

香港のサウスチャイナ・モーニング・ポストが5月3日に報じたところによると、人工知能分野の世界的な競争...

教師なし学習アルゴリズム: 異常検出

外れ値とは何でしょうか? Hawkins (1980) は外れ値の基本的な定義を与えました: 外れ値...

「遅れた接客」と批判されたインテリジェント接客の現状とは?

AIや5Gなどの新技術がもたらす変化により、顧客サービスシナリオは多様な変化を遂げており、兆レベル...

ハイパーオートメーション – AIの新時代における自動化

「自動化」の本質的な意味は変わりませんが、その用語の使用法は時間の経過とともに確実に変化してきました...

ChatGPT vs AutoGPT: トップ言語モデルの比較

ChatGPTを理解するOpenAI によって開発された ChatGPT は、受信した入力に基づいて...

35258 スター!これはITアーキテクトの技術知識マップのコレクションです

ソフトウェア アーキテクチャは、あらゆるソフトウェア プロジェクトの重要な部分になっています。アーキ...

...

自動運転における車線逸脱警報システムの技術サポート

無人運転技術にはまだ改善の余地があるものの、ますます成熟しつつあることは認めざるを得ません。車線逸脱...

人工知能について、2020年に研究すべきトップ10のトレンド

いつの間にか、2019年は完全に私たちの前から去ってしまいました。過去1年を振り返ると、人工知能は間...

...