言語モデルの氷山の一角: 微調整は不要、AI21 Labs は凍結モデルの未開発の可能性を探る

言語モデルの氷山の一角: 微調整は不要、AI21 Labs は凍結モデルの未開発の可能性を探る

現在、特定の NLP タスクのパフォーマンスを最適化するための最善のアプローチは、事前トレーニング済みの言語モデル (LM) を微調整することです。ただし、そうすると副作用として、他のタスクのパフォーマンスが低下します。近年、大規模な事前トレーニング済み言語モデル (LM) がさまざまなタスクで驚異的なゼロショット機能を実証しており、多くの研究者が単一の汎用モデルをさまざまなアプリケーションで幅広く使用できるというビジョンを追求するようになりました。しかし、モデルの重みを変更せずに維持する現在の主流の LM フリーズ手法は、タスクに依存して重みを変更する微調整手法よりもパフォーマンスが低下します。逆に、研究者は、モデルの忘却や汎用性の喪失を許容できる場合、パフォーマンスと汎用性のトレードオフも考慮する必要があります。

AI21 Labs の研究者は、「巨大な凍結言語モデルの肩の上に立つ」というタイトルの記事を執筆しました。この論文の主なメッセージは、現在の凍結モデル技術 (プロンプト チューニングなど) は氷山の一角にすぎないということです。より強力な方法では、凍結 LM 技術を使用して、基盤となるモデルの汎用性を犠牲にすることなく、困難な領域で微調整を行います。

これを実証するために、著者らは、入力依存プロンプトチューニング、凍結リーダー、再帰 LM という凍結モデルを活用する 3 つの新しい方法を紹介します。これらはいずれも、現在の凍結モデルアプローチを大幅に改善します。実際、当社の方法のいくつかは、現在優勢な分野において、微調整方法よりも優れたパフォーマンスを発揮します。各方法の計算コストは​​既存の凍結モデル方法よりも高くなりますが、巨大な凍結 LM を 1 回通過する場合に比べると無視できるほど小さいです。これらのアプローチはそれぞれが有意義な貢献を構成しますが、これらの貢献を総合することで、この研究は、特定のアプローチの詳細を超えたより広範なメッセージ、つまり、固定モデルには未開発の可能性があり、微調整は多くの場合不要であるというメッセージを読者に納得させることを目指しています。

論文アドレス: https://arxiv.org/pdf/2204.10019.pdf

一般に、大規模な LM を微調整すると、通常は優れたパフォーマンスが得られますが、このアプローチのトレーニングにはコストがかかります。この論文では、より優れた代替手段があることを示しています。それは、単一の巨大な事前トレーニング済み LM を固定し、さまざまなタスクに LM を特化する小さなニューラル モジュールを学習することです。さらに重要なことは、この研究は、タスク固有のニューラル中間モジュールの設計が微調整に代わる実際の問題に大規模な LM を適用できることを実証していることです。結局のところ、微調整は多くの場合不必要な無駄であり、重要なのは大規模な固定言語モデルを活用する最善の方法を見つけることです。

依存関係入力ヒントの調整

このセクションでは、凍結状態を維​​持しながら LM の大規模マルチタスクを実行するための、入力依存ヒントチューニング (ID-PT) と呼ばれる手法を提案します。 ID-PT は、多数の厳選されたデータセットの 1 つを入力として受け取り、この入力を処理するために固定された LM を準備するニューラル キューを動的に作成する、非常に小さな外部ネットワークをトレーニングするために使用されます (図 1 を参照)。

この研究では、Sanh らのトレーニング セットを使用して実験を行い、公開されている彼らのモデルと比較しました。我々は凍結された 7B パラメータの J1-Large モデルに対して ID-PT を実行し、トレーニング例の半分のみでトレーニングした後、Sanh らによる微調整された 11B パラメータの T0++ モデルのパフォーマンスを達成しました。これは、LM が微調整なしで良好な結果を達成できることを示しています。単一の凍結された LM をバックボーンとして保守およびサービスし、ID-PT を実行してさまざまなミッション スイートで外部的に調整します。さらに、後のセクションで示すように、これにより、単一の巨大な LM を展開することで、さまざまな NLP アプリケーションをサポートする新しいワークフローが可能になります。

ID-PT アーキテクチャは図 2 に示されており、次の 3 つのコンポーネントで構成されています: (1) 凍結された T5 ベースのエンコーダー、(2) ヒント ジェネレーターで凍結された T5 エンコーダーの機能を微調整するために使用される学習済みヒント (合計 330K の学習済みパラメーター)、(3) T5 エンコーダーの可変長出力シーケンス (入力 x の長さに等しい長さ) を固定長ヒント p(x) に変換する学習済み交差アテンション ネットワーク。

表 1 は、各タスク クラスターおよびデータセット全体の ID-PT+J1-Large および T0++ の平均テスト セット スコアを示しています。 2 つのモデルは同等であるように見えますが、一部のタスク クラスターではパフォーマンスの差が小さく、他のタスク クラスターでは差異が大きくなっています。ID-PT + J1-Large は感情タスク クラスターと言い換えタスク クラスターで優れたパフォーマンスを発揮しますが、T0++ は構造テキスト タスク クラスターと要約タスク クラスターで ID-PT + J1-Large よりも優れたパフォーマンスを発揮します。全体的に、データセット全体のテスト スコアの平均では、ID-PT + J1-Large が T0++ をわずかに上回ります。

図3は、トレーニング中のさまざまな時点で研究によって観察されたID-PT + J1-Largeの平均開発セットスコアを示しています。

フリーズリーダー

小規模な検索拡張リーダーに依存することの本質的な欠点は、大規模な LM のような世界知識や推論能力がないことです。したがって、強力な教師あり学習検索と大規模な LM を組み合わせる必要があります。この問題に対処するために、本研究では外部の再ランキングモジュールを使用して、凍結された LM のコンテキスト ウィンドウに適合する少数のチャネルで回答を取得する可能性を高めました。リトリーバーの関連性スコアは質問と文章の個別の密な表現に基づいて計算されますが、リランカーは質問と文章を共同で処理した後、各ドキュメントの関連性スコアを予測します。ヒント: コンテキスト内に表示される並べ替えられたドキュメントから回答を抽出するように、フリーズされた LM を調整します。

表 2 は、ドキュメントを LM のコンテキスト ウィンドウにパックするときに再ランク付け機能を使用することの有用性を示しています。 DPR を検索システムとして使用した場合、この研究では LM 入力の再現率 (つまり、回答が固定 LM のコンテキスト ウィンドウに表示される質問の割合) が 77.2% から 80.4% に向上し、下流のパフォーマンス (完全一致で測定) が 2.1 パーセント ポイント (46.6% から 48.7%) 向上しました。同様に、この調査では、Spider+BM25 などのより強力なリトリーバーを活用すると、再ランキングによって大きな成果が得られる可能性があることが観察されました。

表 3 は、NQ テスト セットのさまざまな世代のベースラインと比較したシステムの結果を示しています。凍結された J1-Grande-17B リーダーは、FiD モデル スコアを上回る最高の結果を得ました。

全体的に、この結果は、巨大な凍結言語モデルが ODQA の優れたリーダーとして機能し、より洗練され、顕著で、微調整されたリーダーに遅れをとらないことを示唆しています。

凍結したLMモデルにループを適用する

Transformer ベースの LM の既存のアプリケーションでは、特定の入力を LM に 1 回だけ実行します。これは自然な選択ですが、他のほとんどの DNN アプリケーションでは、研究者は LM 設計パターンの違いにチャンスを見出しています。 LM の入力空間と出力空間はどちらも自然言語であり、同じ LM が複数の機能を果たすことができるため、原理的には LM を自身の出力に再適用することが可能であり、この操作は「LM ループ」と呼ばれます。

このセクションでは、研究者らはこのアイデアを実践するための 2 つの異なるアプローチを提案し (図 5)、それぞれのアプローチが大きなメリットを生み出すことを証明する実験的証拠を示しました。セクション 4.1 では、出力テキストが凍結された LM を最初に通過した後にサンプリングされ、同じ凍結された LM に再挿入されるテキスト メソッドが紹介されています。セクション 4.2 では、小さなトレーニング可能なネットワークが、凍結された LM の出力のベクトル表現を、同じ凍結された LM を介した次の反復のベクトル表現入力にマッピングするニューラルアプローチが提案されています。

図 5: (a) プロンプト チューニングは、凍結された LM を 1 回通過します。(b) テキスト再帰 LM アプローチ (セクション 4.1) は、凍結された LM を使用して一度に n 個の候補回答をサンプリングし、正しい回答を再度サンプリングします。(c) ニューラル再帰 LM アプローチ (セクション 4.2) には、最初の LM パスの出力埋め込みを 2 番目の LM パスの入力埋め込みに変換するトレーニング済みのコネクタが含まれます。青は「凍結」された、トレーニングされていないモジュールを表し、オレンジはトレーニング済みのモジュールを表します。

研究者らは、Natural Questionsベンチマーク(Kwiatkowski et al.、2019)に焦点を当て、クローズドブック設定でのオープンドメイン質問応答におけるLMループ法を評価しました。研究者らは、7B パラメータ LM J1-Large を使用して実験を行い、モデルの 2 回の反復を通じて、両方の手法が従来の固定モデル アプローチ (固定モデルを 1 回のみ使用) よりも大幅に向上したこと、およびニューラル リカレント LM がテキスト リカレント LM よりも優れたパフォーマンスを発揮したことを示しました。

注目すべきは、7B パラメータ モデルを 2 回反復することで、ニューラル リカレント LM モデルが 1 回のパスで 17B パラメータ LMJ1-Grande のパフォーマンスに近づくことです。

LM を自身の出力に周期的に適用することでパフォーマンスが向上するという見通しは、サービス LM の商業化にとってゲームチェンジャーとなる可能性があります。タスクにおける LM のパフォーマンスが満足できるものでない場合、既存の垂直的なパフォーマンス改善は、より大きな LM を事前トレーニングすることです。しかし、ますます大きくなる LM の事前トレーニングはすぐにコストが高くなり、巨大なモデルを展開すると評価時でもコストがかかります。さらに、パフォーマンスの向上は、特定のタスクまたはタスク内の特定の入力に対してのみ必要です。既存の LM を独自の出力に再適用して改善する場合、単一のフォワード パスのコストの半分しかかかりません。または、必要に応じて 2 倍のコンピューティングが得られます。これは、事前トレーニングや 2 倍のサイズのモデルを展開するよりも集中的で安価なオプションです。

研究の詳細については原著論文を参照してください。

<<:  NLP事前トレーニングパラダイムが統合され、下流のタスクタイプに絡まらなくなり、Googleの新しいフレームワークは50のSOTAを更新します

>>:  中国科学院コンピューティング技術研究所の孫暁明氏:多項式レベルの加速の実現、量子探索アルゴリズムの利点と課題

ブログ    
ブログ    

推薦する

人工知能音声ジェネレーター、この10個で十分です

翻訳者 | カン・シャオジン校正 | 梁哲、孫淑娟今日の人工知能の世界では、想像できるあらゆる音は簡...

人工知能とモノのインターネット: インターネット通信の未来

人工知能 (AI) とモノのインターネット (IoT) の登場により、通信およびインターネット技術業...

Testin Cloud TestingがHuawei Hongmeng HarmonyOSイノベーションソリューションチーム賞を受賞

9月10日、ファーウェイHarmonyOSテクノロジーコミュニティの年間優秀共同構築パートナー選定結...

...

巨大企業がAIビッグモデルに参入する背景

ChatGPT に代表されるコンセプトが出現し始めると、ますます多くのインターネット プレーヤーが関...

ロボット: 何を見ているんですか?人間とロボットのアイコンタクトが意思決定を遅らせる、サイエンス誌に掲載

あなたがロボットを見つめると、ロボットもあなたを見つめます。視線は人と人との間のシグナルであり、コミ...

仕事の未来に向けたスマートデバイスの準備

パンデミック以前は、スマートデバイスは接続できなかった可能性があります。しかし、従業員が自宅からログ...

これらは、データ構造とアルゴリズムにおける動的プログラミングのコツです。

[[442276]]動的計画法理論の基礎動的プログラミングとは何か動的プログラミング (英語: D...

...

...

ソフトマックスボトルネックを超えて: 高ランク RNN 言語モデル

因数分解に基づいて、リカレントニューラルネットワーク (RNN) に基づく言語モデルは、複数のベンチ...

適切な人工知能を選択するにはどうすればよいでしょうか?

採用プロセスで人工知能テクノロジーに切り替えるのは難しいかもしれませんが、これらのヒントに従って、会...

銀行、金融、保険業界に革命をもたらす主要技術

不安定な市場環境、規制上のハードル、そしてBrexitは、好況時でも最も回復力のある企業にさえ課題を...

...

人工知能はドローンの将来にどのような影響を与えるのでしょうか?

人工知能の破壊的な可能性を解き放ち、それがドローンの未来をどのように変えるのかを探ります。常に進化を...