NLP事前トレーニングパラダイムが統合され、下流のタスクタイプに絡まらなくなり、Googleの新しいフレームワークは50のSOTAを更新します

NLP事前トレーニングパラダイムが統合され、下流のタスクタイプに絡まらなくなり、Googleの新しいフレームワークは50のSOTAを更新します

この論文では、Google の研究者がさまざまな事前トレーニング パラダイムを統合する事前トレーニング戦略を提案しました。この戦略は、モデル アーキテクチャや下流のタスク タイプに影響を受けず、50 の NLP タスクで SOTA 結果を達成しました。

現在、NLP の研究者や実践者は、多数の事前トレーニング済みモデルから選択できます。どのモデルを使用すべきかという質問に答える場合、その答えは通常、達成する必要のあるタスクによって異なります。

この質問に答えるのは簡単ではありません。どのようなアーキテクチャを使用するか、スパン破損か言語モデルかなど、細かい詳細が多数関係しているからです。答えは、対象となる下流のタスクによって異なるようです。

Google の研究者たちはこの質問を再考しました。彼らは、事前トレーニング済みの LM の選択が下流のタスクによって異なる理由と、多くのタスクに一般的に適用可能なモデルを事前トレーニングする方法に具体的に答えました。

この研究は、普遍的に適用可能な言語モデルを可能にすることを試み、UL2 フレームワークと呼ばれる統一された言語学習パラダイムを提案します。このフレームワークは、非常に多様なタスクと環境で機能します。

論文リンク: https://arxiv.org/pdf/2205.05131.pdf

コードアドレス: https://github.com/google-research/google-research/tree/master/ul2

下の図 1 に示すように、これはトレードオフを必要とする他のモデルとは異なります。 UL2 モデルのパフォーマンスは概ね良好です。

ユニバーサルモデルの利点は明らかです。共通モデルを使用すると、研究者は N 個のモデルにリソースを分散させるのではなく、単一のモデルの改善と拡張に集中できます。さらに、リソースが限られたモデルにしか利用できない制約のある設定では、さまざまなタスクで優れたパフォーマンスを発揮する事前トレーニング済みのモデルを使用する方が適しています。

UL2 の中核となるのは、タスク全体で強力なパフォーマンスを実現する、新たに提案された事前トレーニング目標 Mixture-of-Denoisers (MoD) です。 MoD は、いくつかの確立されたノイズ除去目標と新しい目標を組み合わせたもので、極端なスパンの長さと損傷率を考慮した X ノイズ除去 (極端なノイズ除去)、シーケンス順序に厳密に従う S ノイズ除去 (順次ノイズ除去)、および標準的なスパン損傷目標の R ノイズ除去 (通常のノイズ除去) が含まれます。この研究は、MoD が概念的には単純であるにもかかわらず、さまざまなタスクに対して非常に効果的であることを示しています。

この方法は、ほとんどの事前トレーニングの目的において、モデルが依存するコンテキストの種類が異なるという考えを活用します。たとえば、スパン破損ターゲットは、プレフィックス言語モデリング (PLM) (Liu et al.、2018; Raffel et al.、2019) と呼ばれる複数の領域に似ています。プレフィックスは破損していないトークンの連続したセグメントであり、ターゲットはすべての PLM セグメント プレフィックスにアクセスできます。スパンが完全なシーケンス長に近い設定は、長距離コンテキストに条件付けられた言語モデリングの目的として近似できます。

したがって、研究者たちは、これらの異なるパラダイム(スパン破損対言語モデリング対接頭辞言語モデリング)を組み合わせた事前トレーニング目標を設計することが可能であると考えています。

各ノイズ除去ツールには、難しさや外挿または補間の特性が異なることが容易にわかります。

研究者らは、MoD 式に基づいて、モデルは事前トレーニング中にさまざまなノイズ除去装置を区別できるだけでなく、下流のタスクを学習するときにモードを適応的に切り替えることもできると推測しており、これは非常に有益です。

この研究では、事前トレーニングタスクを専用のラベルトークンに関連付け、個別のプロンプトを通じて動的なモード切り替えを可能にする新しい概念であるモード切り替えを提案します。モデルは、必要に応じて R、S、X ノイズ除去装置を切り替えるように事前にトレーニングされています。

その後、研究者らはアーキテクチャを自己監視方式から切り離しました。事前トレーニング済みモデルの主な特徴はバックボーンアーキテクチャであるというのはよくある誤解かもしれませんが、研究者たちは、実際にはノイズ除去の選択の方が大きな影響を与えることを発見しました。 MoD は、T5 のスパン破損と同様に、デコーダーのみのモデルでトレーニングできる任意のバックボーン アーキテクチャをサポートします。したがって、アーキテクチャの選択は UL2 にほとんど影響を与えません。研究者たちは、バックボーン アーキテクチャの選択は主にさまざまな効率指標間のトレードオフであると考えています。

研究者らは、さまざまな問題を解決することを目的とした 9 つの異なるタスクについて体系的なアブレーション実験を実施しました。

さらに、この研究では、オープンテキスト生成タスクを評価し、プロンプトベースのワンショット設定ですべてのタスクを評価しました。アブレーション実験の結果、UL2 は 9 つのタスクすべてにおいて T5 および GPT のようなベースラインよりも優れていることが示されました。平均すると、UL2 は T5 ベースラインより +43.6%、1 つの言語モデルより +76.1% 優れています。他の競合ベースラインの中で、UL2 はすべてのタスクで T5 および GPT のようなモデルよりも優れたパフォーマンスを発揮する唯一の方法です。

さらに、UL2 を約 200 億 (正確には 195 億) のパラメータの中規模サイズに拡張し、言語生成 (自動および人間による評価付き)、言語理解、テキスト分類、質問応答、常識的推論、長文推論、構造化知識ベース、情報検索など、50 を超える NLP タスクの多様なポートフォリオで実験を実施します。実験結果によると、UL2 はほとんどのタスクと環境で SOTA を達成しています。

最後に、研究者らは UL2 を使用してゼロ/少数ショットの実験を実施し、UL2 がゼロショット SuperGLUE で GPT-3 175B よりも優れていることを示しました。 GLaM (Du et al., 2021)、PaLM (Chowdhery et al., 2022)、ST-MoE (Zoph et al., 2022) などの新しい SOTA モデルと比較すると、UL2 は C4 コーパスのみでトレーニングされているにもかかわらず、計算マッチング設定で非常に競争力のあるパフォーマンスを発揮します。

ゼロショットと微調整のパフォーマンスのトレードオフを詳細に分析し、UL2 が両方の学習パラダイムでパレート効率的であることを示します。 UL2 は、LM 適応型 T5 XXL モデルの 3 倍のパフォーマンスを実現し、同じ計算コストで PaLM および LaMDA に匹敵します。

論文の(共同)筆頭著者は、Google AIの上級研究科学者であるYi Tay氏と、Google Brainの研究科学者であるMostafa Dehghani氏です。

Yi Tay は、2019 年にシンガポールの南洋理工大学でコンピューター サイエンスの博士号を取得しました。彼は論文執筆者であり、2018 年には第一著者としてこの分野のトップクラスの会議論文 14 本を発表しました。さらに、彼の論文は、ICLR 2021 優秀論文賞、WSDM 2021 最優秀論文賞(次点)、WSDM 2020 最優秀論文賞(次点)など、複数の賞を受賞しています。さらに、EMNLP や NAACL などのトップ NLP カンファレンスの地域議長を務めています。

Mostafa Dehghani 氏はアムステルダム大学で博士号を取得し、ACM SIGIR ICTIR 2016 Best Paper Award などの賞を受賞しました。 Google では、主に注意ベースの視覚および言語モデルを研究しており、人気の論文「AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE」の著者の 1 人です。

論文の詳細は以下の通りです。

UL2 詳細説明

事前トレーニングタスクを統一的な視点から見る

多くの事前トレーニング タスクは、入力からターゲットへのタスクとして簡単に定式化できます。ここで、入力は、モデルが依存する任意の形式のメモリまたはコンテキストを指し、ターゲットはモデルの予想される出力です。言語モデルは、以前のすべての時間ステップを入力として使用して、次のトークンであるターゲットを予測します。スパン破損では、モデルは過去と未来のすべての破損していないトークンを入力として利用し、破損したスパン (ターゲット) を予測します。 Prefix-LM は過去のトークンを入力として使用する言語モデルですが、入力を双方向に使用します。これにより、通常の言語モデルでの入力の一方向エンコーディングよりも強力なモデリング能力が提供されます。

この観点から、ある事前トレーニングの目標を別の事前トレーニングの目標に簡素化することができます。たとえば、スパン破損の目標では、破損したスパン (ターゲット) がシーケンス全体に等しい場合、問題は実際には言語モデリングの問題になります。これを念頭に置いて、スパン破損を使用すると、スパンの長さを大きく設定することで、ローカル領域での言語モデリングの目的を効果的にシミュレートできます。

研究者らは、この論文で使用されているさまざまなノイズ除去タスクをすべて網羅する表記法を定義しました。ノイズ除去タスクの入力とターゲットは、3 つの値 (µ、r、n) でパラメータ化される SPANCORRUPT 関数によって生成されます。ここで、µ は平均スパン長、r は破損率、n は破損したスパンの数です。 n は、L/µ のように入力長 L とスパン長 µ の関数になることもありますが、研究者によっては n に固定値を使用する場合もあります。入力テキストが与えられると、SPANCORRUPT は平均 u の (正規または一様) 分布から抽出された長さの範囲に破損を導入します。破損後、入力テキストはノイズ除去タスクに送られ、破損した範囲は復元するターゲットとして使用されます。

たとえば、この式を使用して因果言語モデリングに似た目的を構築するには、単一のスパンの長さがシーケンスの長さと等しくなるように (µ = L、r = 1.0、n = 1) を設定するだけです。 Prefix LM に似た目的を表現するには、(µ = L − P, r = 1.0 − P/L, n = 1) と設定します。ここで、P はプレフィックスの長さで、単一の破損したスパンが常にシーケンスの末尾に到達するという追加の制約があります。

研究者らは、この入力からターゲットへの式は、エンコーダー-デコーダー モデルとシングルスタック Transformer モデル (デコーダー モデルなど) の両方に適用できることを指摘しています。彼らは、インプレース予測モデル(BERT で現在のマスクされたトークンを予測するなど)ではなく、次のターゲット トークンを予測するモデルを選択しました。これは、次のターゲットの定式化がより一般的であり、特別な「CLS」トークンとタスク固有の投影ヘッドを使用する代わりに、より多くのタスクを網羅できるためです。

ノイズ除去剤の混合

研究者たちは、事前トレーニング中に、強力な一般モデルはさまざまな問題に直面し、それを解決しなければならないと考えています。事前トレーニングが自己監督を使用して行われると仮定すると、研究者は、この多様性がモデルの目的に注入される必要があると考えています。そうしないと、モデルは、一貫性のある長いテキストを生成する機能など、特定の機能を欠く可能性があります。

これと現在の目的関数の種類に基づいて、事前トレーニング中に使用される 3 つの主要なパラダイムを定義します。

R-Denoiser(通常のノイズ除去)は、 Raffel ら(2019)によって導入された標準的なスパン破損であり、スパン長として 2 ~ 5 個のトークンを使用し、入力トークンの約 15% を隠します。これらのスパンは非常に短く、流暢なテキストを生成することを学ぶのではなく、知識の獲得に役立つ可能性があります。

ノイズ除去の特殊なケースであるS-Denoiser は、入力からターゲットへのタスク、つまり接頭辞言語モデリングを構築するときに厳密な順序に従います。これを実現するために、研究者は入力シーケンスを 2 つのトークン サブシーケンスに分割します。1 つはコンテキスト、もう 1 つはターゲットです。これにより、ターゲットは将来の情報に依存しなくなります。これは、ターゲット トークンがコンテキスト トークンよりも前に配置される可能性がある標準的なスパン破損とは異なります。 Prefix-LM 設定と同様に、コンテキスト (プレフィックス) は双方向受容野を保持することに注意してください。研究者らは、メモリが非常に短い、またはメモリが全くない S-ノイズ除去は、標準的な因果言語モデリングと精神的に似ていると指摘しています。

X-Denoiser はノイズ除去の極限バージョンであり、モデルは入力の大部分を回復する必要があります。これは、限られた情報メモリを利用してモデルが長いターゲットを生成する必要がある状況をシミュレートします。この目的のために、研究者は、入力シーケンスの約 50% がマスクされる積極的なノイズ除去を含む例を選択しました。これは、スパンの長さや破損率を増やすことによって実現されます。事前トレーニング タスクの範囲が長い場合 (例: 12 トークン以上)、または破損率が高い場合 (例: 30% 以上)、タスクは極端であると見なされます。 X ノイズ除去の目的は、通常のスパンの破損と同様の目標を持つ言語モデル間の補間として存在します。

このノイズ除去セットは、以前に使用された目的関数と密接な関係があります。R-ノイズ除去は T5 スパン破損目的であり、S-ノイズ除去は GPT のような因果言語モデルに関連しており、X-ノイズ除去はモデルを T5 と因果 LM の目的の組み合わせに公開できます。注目すべきは、X-denoiser はサンプル効率を向上させるためにも接続されていることです。これは、各サンプルで予測するために学習できるトークンが増えるためであり、これは LM の考え方に似ています。私たちは、混合自己監督目標を使用して、これらすべてのタスクを統一された方法で組み合わせることを提案します。最終目標は、次の構成で 7 つのノイズ除去装置を混合することです。

X-Denoiser および R-Denoiser の場合、スパンの長さは平均 µ の正規分布からサンプリングされます。 S-denoiser の場合、均一分布を使用し、破損したスパンの数を 1 に固定し、破損したスパンが元の入力テキストの末尾で終了し、破損した部分の後にトリミングされていないトークンが表示されないようにするという追加の制約があります。これは、seq2seq ノイズ除去または Prefix LM 事前トレーニング目標とほぼ同等です。

LM は Prefix-LM の特殊なケースであるため、付随的な LM タスクをミックスに含める必要はないと考えます。すべてのタスクは、ほぼ同等にミックスに関与します。研究者らは、ハイブリッド構成における S デノイザーの割合を 50% に増やし、残りを他のデノイザーで共有するという代替シナリオも検討しました。

最後に、「混合」というアクションにより、Mixture-of-Denoisers は非常に多用途になります。個別に見ると、ノイズ除去ツールによってはパフォーマンスが低いものもあります。たとえば、オリジナルの T5 論文では、破損率が 50% のオプション (X ノイズ除去) を検討しましたが、効果がないことがわかりました。

UL2 の Mixture-of-Denoisers 実装は非常にシンプルで、seqio3 などのライブラリを使用して簡単に実装できます。

モード切り替え

研究者たちはモードの切り替えによるパラダイムシフトの概念を導入しました。事前トレーニング中に、モデルに追加のパラダイム トークン、つまり {[R]、[S]、[X]} を提供します。これにより、モデルは特定のタスクに適したモードに切り替えることができます。微調整と下流の少数ショット学習では、モデルがより良い解決策を学習するようにトリガーするために、研究者は下流のタスクの設定と要件に関するパラダイム トークンも追加しました。モード切り替えは、ダウンストリームの動作をアップストリームのトレーニングで使用されるモードの 1 つに効果的にバインドします。

アブレーション実験結果

表 2 は、すべてのベンチマーク タスクとデータセットの生の結果を示しています。

異なる設定間の比較を容易にするために、研究者らは、表 3 および 4 に示すように、UL2 と T5 や GPT モデルなどの確立されたベースラインとの相対比較も示しています。

200億パラメータにスケーリングした後の結果

図 8 は、さまざまなタスクにおける UL20B と以前の SOTA の比較結果を示しています。

詳細については、元の論文を参照してください。

<<:  物理学と機械学習が出会うとき: 物理学の知識に基づく機械学習のレビュー

>>:  言語モデルの氷山の一角: 微調整は不要、AI21 Labs は凍結モデルの未開発の可能性を探る

ブログ    

推薦する

...

スマートロボットについて知っておくべきことすべて

スマートロボットは、タスクをより効率的かつ正確に実行し、生産性を向上させ、人的エラーを削減するように...

...

GitHub CEO: AIはプログラマーに取って代わることはできない

GitHub の CEO である Thomas Dohmke 氏は最近、人工知能とソフトウェア開発の...

人工知能は感情を認識するために使われている

感情認識技術は、人工知能を使用して人の表情から感情を検出する、数十億ドル規模の新興産業です。しかし、...

2019 年に登場する 10 の機械学習アプリケーション

[[257674]]まだ始まったばかりの 2019 年には、どのような新しいアプリケーションが登場す...

ALS の少年がアリ数学コンテストで輝く!ブラックホールを研究するためにMITに独学で入学、指導者はホーキングと非常に似ている

今年のアリババ世界数学コンテストでは、特別優秀賞受賞者が決定しました。 ALSを患う20歳の少年、ル...

...

製造業で「ロボット」が増加中

1997年、IBMが開発したディープ・ブルーがロシアのチェス名人ガルリ・カスパロフに勝利し、人工知能...

...

機械学習がデータセンターを進化させる方法

1. はじめにビッグデータ革命によりデータセンターが爆発的に増加し、エネルギー消費量はますます増加し...

NetEase MediaのLiu Yandong氏:AIは読者にパーソナライズされたコンテンツをタイムリーに提供します

【51CTO.comオリジナル記事】 2017年12月1日から2日まで、51CTO主催のWOTDグロ...

新しいAIは「人間の脳に潜り込み」、どんな外見が最も魅力的かを理解できる

北京時間3月11日、外国メディアの報道によると、科学者らは最近、「人間の脳に潜り込み」、どのような顔...