転移学習の限界を突破せよ！ Googleが新しいNLPモデル「T5」を提案、複数のベンチマークでSOTAに到達

[[316154]]

過去数年間、転移学習は NLP 分野に実りある成果をもたらし、新たな発展の波を引き起こしました。

転移学習が非常に効果的な理由は、自己教師ありタスク (言語モデリングや欠落している単語の補完など) を使用して、大量の利用可能なラベルなしテキストデータでモデルを事前トレーニングし、その後、ラベル付きの小規模なデータセットでモデルを微調整することで、ラベル付きデータのみでトレーニングする場合よりもはるかに優れたパフォーマンスをモデルが達成できるようにするためです。

転移学習は、2018年にGPT、ULMFiT、ELMo、BERTの成果で初めてその力を発揮し、その後2019年にその力を発揮し、XLNet、RoBERTa、ALBERT、Reformer、MT-DNNなど、この分野で多くの新しい手法の開発を促進しました。

NLP の分野は急速に進歩しているため、どの開発が最も有意義であり、それらがどのように連携するかを評価するのは簡単ではありません。

論文アドレス: https://arxiv.org/abs/1910.10683

論文「統合テキストツーテキストトランスフォーマーによる転移学習の限界の調査」では、Google の研究者が、どの転移学習手法が最も効果的かを判断するための大規模な実証的評価を提案し、これらの転移学習手法を大規模に適用して、著者らがテキストツーテキストトランスフォーマー (T5) と呼ぶ新しいモデルを作成しました。同時に、新しいオープンソースの事前トレーニングデータセットである Colossal Clean Crawled Corpus (C4) も導入されました。

著者らは、C4 データセットで T5 モデルを事前トレーニングし、多くの NLP ベンチマークで最先端の結果を達成できるようにしたほか、微調整後に複数の重要な下流タスクに適用できるほど柔軟にもしました。

1. テキストからテキストへの共有フレームワーク

T5 モデルを作成した後、著者はすべての NLP タスクを統一されたテキストからテキストへの形式に再構築しました。この形式では、入力と出力の両方が常にテキスト文字列になります。これは、クラスラベルまたは入力範囲のみを出力できる BERT スタイルのモデルとはまったく異なります。

このテキストからテキストへのフレームワークにより、機械翻訳、ドキュメントの要約、質問への回答、感情分析などの分類タスクを含むあらゆる NLP タスクに同じモデル、損失関数、ハイパーパラメータを使用できます。

T5 モデルを、数値そのものではなく、数値の文字列表現を予測するようにトレーニングすることで、回帰タスクに適用することもできます。

テキストからテキストフレームへの図。各タスクについて、著者らはテキストをモデルへの入力として使用することを検討し、モデルがターゲットテキストを生成するようにトレーニングしました。これにより、翻訳 (緑のボックス)、言語の許容性 (赤のボックス)、文の類似性 (黄色のボックス)、ドキュメントの要約 (青のボックス) など、複数のタスクで同じモデル、損失関数、ハイパーパラメータを使用できるようになります。また、経験的評価に含まれる方法の標準的なテストベッドも提供します。

2. 大規模事前学習データセット（C4）

転移学習の重要な部分は、モデルの事前トレーニングに使用されるラベルなしデータセットです。事前トレーニングのスケールアップの効果を正確に評価するには、高品質で多様性があるだけでなく、サイズが大きいデータセットが必要です。

既存の事前トレーニングデータセットでは、上記の 3 つの要件を満たすことができません。たとえば、Wikipedia のテキストは高品質で形式も統一されていますが、規模は比較的小さいです。Common Crawl Web サイトからクロールされたテキストは規模が大きく、多様性に富んでいますが、品質は非常に低いです。

これら 3 つの要件を満たすために、著者らは、Wikipedia より 2 桁大きい Common Crawl のクリーンバージョンである Colossal Clean Crawled Corpus データセット (C4) を開発しました。クリーニングプロセスには、重複データの削除、不完全な文の削除、不快なコンテンツやノイズの多いコンテンツの排除が含まれます。

このフィルタリングにより、モデルは下流のタスクでより優れたパフォーマンスを実現できるようになり、データセットの追加サイズにより、事前トレーニング中に過剰適合することなくモデルのサイズを増やすこともできます。

C4 データセットアドレス:

https://www.tensorflow.org/datasets/catalog/c4

3. 転移学習法に関する体系的な研究

著者らは、T5 テキストツーテキストフレームワークと新しい事前トレーニングデータセット C4 を使用して、過去数年間に NLP 転移学習に導入されたいくつかのアイデアと手法を評価します。詳細な評価は論文に記載されており、以下の実験が含まれています。

モデルアーキテクチャの実験では、エンコーダー/デコーダーモデルは一般に「デコードのみ」の言語モデルよりも優れていることがわかりました。
事前トレーニング目標を使用した実験では、空欄補充ノイズ除去目標（つまり、入力内の欠落した単語を回復するようにモデルをトレーニングする）の方が効果的であり、最も重要な要素は計算コストであることが実証されました。
ラベルなしデータセットの実験では、ドメイン内のデータセットでモデルをトレーニングすることは有益である一方、より小さなデータセットでモデルを事前トレーニングすると、望ましくない過剰適合につながる可能性があることが示されました。
トレーニング戦略の実験では、マルチタスク学習は事前トレーニング後に微調整するアプローチに匹敵するが、各タスクでモデルをトレーニングする頻度をより慎重に選択する必要があることがわかりました。
モデルサイズに関する実験では、さまざまなモデルサイズ、トレーニング時間、アンサンブルモデルの数を比較して、固定されたコンピューティング能力を最大限に活用する方法を決定しました。

4. 移行方法 + データ規模 = 最高のパフォーマンス

NLP の転移学習の現在の限界を探るために、著者らは体系的な研究から得た最良の方法をすべて組み合わせた最終的な一連の実験を実行し、Google Cloud TPU アクセラレータを使用して最適化しました。

最大のモデルは 110 億のパラメータを持ち、GLUE、Superglue、Team、CNN/Daily Mail ベンチマークで SOTA を達成しています。さらに、SuperGLUE 自然言語理解ベンチマークで人間に近いレベルのスコアを達成しました。

5. 他のタスクに拡張してもパフォーマンスは満足できる

T5 は非常に柔軟性が高く、簡単に変更できます。著者の論文に記載されているタスク以外のタスクでも大きな成功を収めています。たとえば、次の 2 つの新しいタスクでも、モデルは適切に機能します。

1. クローズドデータQ&A

テキストからテキストへのフレームワークは、読解問題でよく使用されます。モデルにコンテキストと質問を与え、コンテキスト内で質問の答えを見つけるようにトレーニングします。たとえば、ハリケーンコニーに関する Wikipedia の記事のテキストをモデルに与えて、「ハリケーンコニーは何日に発生しましたか?」と質問し、記事内の日付を見つけるようにモデルをトレーニングします。実際、著者らはこのアプローチを使用して、スタンフォード質問応答データセット (SQuAD) で最先端の結果を達成しました。

著者らの Colab デモとその後の論文では、外部の知識を必要とせずに、より困難なクローズド環境で些細な質問に答えられるように T5 をトレーニングしました。

言い換えれば、T は質問に答えるときに、教師なし事前トレーニング中にトレーニングされたパラメータと知識のみを使用できます。

事前トレーニング中に、T5 は C4 ドキュメントから欠落しているテキスト範囲を埋める方法を学習します。モデルは微調整され、入力情報やコンテキストなしのクローズド質問応答に適用されました。

T5 はこのタスクに非常に優れており、110 億のパラメータモデルにより、TriviaQA、WebQuestions、Natural Questions の回答のそれぞれ 50.1%、37.4%、34.5% を正確に生成しました。

これを理解するために、T5 チームはトレーニング済みのモデルに対してパブトリビアチャレンジを実行しましたが、残念ながら惨敗しました。次のアニメーションに示すように

2. 穴埋め問題 2 番目のタスクは穴埋め問題です。 GPT-2 のような大規模言語モデルは、テキスト生成に非常に優れています。モデルをトレーニングすると、入力に基づいて次の単語を予測できるようになります。このようなモデルを統合すると、テキストベースのゲーム「AI Dungeon」など、非常に革新的なアプリケーションを作成できます。

T5 で使用される事前トレーニングの目標は、モデルがテキスト内の欠落している単語を予測する空欄補充タスクと非常に似ていますが、空欄補充タスクのギャップがテキストの最後に現れる可能性があるため、この目標は「継続タスク」の一般化です。

この目標を達成するために、「空欄を埋める」という新しいタスクが作成され、モデルは空欄を指定された数の単語に置き換えるように求められました。たとえば、モデルへの入力: 私はピーナッツバターと -4- サンドイッチを食べるのが好きです。モデルはおそらく、空白を 4 つの単語で埋めるようにトレーニングされるでしょう。

モデルは C4 で微調整され、結果は良好で、特に欠落テキストに対するモデルの予測は素晴らしかったです。たとえば、「私はピーナッツバターと -N- サンドイッチが好きです」という入力の場合、出力は次のようになります。

事前トレーニング済みモデル:

https://github.com/google-research/text-to-text-transfer-transformer#released-model-checkpoints

コード：

https://github.com/google-research/text-to-text-transfer-transformer

コラボノートブック

https://colab.research.google.com/github/google-research/text-to-text-transfer-transformer/blob/master/notebooks/t5-trivia.ipynb

<<: 疫病と戦うための新しい技術！北京で3Dプリント/コピー防護マスクの開発に成功

>>: Nvidia は、実物大、数千ポンドを持ち上げることができるロボットなど 6 台のロボットを披露します...