転移学習の限界を突破せよ! Googleが新しいNLPモデル「T5」を提案、複数のベンチマークでSOTAに到達

転移学習の限界を突破せよ! Googleが新しいNLPモデル「T5」を提案、複数のベンチマークでSOTAに到達

  [[316154]]

過去数年間、転移学習は NLP 分野に実りある成果をもたらし、新たな発展の波を引き起こしました。

転移学習が非常に効果的な理由は、自己教師ありタスク (言語モデリングや欠落している単語の補完など) を使用して、大量の利用可能なラベルなしテキスト データでモデルを事前トレーニングし、その後、ラベル付きの小規模なデータセットでモデルを微調整することで、ラベル付きデータのみでトレーニングする場合よりもはるかに優れたパフォーマンスをモデルが達成できるようにするためです。

転移学習は、2018年にGPT、ULMFiT、ELMo、BERTの成果で初めてその力を発揮し、その後2019年にその力を発揮し、XLNet、RoBERTa、ALBERT、Reformer、MT-DNNなど、この分野で多くの新しい手法の開発を促進しました。

NLP の分野は急速に進歩しているため、どの開発が最も有意義であり、それらがどのように連携するかを評価するのは簡単ではありません。

論文アドレス: https://arxiv.org/abs/1910.10683

論文「統合テキストツーテキスト トランスフォーマーによる転移学習の限界の調査」では、Google の研究者が、どの転移学習手法が最も効果的かを判断するための大規模な実証的評価を提案し、これらの転移学習手法を大規模に適用して、著者らがテキストツーテキスト トランスフォーマー (T5) と呼ぶ新しいモデルを作成しました。同時に、新しいオープンソースの事前トレーニング データセットである Colossal Clean Crawled Corpus (C4) も導入されました。

著者らは、C4 データセットで T5 モデルを事前トレーニングし、多くの NLP ベンチマークで最先端の結果を達成できるようにしたほか、微調整後に複数の重要な下流タスクに適用できるほど柔軟にもしました。

1. テキストからテキストへの共有フレームワーク

T5 モデルを作成した後、著者はすべての NLP タスクを統一されたテキストからテキストへの形式に再構築しました。この形式では、入力と出力の両方が常にテキスト文字列になります。これは、クラス ラベルまたは入力範囲のみを出力できる BERT スタイルのモデルとはまったく異なります。

このテキストからテキストへのフレームワークにより、機械翻訳、ドキュメントの要約、質問への回答、感情分析などの分類タスクを含むあらゆる NLP タスクに同じモデル、損失関数、ハイパーパラメータを使用できます。

T5 モデルを、数値そのものではなく、数値の文字列表現を予測するようにトレーニングすることで、回帰タスクに適用することもできます。

テキストからテキスト フレームへの図。各タスクについて、著者らはテキストをモデルへの入力として使用することを検討し、モデルがターゲットテキストを生成するようにトレーニングしました。これにより、翻訳 (緑のボックス)、言語の許容性 (赤のボックス)、文の類似性 (黄色のボックス)、ドキュメントの要約 (青のボックス) など、複数のタスクで同じモデル、損失関数、ハイパーパラメータを使用できるようになります。また、経験的評価に含まれる方法の標準的なテストベッドも提供します。

2. 大規模事前学習データセット(C4)

転移学習の重要な部分は、モデルの事前トレーニングに使用されるラベルなしデータセットです。事前トレーニングのスケールアップの効果を正確に評価するには、高品質で多様性があるだけでなく、サイズが大きいデータセットが必要です。

既存の事前トレーニング データセットでは、上記の 3 つの要件を満たすことができません。たとえば、Wikipedia のテキストは高品質で形式も統一されていますが、規模は比較的小さいです。Common Crawl Web サイトからクロールされたテキストは規模が大きく、多様性に富んでいますが、品質は非常に低いです。

これら 3 つの要件を満たすために、著者らは、Wikipedia より 2 桁大きい Common Crawl のクリーン バージョンである Colossal Clean Crawled Corpus データセット (C4) を開発しました。クリーニング プロセスには、重複データの削除、不完全な文の削除、不快なコンテンツやノイズの多いコンテンツの排除が含まれます。

このフィルタリングにより、モデルは下流のタスクでより優れたパフォーマンスを実現できるようになり、データセットの追加サイズにより、事前トレーニング中に過剰適合することなくモデルのサイズを増やすこともできます。

C4 データセット アドレス:

https://www.tensorflow.org/datasets/catalog/c4

3. 転移学習法に関する体系的な研究

著者らは、T5 テキストツーテキスト フレームワークと新しい事前トレーニング データセット C4 を使用して、過去数年間に NLP 転移学習に導入されたいくつかのアイデアと手法を評価します。詳細な評価は論文に記載されており、以下の実験が含まれています。

  • モデルアーキテクチャの実験では、エンコーダー/デコーダーモデルは一般に「デコードのみ」の言語モデルよりも優れていることがわかりました。
  • 事前トレーニング目標を使用した実験では、空欄補充ノイズ除去目標(つまり、入力内の欠落した単語を回復するようにモデルをトレーニングする)の方が効果的であり、最も重要な要素は計算コストであることが実証されました。
  • ラベルなしデータセットの実験では、ドメイン内のデータセットでモデルをトレーニングすることは有益である一方、より小さなデータセットでモデルを事前トレーニングすると、望ましくない過剰適合につながる可能性があることが示されました。
  • トレーニング戦略の実験では、マルチタスク学習は事前トレーニング後に微調整するアプローチに匹敵するが、各タスクでモデルをトレーニングする頻度をより慎重に選択する必要があることがわかりました。
  • モデル サイズに関する実験では、さまざまなモデル サイズ、トレーニング時間、アンサンブル モデルの数を比較して、固定されたコンピューティング能力を最大限に活用する方法を決定しました。

4. 移行方法 + データ規模 = 最高のパフォーマンス

NLP の転移学習の現在の限界を探るために、著者らは体系的な研究から得た最良の方法をすべて組み合わせた最終的な一連の実験を実行し、Google Cloud TPU アクセラレータを使用して最適化しました。

最大のモデルは 110 億のパラメータを持ち、GLUE、Superglue、Team、CNN/Daily Mail ベンチマークで SOTA を達成しています。さらに、SuperGLUE 自然言語理解ベンチマークで人間に近いレベルのスコアを達成しました。

5. 他のタスクに拡張してもパフォーマンスは満足できる

T5 は非常に柔軟性が高く、簡単に変更できます。著者の論文に記載されているタスク以外のタスクでも大きな成功を収めています。たとえば、次の 2 つの新しいタスクでも、モデルは適切に機能します。

1. クローズドデータQ&A

テキストからテキストへのフレームワークは、読解問題でよく使用されます。モデルにコンテキストと質問を与え、コンテキスト内で質問の答えを見つけるようにトレーニングします。たとえば、ハリケーン コニーに関する Wikipedia の記事のテキストをモデルに与えて、「ハリケーン コニーは何日に発生しましたか?」と質問し、記事内の日付を見つけるようにモデルをトレーニングします。実際、著者らはこのアプローチを使用して、スタンフォード質問応答データセット (SQuAD) で最先端の結果を達成しました。

著者らの Colab デモとその後の論文では、外部の知識を必要とせずに、より困難なクローズド環境で些細な質問に答えられるように T5 をトレーニングしました。

言い換えれば、T は質問に答えるときに、教師なし事前トレーニング中にトレーニングされたパラメータと知識のみを使用できます。

事前トレーニング中に、T5 は C4 ドキュメントから欠落しているテキスト範囲を埋める方法を学習します。モデルは微調整され、入力情報やコンテキストなしのクローズド質問応答に適用されました。

T5 はこのタスクに非常に優れており、110 億のパラメータ モデルにより、TriviaQA、WebQuestions、Natural Questions の回答のそれぞれ 50.1%、37.4%、34.5% を正確に生成しました。

これを理解するために、T5 チームはトレーニング済みのモデルに対してパブ トリビア チャレンジを実行しましたが、残念ながら惨敗しました。次のアニメーションに示すように

2. 穴埋め問題 2 番目のタスクは穴埋め問題です。 GPT-2 のような大規模言語モデルは、テキスト生成に非常に優れています。モデルをトレーニングすると、入力に基づいて次の単語を予測できるようになります。このようなモデルを統合すると、テキストベースのゲーム「AI Dungeon」など、非常に革新的なアプリケーションを作成できます。

T5 で使用される事前トレーニングの目標は、モデルがテキスト内の欠落している単語を予測する空欄補充タスクと非常に似ていますが、空欄補充タスクのギャップがテキストの最後に現れる可能性があるため、この目標は「継続タスク」の一般化です。

この目標を達成するために、「空欄を埋める」という新しいタスクが作成され、モデルは空欄を指定された数の単語に置き換えるように求められました。たとえば、モデルへの入力: 私はピーナッツバターと -4- サンドイッチを食べるのが好きです。モデルはおそらく、空白を 4 つの単語で埋めるようにトレーニングされるでしょう。

モデルは C4 で微調整され、結果は良好で、特に欠落テキストに対するモデルの予測は素晴らしかったです。たとえば、「私はピーナッツバターと -N- サンドイッチが好きです」という入力の場合、出力は次のようになります。

事前トレーニング済みモデル:

https://github.com/google-research/text-to-text-transfer-transformer#released-model-checkpoints

コード:

https://github.com/google-research/text-to-text-transfer-transformer

コラボノートブック

https://colab.research.google.com/github/google-research/text-to-text-transfer-transformer/blob/master/notebooks/t5-trivia.ipynb

<<:  疫病と戦うための新しい技術!北京で3Dプリント/コピー防護マスクの開発に成功

>>:  Nvidia は、実物大、数千ポンドを持ち上げることができるロボットなど 6 台のロボットを披露します...

ブログ    
ブログ    

推薦する

信じられますか?これら 8 つの AI テクノロジーにより、すでに次のことが可能になっています...

人工知能(AI)は私たちが想像していたものではありません。未来だけに存在する概念で、世界を変えること...

転移学習に関する最先端の研究:低リソース、ドメイン一般化、安全な転移

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

ジェネレーティブ AI とクラウド ネイティブは期待が膨らんでいる時期にあります。これらは企業の変革よりも重要ですか?

今年、業界内では「AI 記者会見でない記者会見はない」というジョークが飛び交っています。まさにその通...

人工知能を搭載したロボットは私たちの生活からどれくらい離れているのでしょうか?

産業用ロボットは幅広い用途でますます利用されるようになっているわが国は世界最大かつ最も活発な産業用ロ...

マトリックスシミュレーション! Transformer の大型モデルの 3D 視覚化。GPT-3 と Nano-GPT の各層がはっきりと見える

「マトリックスシミュレーション」の世界は本当に存在するかもしれない。人間のニューロンをシミュレートし...

記憶は人工知能開発の重要な側面を示している

一般的に言えば、人間が不規則な電話番号の列を記憶するには長い時間がかかりますが、人工知能はこの情報を...

金融や視覚分野に加えて、AIはゲーム開発においても破壊的な技術となっている。

機械学習は、ゲームプログラミングではなく、ゲーム開発トレーニングへの扉を開きます。 「ゲーム開発」は...

インテルがモービルアイを買収、自動運転市場は3社間の競争の幕開けか

[51CTO.comより引用] 先日、インテルは、自動運転プラットフォームプロバイダーのMobile...

2024年のITトレンド、予測、推奨事項

2024 年は、人工知能 (AI) を先頭に、革新的なテクノロジーにとってエキサイティングな年となる...

2024年に決して起こらない5つのテクノロジートレンド

翻訳者 | ジン・ヤンレビュー | Chonglou世界中のアナリストが、今後のテクノロジートレンド...

ChatGPT 1 周年、Altman が OpenAI に復帰!帰国の内幕を明かすイリヤの所在はまだ不明

ChatGPT の 1 周年に、OpenAI は公式発表を行いました: Sam Altman が O...

...

人工知能は「高度な感情知能」に向かって発展している

[[265376]] [51CTO.com クイック翻訳] 機械知能の分野における現在の成功は主に計...

Apple iPhone 15の発表イベントではAI機能に焦点が当てられたが、AI技術についてはほとんど語られなかった

9月13日北京時間午前1時に行われたアップルの秋季製品発表イベントで、アップルの広報担当者はAI技術...