過去数年間、転移学習は NLP 分野に実りある成果をもたらし、新たな発展の波を引き起こしました。 転移学習が非常に効果的な理由は、自己教師ありタスク (言語モデリングや欠落している単語の補完など) を使用して、大量の利用可能なラベルなしテキスト データでモデルを事前トレーニングし、その後、ラベル付きの小規模なデータセットでモデルを微調整することで、ラベル付きデータのみでトレーニングする場合よりもはるかに優れたパフォーマンスをモデルが達成できるようにするためです。 転移学習は、2018年にGPT、ULMFiT、ELMo、BERTの成果で初めてその力を発揮し、その後2019年にその力を発揮し、XLNet、RoBERTa、ALBERT、Reformer、MT-DNNなど、この分野で多くの新しい手法の開発を促進しました。 NLP の分野は急速に進歩しているため、どの開発が最も有意義であり、それらがどのように連携するかを評価するのは簡単ではありません。 論文アドレス: https://arxiv.org/abs/1910.10683 論文「統合テキストツーテキスト トランスフォーマーによる転移学習の限界の調査」では、Google の研究者が、どの転移学習手法が最も効果的かを判断するための大規模な実証的評価を提案し、これらの転移学習手法を大規模に適用して、著者らがテキストツーテキスト トランスフォーマー (T5) と呼ぶ新しいモデルを作成しました。同時に、新しいオープンソースの事前トレーニング データセットである Colossal Clean Crawled Corpus (C4) も導入されました。 著者らは、C4 データセットで T5 モデルを事前トレーニングし、多くの NLP ベンチマークで最先端の結果を達成できるようにしたほか、微調整後に複数の重要な下流タスクに適用できるほど柔軟にもしました。 1. テキストからテキストへの共有フレームワークT5 モデルを作成した後、著者はすべての NLP タスクを統一されたテキストからテキストへの形式に再構築しました。この形式では、入力と出力の両方が常にテキスト文字列になります。これは、クラス ラベルまたは入力範囲のみを出力できる BERT スタイルのモデルとはまったく異なります。 このテキストからテキストへのフレームワークにより、機械翻訳、ドキュメントの要約、質問への回答、感情分析などの分類タスクを含むあらゆる NLP タスクに同じモデル、損失関数、ハイパーパラメータを使用できます。 T5 モデルを、数値そのものではなく、数値の文字列表現を予測するようにトレーニングすることで、回帰タスクに適用することもできます。 テキストからテキスト フレームへの図。各タスクについて、著者らはテキストをモデルへの入力として使用することを検討し、モデルがターゲットテキストを生成するようにトレーニングしました。これにより、翻訳 (緑のボックス)、言語の許容性 (赤のボックス)、文の類似性 (黄色のボックス)、ドキュメントの要約 (青のボックス) など、複数のタスクで同じモデル、損失関数、ハイパーパラメータを使用できるようになります。また、経験的評価に含まれる方法の標準的なテストベッドも提供します。 2. 大規模事前学習データセット(C4)転移学習の重要な部分は、モデルの事前トレーニングに使用されるラベルなしデータセットです。事前トレーニングのスケールアップの効果を正確に評価するには、高品質で多様性があるだけでなく、サイズが大きいデータセットが必要です。 既存の事前トレーニング データセットでは、上記の 3 つの要件を満たすことができません。たとえば、Wikipedia のテキストは高品質で形式も統一されていますが、規模は比較的小さいです。Common Crawl Web サイトからクロールされたテキストは規模が大きく、多様性に富んでいますが、品質は非常に低いです。 これら 3 つの要件を満たすために、著者らは、Wikipedia より 2 桁大きい Common Crawl のクリーン バージョンである Colossal Clean Crawled Corpus データセット (C4) を開発しました。クリーニング プロセスには、重複データの削除、不完全な文の削除、不快なコンテンツやノイズの多いコンテンツの排除が含まれます。 このフィルタリングにより、モデルは下流のタスクでより優れたパフォーマンスを実現できるようになり、データセットの追加サイズにより、事前トレーニング中に過剰適合することなくモデルのサイズを増やすこともできます。 C4 データセット アドレス: https://www.tensorflow.org/datasets/catalog/c4 3. 転移学習法に関する体系的な研究著者らは、T5 テキストツーテキスト フレームワークと新しい事前トレーニング データセット C4 を使用して、過去数年間に NLP 転移学習に導入されたいくつかのアイデアと手法を評価します。詳細な評価は論文に記載されており、以下の実験が含まれています。
4. 移行方法 + データ規模 = 最高のパフォーマンスNLP の転移学習の現在の限界を探るために、著者らは体系的な研究から得た最良の方法をすべて組み合わせた最終的な一連の実験を実行し、Google Cloud TPU アクセラレータを使用して最適化しました。 最大のモデルは 110 億のパラメータを持ち、GLUE、Superglue、Team、CNN/Daily Mail ベンチマークで SOTA を達成しています。さらに、SuperGLUE 自然言語理解ベンチマークで人間に近いレベルのスコアを達成しました。 5. 他のタスクに拡張してもパフォーマンスは満足できるT5 は非常に柔軟性が高く、簡単に変更できます。著者の論文に記載されているタスク以外のタスクでも大きな成功を収めています。たとえば、次の 2 つの新しいタスクでも、モデルは適切に機能します。 1. クローズドデータQ&Aテキストからテキストへのフレームワークは、読解問題でよく使用されます。モデルにコンテキストと質問を与え、コンテキスト内で質問の答えを見つけるようにトレーニングします。たとえば、ハリケーン コニーに関する Wikipedia の記事のテキストをモデルに与えて、「ハリケーン コニーは何日に発生しましたか?」と質問し、記事内の日付を見つけるようにモデルをトレーニングします。実際、著者らはこのアプローチを使用して、スタンフォード質問応答データセット (SQuAD) で最先端の結果を達成しました。 著者らの Colab デモとその後の論文では、外部の知識を必要とせずに、より困難なクローズド環境で些細な質問に答えられるように T5 をトレーニングしました。 言い換えれば、T は質問に答えるときに、教師なし事前トレーニング中にトレーニングされたパラメータと知識のみを使用できます。 事前トレーニング中に、T5 は C4 ドキュメントから欠落しているテキスト範囲を埋める方法を学習します。モデルは微調整され、入力情報やコンテキストなしのクローズド質問応答に適用されました。 T5 はこのタスクに非常に優れており、110 億のパラメータ モデルにより、TriviaQA、WebQuestions、Natural Questions の回答のそれぞれ 50.1%、37.4%、34.5% を正確に生成しました。 これを理解するために、T5 チームはトレーニング済みのモデルに対してパブ トリビア チャレンジを実行しましたが、残念ながら惨敗しました。次のアニメーションに示すように 2. 穴埋め問題 2 番目のタスクは穴埋め問題です。 GPT-2 のような大規模言語モデルは、テキスト生成に非常に優れています。モデルをトレーニングすると、入力に基づいて次の単語を予測できるようになります。このようなモデルを統合すると、テキストベースのゲーム「AI Dungeon」など、非常に革新的なアプリケーションを作成できます。T5 で使用される事前トレーニングの目標は、モデルがテキスト内の欠落している単語を予測する空欄補充タスクと非常に似ていますが、空欄補充タスクのギャップがテキストの最後に現れる可能性があるため、この目標は「継続タスク」の一般化です。 この目標を達成するために、「空欄を埋める」という新しいタスクが作成され、モデルは空欄を指定された数の単語に置き換えるように求められました。たとえば、モデルへの入力: 私はピーナッツバターと -4- サンドイッチを食べるのが好きです。モデルはおそらく、空白を 4 つの単語で埋めるようにトレーニングされるでしょう。 モデルは C4 で微調整され、結果は良好で、特に欠落テキストに対するモデルの予測は素晴らしかったです。たとえば、「私はピーナッツバターと -N- サンドイッチが好きです」という入力の場合、出力は次のようになります。 事前トレーニング済みモデル: https://github.com/google-research/text-to-text-transfer-transformer#released-model-checkpoints コード: https://github.com/google-research/text-to-text-transfer-transformer コラボノートブック https://colab.research.google.com/github/google-research/text-to-text-transfer-transformer/blob/master/notebooks/t5-trivia.ipynb |
<<: 疫病と戦うための新しい技術!北京で3Dプリント/コピー防護マスクの開発に成功
>>: Nvidia は、実物大、数千ポンドを持ち上げることができるロボットなど 6 台のロボットを披露します...
英国のオンラインスーパーマーケットOcadoは最近、アンドーヴァーにある自社の自動倉庫をメディア向け...
人工知能(AI)は私たちが想像していたものではありません。未来だけに存在する概念で、世界を変えること...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
今年、業界内では「AI 記者会見でない記者会見はない」というジョークが飛び交っています。まさにその通...
産業用ロボットは幅広い用途でますます利用されるようになっているわが国は世界最大かつ最も活発な産業用ロ...
「マトリックスシミュレーション」の世界は本当に存在するかもしれない。人間のニューロンをシミュレートし...
一般的に言えば、人間が不規則な電話番号の列を記憶するには長い時間がかかりますが、人工知能はこの情報を...
機械学習は、ゲームプログラミングではなく、ゲーム開発トレーニングへの扉を開きます。 「ゲーム開発」は...
[51CTO.comより引用] 先日、インテルは、自動運転プラットフォームプロバイダーのMobile...
2024 年は、人工知能 (AI) を先頭に、革新的なテクノロジーにとってエキサイティングな年となる...
翻訳者 | ジン・ヤンレビュー | Chonglou世界中のアナリストが、今後のテクノロジートレンド...
ChatGPT の 1 周年に、OpenAI は公式発表を行いました: Sam Altman が O...
[[265376]] [51CTO.com クイック翻訳] 機械知能の分野における現在の成功は主に計...
9月13日北京時間午前1時に行われたアップルの秋季製品発表イベントで、アップルの広報担当者はAI技術...