Google の優れた NLP 事前トレーニング モデルはオープンソースで、BERT に勝る

Google の優れた NLP 事前トレーニング モデルはオープンソースで、BERT に勝る

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

最近、GoogleはAI言語モデルELECTRAをTensorFlow上のオープンソースモデルとしてリリースすると発表しました。このアプローチでは、Replacement Token Detection (RTD) と呼ばれる新しい事前トレーニング タスクを使用します。これにより、すべての入力位置から学習しながら双方向モデルをトレーニングできます。

さらに、同じコンピューティング リソースを使用する場合、ELECTRA のパフォーマンスは既存の方法よりも優れており、わずか 1/30 のパラメーターで、最先端の BERT シリーズ モデルに劣らないパフォーマンスを実現します。 Googleはこのオープンソースの成果を紹介する記事を公開し、Leifeng.com AI Source Commentaryは以下のようにまとめ、編集しました。

[[318891]]

言語モデルの現状とボトルネック

近年、言語事前トレーニング モデルの最新の進歩により、BERT、RoBERTa、XLNet、ALBERT、T5 などの最も先進的なモデルを含む自然言語処理が大きく進歩しました。

これらの方法は設計が異なりますが、感情分析や質問回答などの特定の NLP タスクに合わせて微調整された大量のラベルなしテキストを使用して言語理解の一般的なモデルを構築するという同じ考え方を共有しています。

したがって、既存の事前トレーニング方法は、一般的に、GPT などの言語モデル (LM) の 2 つのカテゴリに分類されます。このメソッドは、入力テキストを左から右に処理し、前のコンテキストに基づいて次の単語を予測します。

もう 1 つは、BERT、RoBERTa、ALBERT などのマスク言語モデル (MLM) です。このタイプのモデルは、入力でマスクされた少数の単語の内容を予測します。 MLM は、予測する単語の左側と右側のテキストを見ることができるため、LM よりも双方向予測の利点があります。

しかし、MLM モデルの予測には欠点もあります。これらのモデルの予測は、入力トークンの小さなサブセット (マスクされた部分の 15%) に制限されるため、各文から取得される情報の量が減少し、計算コストが増加します。

Google の最高の NLP 事前トレーニング済みモデルはオープンソースです">

既存の事前トレーニング方法とその欠点。矢印は、特定の出力表現 (長方形) を生成するために使用されるトークンを示します。左: 従来の言語モデル (GPT など) は、現在の単語の左側のコンテキストのみを使用します。右: マスクされた言語モデル(BERTなど)は左から右への文脈を使用しますが、各入力に対して単語の小さなサブセットのみを予測します。

新しい事前学習済みモデルELECTRA

上記 2 種類の言語モデルの欠点を克服するために、Google は ELECTRA (Efficiently Learning an Encoder that Classifies Token Replacements Accurately) 言語モデルを提案しました。これは新しい事前トレーニング方法であり、その重要なポイントは、既存の言語モデルの問題に対処するために、事前トレーニング済みのテキスト エンコーダーをジェネレーターではなく識別子として使用することです。

Google の最高の NLP 事前トレーニング済みモデルはオープンソースです">

論文アドレス: https://openreview.net/pdf?id=r1xMH1BtvB

同じモデル サイズ、データ、計算の複雑さで、この方法は BERT や XLNet などの MLM タイプの方法よりも大幅に優れています。さらに、ELECTRA の小さなモデルでは、1 つの GPU で 4 日間のトレーニングしか必要ありません。

具体的な実験データによると、この小型モデルの GLUE スコアは BERT 小型モデルより 5 ポイント高く、さらに大型の GPT モデル (30 倍の計算能力を使用) よりもパフォーマンスが優れていることがわかります。

ELECTRA は、計算労力を 1/4 未満に抑えながら、GLUE 自然言語理解ベンチマークで RoBERTa および XLNet のパフォーマンスを達成できます。大規模な ELECTRA のトレーニングにさらに多くのコンピューターが使用されると、モデルは SQuAD 2.0 質問応答データセットと言語理解タスクのリーダーボードで最先端のパフォーマンスを達成します。 (具体的なデータについては第4章を参照)

コアアイデア - トークンの置き換え検出

ELECTRA は、Replacement Token Detection (RTD) と呼ばれる新しい事前トレーニング タスクを使用します。このタスクでは、すべての入力位置 (LM など) から学習しながら双方向モデル (MLM など) をトレーニングします。

具体的には、ELECTRA の目標は、入力された単語を区別することを学習することです。マスクは使用せず、代わりに提案分布から単語をサンプリングして入力を置き換えます。これにより、マスクによって発生する事前トレーニングと微調整の間の不一致の問題が解決されます。

次に、モデルは各単語が元の単語であるか置換単語であるかを予測する識別器をトレーニングします。識別器の利点の 1 つは、モデルが MLM のようにマスクされた単語だけではなく、入力内のすべての単語から学習するため、計算効率が高くなることです。

多くの開発者が敵対的学習手法と関連付けているように、ELECTRA は確かに敵対的生成ネットワーク (GAN) からインスピレーションを受けています。しかし、違いは、モデルが最大尤度を使用し、非敵対的学習を使用していることです。

たとえば、下の画像では、「cooked」という単語を「ate」に置き換えることができます。これはある程度は理にかなっていますが、全体の文脈には適合しません。事前トレーニング タスクでは、元の入力内のどのトークンが置き換えられたか、または同じままであるかを判断するモデル (つまり、識別子) が必要です。

RTD アプローチは、モデルのバイナリ分類タスクが少数のマスクされた単語 (BERT スタイルのモデルでは 15%) ではなく、すべての入力単語に適用されるため、MLM よりも効率的です。これは、ELECTRA が他の言語モデルと同じパフォーマンスを達成するために必要な例が少ない理由も説明しています。

Google の最高の NLP 事前トレーニング済みモデルはオープンソースです">

置換トークン検出により、すべての入力位置から学習するときに双方向のトレーニングが可能になります。

置換トークンはジェネレーターのニューラル ネットワークから生成されます。ジェネレーターの目的は、マスクされた言語モデルをトレーニングすることです。つまり、入力シーケンスが与えられると、入力内の単語が一定の割合 (通常は 15%) でマスクに置き換えられ、ネットワークを通じてベクトル表現が取得され、ソフトマックス レイヤーを使用して入力シーケンス内のマスクされた位置にある単語が予測されます。

ジェネレーターの構造は GAN に似ていますが、この方法をテキストタスクに適用するのが難しいため、結果として得られるトレーニング目的関数はマスクされた単語の最大尤度になります。

その後、ジェネレータと識別器は同じ入力単語埋め込みを共有します。識別器の目的は、入力シーケンスの各位置にある単語がジェネレータによって置き換えられたかどうかを判断することです。元の入力シーケンスの対​​応する位置にある単語と異なる場合は、置き換えられたと判断されます。

Google の最高の NLP 事前トレーニング済みモデルはオープンソースです">

ジェネレータとディスクリミネータのニューラル ネットワーク モデル

具体的な研究結果の比較

研究者らは、ELECTRA を他の最先端の NLP モデルと比較し、同じ計算予算を与えられた場合、ELECTRA は以前のアプローチに比べて大幅に改善され、RoBERTa や XLNet と同等のパフォーマンスを発揮しながら、計算量は 4 分の 1 以下であることを発見しました。

Google の最高の NLP 事前トレーニング済みモデルはオープンソースです">

x 軸はモデルのトレーニングに使用された計算量 (FLOP 単位) を示し、y 軸は開発 GLUE スコアを示します。既存の事前トレーニング済み NLP モデルと比較すると、ELECTRA ははるかに効率的に学習します。しかし、GLUEの現在の最良のモデル(T5(11B)など)は、他のモデルよりもはるかに多くの計算を必要とするため(RoBERTaの10倍)、このグラフには適していないことに注意してください。

効率をさらに向上させるために、研究者らは、わずか 4 日間で単一の GPU 上で十分にトレーニングできる小さな ELECTRA モデルを試しました。

ELECTRA-small は、トレーニングに多数の TPU を必要とする大規模モデルと同じ精度を達成することはできませんが、それでも GPT よりも優れたパフォーマンスを発揮し、必要なコンピューティングは 3 分の 1 にすぎません。

次に、この結果が大規模に実装できるかどうかをテストするために、研究者はより多くのコンピューティング(RoBERTa とほぼ同じ量、T5 の約 10%)を使用して大規模な ELECTRA モデルをトレーニングしました。

研究者らは、SQuAD 2.0 質問応答データセットで、大規模な ELECTRA、RoBERTa、XLNet、BERT、および ALBERT モデルのパフォーマンスをテストしました。結果は下の表に示されています。GLUE リーダーボードでは、ELECTRA が他のすべてのモデルよりも優れていることがわかります。

しかし、後者は依然として大型の T5-11b モデルよりも GLUE のスコアが高くなります。しかし、ELECTRA はサイズが 3 分の 1 であり、コンピューティングの 10% をトレーニングに使用することは注目に値します。

Google の最高の NLP 事前トレーニング済みモデルはオープンソースです">

ELECTRA-Largeおよびその他の最先端モデルにおけるSQUAD 2.0データセットのスコア

現在、ELECTRA を事前トレーニングし、下流のタスクで微調整するためのコードがリリースされています。現在サポートされているタスクには、テキスト分類、質問への回答、シーケンスのラベル付けなどがあります。

このコードにより、単一の GPU 上で小さな ELECTRA モデルを高速にトレーニングできるようになります。 Google は今後、ELECTRA-Large、ELECTRA-Base、ELECTRA-Small の事前トレーニング コードもリリースする予定です。 (ELECTRA モデルは現在英語版のみで提供されており、今後他の言語バージョンもリリースされる予定です)

元の住所:

https://ai.googleblog.com/2020/03/more-efficient-nlp-model-pre-training.html

GitHub アドレス:

https://github.com/google-research/エレクトラ

<<:  ファーウェイ、加算のみを使用するニューラルネットワークをオープンソース化:インターン生が開発を主導、効果は従来のCNNと同等

>>:  2020 年の人工知能に関するトップ 10 の予測

ブログ    
ブログ    
ブログ    

推薦する

Zhuiyi Technology AI Lab: ビジネスとテクノロジーの両方を推進し、新しいレベルのインテリジェントなインタラクティブアプリケーションを創造

[51CTO.comからのオリジナル記事] 人工知能の推進により、ビジネス運営モデルは変化しました。...

...

...

マイクロソフトはAIを活用して新しい電池材料を選別し、電池のリチウムの70%をナトリウムに置き換える

1 月 10 日、マイクロソフトの量子コンピューティング チームは、米国エネルギー省傘下のパシフィッ...

「AI顔変換」技術の悪用はサイバーセキュリティ詐欺の氷山の一角を露呈

今年に入ってからは、ChatGPTやGPT-4などの技術の応用により、深層合成製品やサービスが増加し...

「脳制御+AI」で人は「本能」で運転できるようになる

「左に曲がれ、左に曲がれ、左に曲がれと言っただろう!」「ステップ!ステップ!ブレーキを踏め!」「手で...

「AIGC+」|新たなマーケティングパラダイム:AIGCは海外進出企業にとって「新たな武器」となり得るか?

わずか 1 年で、AIGC がもたらした業界を変革するアプリケーションは、徐々に人々の生活の隅々に浸...

...

2年後には「ロボット」が人間の活動の80%以上をこなすようになるのでしょうか? AIに関する専門家の見解を聞く

写真:人工知能カンファレンスフォーラム 撮影:新民晩報主任記者 劉欣 「私は生産性を変革し、新しい...

エッジAIとは何ですか?

エッジ AI は、今日のデジタル変革の時代に台頭している 2 つのテクノロジー、エッジ コンピューテ...

Amazon のニューラル ネットワークに関する書籍トップ 10

近年、データサイエンスとデータマイニングの人気が高まっています。ニューラルネットワークとディープラー...

金融サービス技術インフラに関する意思決定の5つの原則

現在、金融サービス業界にとっての朗報は、フィンテックの戦いがまだ終わっておらず、始まったばかりだとい...

Google の覇権は崩壊するのか?支配から疑惑へ:20年間インターネットのトレンドを形作ってきたGoogle検索は謎に包まれている

Googleで最初に出てくるのは、スタンフォード大学の元学長ゲルハルト・カスパーの名前です。 199...

ディープラーニングをすぐに始められる、やりがいのあるプロジェクト18選

AlphaGoとイ・セドルの戦いの後、ディープラーニング技術は国内で非常に人気が高まった。多くの技術...

トラック輸送業界がIoTとAIを活用する方法

トラック輸送業界とそれを支える物流は、国内外のサプライチェーンの成功の基盤となっています。こうしたサ...