Googleの最新のNLPモデルは、パラメータが300分の1しかないのにBERTに匹敵するパフォーマンスを実現

Googleの最新のNLPモデルは、パラメータが300分の1しかないのにBERTに匹敵するパフォーマンスを実現

Google は最新のブログ投稿で、テキスト分類タスクで BERT レベルのパフォーマンスを達成できる新しい NLP モデルを発表しましたが、このモデルは BERT のパラメータの 1/300 しか使用していません。

過去 10 年間で、ディープ ニューラル ネットワークは自然言語処理 (NLP) の分野を根本的に変革しましたが、モバイル デバイスのメモリと処理能力が限られているため、モデルに対する要求は高まっています。パフォーマンスを犠牲にすることなく、より小型化できることが期待されています。

昨年、Google は PRADO と呼ばれるニューラル アーキテクチャをリリースしました。これは、当時の多くのテキスト分類問題で SOTA パフォーマンスを達成し、パラメータ数は 20 万未満でした。ほとんどのモデルではトークンごとに固定数のパラメータを使用しますが、PRADO モデルで使用されるネットワーク構造では、タスクに最も関連性の高い、またはタスクに最も役立つトークンを学習するために必要なパラメータはわずかです。

論文リンク: https://www.aclweb.org/anthology/D19-1506.pdf

最近のブログ投稿で、Google の研究者は PRADO を改良し、改良したモデルを pQRNN と名付けたことを発表しました。新しいモデルは、最小限のモデルサイズで NLP タスクの新しい SOTA を実現します。 pQRNN の斬新な点は、単純な投影操作と準 RNN エンコーダーを組み合わせて、高速な並列処理を実現することです。この研究では、pQRNN モデルがテキスト分類タスクで BERT レベルのパフォーマンスを達成できることが示されていますが、元のパラメータの 1/300 しか使用されていません

PRADOの仕組み

1 年前にモデルを開発したとき、PRADO はテキスト セグメンテーションに関するドメイン固有の NLP 知識を活用して、モデルのサイズを縮小し、モデルのパフォーマンスを向上させました。通常、NLP モデルに入力されたテキストは、まず、事前に定義された一般的な辞書の値に対応するトークンにテキストを分割することによって、ニューラル ネットワークに適した形式に処理されます。次に、ニューラル ネットワークは、トレーニング可能なパラメーター ベクトル (埋め込みテーブルを含む) を使用して、各テキスト スニペットを一意に識別します。ただし、テキストをセグメント化する方法によって、モデルのパフォーマンス、サイズ、レイテンシに大きな影響が及びます。

次の図は、NLP コミュニティで使用されるさまざまなテキスト分割方法と、それぞれの長所と短所を示しています。

テキスト スニペットの数はモデルのパフォーマンスと圧縮に影響を与える重要なパラメーターであるため、NLP モデルがすべての可能性のあるテキスト スニペットを明確に識別できる必要があるかどうかという疑問が生じます。この質問に答えるために、研究者たちは NLP タスクに固有の複雑さを調査しました。

言語モデリングや機械翻訳などのごく一部の NLP タスクでは、テキスト フラグメント間の微妙な違いを理解する必要があり、そのため、考えられるすべてのテキスト フラグメントを一意に識別する必要がある場合があります。他のほとんどのタスクは、これらのテキスト スニペットのサブセットのみを知ることで解決できます。さらに、タスクに関連するテキスト セグメントのサブセットは、必ずしも最も頻繁に使用されるものではありません。これは、その大部分が、多くのタスクにとって重要ではない a、an、the などの専門的な冠詞で構成されている可能性があるためです。

したがって、特定のタスクに最も関連性の高いフラグメントをネットワークが決定できるようにすることで、パフォーマンスを向上させることができます。さらに、ネットワークはこれらのテキスト断片を一意に識別する必要はなく、テキスト断片のクラスターを識別するだけで済みます。たとえば、感情分類器では、テキスト内の感情と強く相関するセグメントのクラスターについてのみ学習する必要があります。

これに基づいて、PRADO は単語の断片や文字ではなく単語からテキスト断片のクラスタリングを学習するように設計されており、複雑度の低い NLP タスクで優れたパフォーマンスを実現できます。単語単位の方が意味があり、ほとんどのタスクに最も関連性の高い単語は少数しかないため、関連する単語クラスターの縮小されたサブセットを学習するには、必要なモデルパラメータがはるかに少なくなります。

PRADOの改善

Google の研究者は、PRADO をベースにしたより強力な NLP モデルである pQRNN を開発しました。このモデルは、テキスト内のトークンをトリプルベクトルのシーケンスに変換する投影演算子、密なボトルネック層、および複数の QRNN エンコーダーという 3 つの構成要素で構成されています

pQRNN の投影層の実装は PRADO で使用されるものと一致しており、モデルが最も関連性の高いトークンを学習するのに役立ちますが、これらのトークンを定義するための固定されたパラメーターのセットはありません。まずテキスト内のトークンを識別し、次に単純なマッピング関数を使用してそれらを 3 値特徴ベクトルに変換します。これにより、テキストを表すバランスのとれた対称分布を持つ 3 つのベクトルのシーケンスが生成されます。この表現は、対象のタスクを解決するために必要な情報が含まれておらず、ネットワークがこの表現を制御できないため、直接使用することはできません。

研究者たちはこれを高密度ボトルネック層と組み合わせ、ネットワークが手元のタスクに関連する単語ごとの表現を学習できるようにした。ボトルネック層によって生成される表現では、単語のコンテキストがまだ考慮されていません。そのため、研究者たちは、コンテキスト表現を学習するために、いくつかの双方向 QRNN エンコーダーを使用しました。その結果、前処理なしでテキスト入力のみからコンテキスト表現を学習できるネットワークが実現します。

pQRNNのパフォーマンス

研究者らは、civil_comments データセットで pQRNN を評価し、同じタスクで BERT モデルと比較しました。モデルのサイズはパラメータの数に比例するため、pQRNN は BERT よりもはるかに小さくなります

さらに、pQRNN は量子化されているため、モデルのサイズは元のサイズの 1/4 にさらに縮小されます。公開トレーニングされた BERT はこの記事のタスクで良好なパフォーマンスを発揮しなかったため、比較に使用した BERT は実際にはいくつかの異なる関連する多言語データ ソースで事前トレーニングされ、最高のパフォーマンスを実現しました。

実験では、研究者らは2つのモデルのAUC情報を取得しました。事前トレーニングなしで、教師ありデータのみでトレーニングした pQRNN は、130 万個の量子化 (8 ビット) パラメータを使用して、AUC 0.963 を達成します。いくつかの異なるデータ ソースで事前トレーニングし、教師ありデータで微調整した後、BERT モデルは 1 億 1,000 万の浮動小数点パラメータを使用して 0.976 の AUC を達成しました。

Google は、コミュニティが Google の研究結果に基づいてさらに改善を行うことを奨励するために、PRADO モデルもオープンソース化しました。

プロジェクトアドレス: https://github.com/tensorflow/models/tree/master/research/sequence_projection

<<:  ポストコロナ時代の住宅建設において、スマート建築はどのように変化するのでしょうか?

>>:  機械学習モデルのパフォーマンスを評価する方法

ブログ    
ブログ    
ブログ    

推薦する

...

もう一つの機械学習モデル説明ツール: Shapash

シャパシュとはモデルの解釈可能性と理解可能性は、多くの研究論文やオープンソース プロジェクトの焦点と...

...

戦争における顔認識:フランスの諜報機関がチェチェン兵士の身元を発掘、ウクライナは捕虜の身元確認に利用

ビッグデータダイジェスト制作ロシアとウクライナの紛争が始まると、カディロフ・ジュニアはチェチェンの首...

自然言語処理のためのOne Hot Modelについて

[[421481]]この記事はWeChatの公開アカウント「Pythonとビッグデータ分析」から転載...

教育省:中国はAI教育政策の提供を増やす

12月7日から8日にかけて、中華人民共和国教育部、中国ユネスコ国家委員会、ユネスコの共催による「20...

人工知能は教育にどのような変化をもたらすのでしょうか?

[[441080]]経済観察記者 鄭躍新12月16日、中国教育部元副部長で中国教育国際交流協会会長...

...

...

中国における産業用ロボットへの投資と発展の3つの効果

最近、工業情報化省は2020年の我が国のロボット産業の運営状況を発表しました。データによると、202...

...

サーバーレス コンピューティングによる機械学習の解決策は何でしょうか?

1. 機械学習とサーバーレス学習1.1. 機械学習 (ML) はアプリケーション シナリオでどのよ...

知能ロボット技術の応用と開発動向

王耀南院士が2020年国家ロボット開発フォーラムで報告著者プロフィール:王耀南、中国工程院院士、湖南...

...