Googleの最新のNLPモデルは、パラメータが300分の1しかないのにBERTに匹敵するパフォーマンスを実現

Googleの最新のNLPモデルは、パラメータが300分の1しかないのにBERTに匹敵するパフォーマンスを実現

Google は最新のブログ投稿で、テキスト分類タスクで BERT レベルのパフォーマンスを達成できる新しい NLP モデルを発表しましたが、このモデルは BERT のパラメータの 1/300 しか使用していません。

過去 10 年間で、ディープ ニューラル ネットワークは自然言語処理 (NLP) の分野を根本的に変革しましたが、モバイル デバイスのメモリと処理能力が限られているため、モデルに対する要求は高まっています。パフォーマンスを犠牲にすることなく、より小型化できることが期待されています。

昨年、Google は PRADO と呼ばれるニューラル アーキテクチャをリリースしました。これは、当時の多くのテキスト分類問題で SOTA パフォーマンスを達成し、パラメータ数は 20 万未満でした。ほとんどのモデルではトークンごとに固定数のパラメータを使用しますが、PRADO モデルで使用されるネットワーク構造では、タスクに最も関連性の高い、またはタスクに最も役立つトークンを学習するために必要なパラメータはわずかです。

論文リンク: https://www.aclweb.org/anthology/D19-1506.pdf

最近のブログ投稿で、Google の研究者は PRADO を改良し、改良したモデルを pQRNN と名付けたことを発表しました。新しいモデルは、最小限のモデルサイズで NLP タスクの新しい SOTA を実現します。 pQRNN の斬新な点は、単純な投影操作と準 RNN エンコーダーを組み合わせて、高速な並列処理を実現することです。この研究では、pQRNN モデルがテキスト分類タスクで BERT レベルのパフォーマンスを達成できることが示されていますが、元のパラメータの 1/300 しか使用されていません

PRADOの仕組み

1 年前にモデルを開発したとき、PRADO はテキスト セグメンテーションに関するドメイン固有の NLP 知識を活用して、モデルのサイズを縮小し、モデルのパフォーマンスを向上させました。通常、NLP モデルに入力されたテキストは、まず、事前に定義された一般的な辞書の値に対応するトークンにテキストを分割することによって、ニューラル ネットワークに適した形式に処理されます。次に、ニューラル ネットワークは、トレーニング可能なパラメーター ベクトル (埋め込みテーブルを含む) を使用して、各テキスト スニペットを一意に識別します。ただし、テキストをセグメント化する方法によって、モデルのパフォーマンス、サイズ、レイテンシに大きな影響が及びます。

次の図は、NLP コミュニティで使用されるさまざまなテキスト分割方法と、それぞれの長所と短所を示しています。

テキスト スニペットの数はモデルのパフォーマンスと圧縮に影響を与える重要なパラメーターであるため、NLP モデルがすべての可能性のあるテキスト スニペットを明確に識別できる必要があるかどうかという疑問が生じます。この質問に答えるために、研究者たちは NLP タスクに固有の複雑さを調査しました。

言語モデリングや機械翻訳などのごく一部の NLP タスクでは、テキスト フラグメント間の微妙な違いを理解する必要があり、そのため、考えられるすべてのテキスト フラグメントを一意に識別する必要がある場合があります。他のほとんどのタスクは、これらのテキスト スニペットのサブセットのみを知ることで解決できます。さらに、タスクに関連するテキスト セグメントのサブセットは、必ずしも最も頻繁に使用されるものではありません。これは、その大部分が、多くのタスクにとって重要ではない a、an、the などの専門的な冠詞で構成されている可能性があるためです。

したがって、特定のタスクに最も関連性の高いフラグメントをネットワークが決定できるようにすることで、パフォーマンスを向上させることができます。さらに、ネットワークはこれらのテキスト断片を一意に識別する必要はなく、テキスト断片のクラスターを識別するだけで済みます。たとえば、感情分類器では、テキスト内の感情と強く相関するセグメントのクラスターについてのみ学習する必要があります。

これに基づいて、PRADO は単語の断片や文字ではなく単語からテキスト断片のクラスタリングを学習するように設計されており、複雑度の低い NLP タスクで優れたパフォーマンスを実現できます。単語単位の方が意味があり、ほとんどのタスクに最も関連性の高い単語は少数しかないため、関連する単語クラスターの縮小されたサブセットを学習するには、必要なモデルパラメータがはるかに少なくなります。

PRADOの改善

Google の研究者は、PRADO をベースにしたより強力な NLP モデルである pQRNN を開発しました。このモデルは、テキスト内のトークンをトリプルベクトルのシーケンスに変換する投影演算子、密なボトルネック層、および複数の QRNN エンコーダーという 3 つの構成要素で構成されています

pQRNN の投影層の実装は PRADO で使用されるものと一致しており、モデルが最も関連性の高いトークンを学習するのに役立ちますが、これらのトークンを定義するための固定されたパラメーターのセットはありません。まずテキスト内のトークンを識別し、次に単純なマッピング関数を使用してそれらを 3 値特徴ベクトルに変換します。これにより、テキストを表すバランスのとれた対称分布を持つ 3 つのベクトルのシーケンスが生成されます。この表現は、対象のタスクを解決するために必要な情報が含まれておらず、ネットワークがこの表現を制御できないため、直接使用することはできません。

研究者たちはこれを高密度ボトルネック層と組み合わせ、ネットワークが手元のタスクに関連する単語ごとの表現を学習できるようにした。ボトルネック層によって生成される表現では、単語のコンテキストがまだ考慮されていません。そのため、研究者たちは、コンテキスト表現を学習するために、いくつかの双方向 QRNN エンコーダーを使用しました。その結果、前処理なしでテキスト入力のみからコンテキスト表現を学習できるネットワークが実現します。

pQRNNのパフォーマンス

研究者らは、civil_comments データセットで pQRNN を評価し、同じタスクで BERT モデルと比較しました。モデルのサイズはパラメータの数に比例するため、pQRNN は BERT よりもはるかに小さくなります

さらに、pQRNN は量子化されているため、モデルのサイズは元のサイズの 1/4 にさらに縮小されます。公開トレーニングされた BERT はこの記事のタスクで良好なパフォーマンスを発揮しなかったため、比較に使用した BERT は実際にはいくつかの異なる関連する多言語データ ソースで事前トレーニングされ、最高のパフォーマンスを実現しました。

実験では、研究者らは2つのモデルのAUC情報を取得しました。事前トレーニングなしで、教師ありデータのみでトレーニングした pQRNN は、130 万個の量子化 (8 ビット) パラメータを使用して、AUC 0.963 を達成します。いくつかの異なるデータ ソースで事前トレーニングし、教師ありデータで微調整した後、BERT モデルは 1 億 1,000 万の浮動小数点パラメータを使用して 0.976 の AUC を達成しました。

Google は、コミュニティが Google の研究結果に基づいてさらに改善を行うことを奨励するために、PRADO モデルもオープンソース化しました。

プロジェクトアドレス: https://github.com/tensorflow/models/tree/master/research/sequence_projection

<<:  ポストコロナ時代の住宅建設において、スマート建築はどのように変化するのでしょうか?

>>:  機械学習モデルのパフォーマンスを評価する方法

推薦する

PyTorch でリカレントニューラルネットワークを実装するにはどうすればいいですか?

[[189593]] Siri から Google 翻訳まで、ディープ ニューラル ネットワークは...

...

機械が人間に取って代わるというのは空想ではありません。最初に影響を受けるのは 3 つの職業です。油断しないでください。

科学技術の継続的な発展により、多くの業界で「ロボット」が使用され、効率が向上するだけでなく、人件費も...

専門家の洞察: 顔が高度なアクセス制御認証情報である 5 つの理由

認証情報としての顔認識は、最新の正確で高速なテクノロジーを導入し、ほとんどのアクセス制御アプリケーシ...

米国商務省は、生成型人工知能の潜在的なリスクに対処するために、公開AIワーキンググループを設立した。

6月25日、ジーナ・ライモンド米国商務長官は、国立標準技術研究所(NIST)が人工知能(AI)に関...

AIデータのラベル付けは大量にアウトソーシングされており、南アフリカ、ベネズエラなどの国の人々はデジタル搾取の運命から逃れられない

歴史的に、これらの国や地域は旧植民地帝国によって貧困化しており、ヨーロッパの植民地主義は土地の暴力的...

機械学習の敷居が再び下がり、Zhiyuan TechnologyがAutoML製品をリリース

[51CTO.com よりオリジナル記事] 今年初め、Google は強化学習によりモデル選択 + ...

機械学習の理論的基礎はどの程度しっかりしているのでしょうか?

機械学習の分野では、いくつかのモデルが非常に効果的ですが、その理由は完全にはわかっていません。逆に、...

人工知能は教育にどのように活用されていますか?ここに実際の例をいくつか示しますので、ぜひご覧ください。

教育者、心理学者、親たちが、子どもがスクリーンを見る時間の長さについて議論する一方で、人工知能や機械...

人工知能:今優先すべき7つの役割

近年の退職者の急増は、労働力不足が現実であることを示している。セントルイス連邦準備銀行の調査によると...

香港科技大学のタン・ピン氏のチームが3D生成における重要な問題を突破し、多頭モンスターの出現を防止

生成モデルは画像生成の分野で大きな成功を収めてきましたが、この技術を 3D 分野に拡張するには常に多...

顔認識の歴史的な禁止が導入され、警察は犯罪者を捕まえるために顔認識を使用できなくなった

サンフランシスコは前例のない措置として、政府による顔認識技術の使用を禁止する規則を発布した。悪者を捕...

テスラのオプティマスヒューマノイドロボットが再び進化:視覚に基づいて物体を自律的に分類し、ヨガもできる

9月24日のニュース、本日早朝、テスラ オプティマスの公式Twitterアカウントが新しいビデオをア...

Linux SNMP アルゴリズムと機能モジュール

Linux SNMP を十分に学習したい場合は、いくつかのモジュールに精通している必要があります。そ...

2021年の新ドローンの在庫

[[441702]]時は経つのが早く、2021年も過ぎ去りつつあります。今年を振り返ると、疫病の影響...