Google、少ないパラメータでテキスト分類を行う新モデル「pQRNN」を発表、BERTに匹敵する性能

Google、少ないパラメータでテキスト分類を行う新モデル「pQRNN」を発表、BERTに匹敵する性能

最近、Googleは、昨年発表した「PRADO」をさらに改良した小型モデルでSOTA結果を達成した新モデル「pQRNN」を発表しました。 pQRNN の斬新な点は、単純なマッピングと準 RNN エンコーダーを組み合わせて高速並列処理を実現できることです。同時に、Google は、このモデルがより少ないパラメータでテキスト分類タスクを実行し、BERT レベルのパフォーマンスを達成できることを実証しました。

ディープニューラルネットワークの急速な発展は、過去 10 年間で自然言語処理 (NLP) の分野に革命をもたらしました。同時に、ユーザーのプライバシーの保護、ネットワーク遅延の排除、オフライン機能の有効化、運用コストの削減などの問題により、データセンターではなくモバイル デバイスで実行できる NLP モデルの開発が急速に促進されました。

ただし、モバイル デバイスのメモリと処理能力は限られているため、モバイル デバイスで実行されるモデルは、サイズが小さく、効率的で、結果の品質に影響を与えないことが求められます。

昨年、Google は「PRADO」と呼ばれるニューラル構造を公開しました。これは、20 万未満のパラメータを持つモデルを使用して、多くのテキスト分類問題で SOTA 結果を達成しました。ほとんどのモデルではトークンごとに固定数のパラメータを使用しますが、PRADO モデルでは、タスクに最も関連性の高いトークンや有用なトークンを学習するために必要なパラメータが非常に少ないネットワーク構造を使用します。

PRADOの仕組み

1 年前に開発された PRADO は、NLP 分野特有のテキスト セグメンテーションを活用してモデル サイズを縮小し、パフォーマンスを向上させました。

図: PRADO モデルの構造

図: YelpデータセットにおけるPRADOとLSTMの比較

通常、NLP モデルへのテキスト入力は、まずニューラル ネットワークへの入力に適した形式に処理され、事前定義されたユニバーサル ディクショナリ (すべての可能なトークンのリストを含む) の値に対応するセグメントにテキストが分割されます。

次に、ニューラル ネットワークは、埋め込みテーブルを含むトレーニング可能なパラメータを使用して各セグメントを一意に識別します。ただし、テキストセグメンテーションを活用するこの方法は、モデルのパフォーマンス、サイズ、およびレイテンシに大きな影響を与えます。

次の図は、さまざまなアプローチとその長所と短所を示しています。

テキスト スニペットの数はモデルのパフォーマンスと圧縮にとって重要なパラメータであるため、NLP モデルが考えられるすべてのテキスト スニペットを明確に識別できる必要があるかどうかという疑問が生じます。この質問に答えるために、Google は NLP タスクに固有の複雑さについても研究しました。

言語モデリングや機械翻訳など、ごく一部の NLP タスクでは、テキスト フラグメント間の微妙な違いを認識する必要があり、そのため、考えられるすべてのテキスト フラグメントを一意に識別できる必要があります。対照的に、他のほとんどのタスクは、これらのフラグメントの小さなサブセットを知ることで解決できます。

さらに、タスクに関連するセグメントのサブセットは、多くのタスクでは役に立たないセグメントである a、an、the などの最も一般的なセグメントではない可能性があります。したがって、ネットワークが特定のタスクに最も関連性の高い部分を決定できるようにすることで、パフォーマンスが向上する可能性があります。

さらに、モデルはこれらのセグメントを一意に識別する必要はなく、テキスト セグメントのクラスターのみを識別できればよいのです。たとえば、感情分類器では、テキスト内の感情に密接に関連するクラスターのみを知る必要があります。

これらの研究結果を活用して、PRADO は単語の断片や文字ではなく単語からテキスト断片のクラスターを学習するように設計されており、これにより複雑度の低い NLP タスクで優れたパフォーマンスを実現できます。単語の粒度はより意味があり、ほとんどのタスクで最も関連性の高い単語の数は少ないため、そのような関連性の高い単語のサブセットを学習するには、はるかに少ないモデル パラメータが必要です。

pQRNND: 改良されたPRADO

PRADO の成功に基づいて、改良された NLP モデル pQRNN を提案しました。このモデルは、テキスト内のトークンをトリプルベクトルのシーケンスに変換する投影演算子、高密度ボトルネック層、および QRNN エンコーダーのスタックという 3 つの構成要素で構成されています。

pQRNN の投影層の実装は PRADO で使用されるものと同じであり、固定されたパラメータ セットを使用してトークンを定義することなく、モデルが最も関連性の高いトークンを学習するのに役立ちます。まずテキスト内のトークンをマークし、単純なマッピング関数を使用してそれらを 3 値特徴ベクトルに変換します。

これにより、この 3 つのベクトルのシーケンスはバランスのとれた対称的な分布を持ち、テキストを一意に表現できるようになります。この表現は、対象のタスクを解決するために必要な情報が含まれておらず、ネットワークがこの表現を制御できないため、直接的には役に立ちません。

これを高密度ボトルネック層に渡すと、ネットワークは現在のタスクに関連する単語表現を学習できるようになりますが、ボトルネック層によって生成される表現では、単語のコンテキストが考慮されません。

次に、双方向 QRNN エンコーダーのスタックを使用してコンテキスト表現を学習します。これにより、ネットワークは前処理なしで入力テキストからコンテキスト表現を学習できるようになります。

pQRNNのパフォーマンス

著者らは、civil-comments データセットで pQRNN を評価し、同じタスクで BERT モデルと比較します。

簡単に言えば、モデルのサイズはパラメータの数に比例するため、pQRNN パラメータは BERT よりもはるかに小さくなります。さらに、pQRNN は量子化されており、モデル サイズがさらに 4 倍縮小されます。

公開トレーニングされた BERT バージョンはこのタスクで十分なパフォーマンスを発揮しないため、可能な限り最高のパフォーマンスを得るために、いくつかの異なる関連する多言語データ ソースで事前トレーニングされた BERT バージョンと比較します。

結論: 軽量テキスト分類アーティファクト

前世代のモデル PRADO を使用することで、それが次世代の最先端の軽量テキスト分類モデルの基礎として機能できることを実証します。改良された pQRNN モデルは、この新しいアーキテクチャが、パラメータと教師ありデータの 1/300 のみを使用しているにもかかわらず、BERT レベルのパフォーマンスをほぼ達成できることを示しています。

この分野でのさらなる研究を促進するために、Google は PRADO モデルをオープンソース化し、コミュニティが新しいモデル アーキテクチャの出発点として使用することを奨励しています。

プロジェクトアドレス: https://github.com/tensorflow/models/tree/master/research/sequence_projection

<<:  機械学習におけるラベル漏洩とそれがモデルのパフォーマンスに与える影響について紹介します

>>:  PyTorchBigGraph を使用して超大規模グラフ モデルをトレーニングする方法は?

ブログ    

推薦する

...

今後5年間の15の主要なテクノロジートレンド

私たちの生活、仕事、交流の仕方に革命をもたらす技術の進歩によって、未来は常に形を変えています。今後 ...

人間はAIに勝てるか?私たちは機械に置き換えられるのでしょうか?

2017年、中国の囲碁棋士である柯潔はAI AlphaGoとの対戦で惨敗し、コート上で涙を流し、人...

機械に「忘却の呪文」をかける? Google、初の機械忘却チャレンジを開始

機械学習はよく話題になりますが、「機械の忘却」について聞いたことがありますか?機械学習の目的は誰もが...

中国の学部生が新しいAIアルゴリズムを提案:その速度はAdamに匹敵し、パフォーマンスはSGDに匹敵する

2 人のトップ学部生。1 人は北京大学、もう 1 人は浙江大学出身です。インターンシップ中に、彼らは...

...

マイクロソフトはBing Chatを今後も無料のままにすると約束

近年、OpenAI、Microsoft、Google など多くの企業やスタートアップチームが独自のチ...

サイバーセキュリティにおけるAI、機械学習、自動化

サイバーセキュリティのスキル不足は、政府を含むさまざまな地域、市場、セクターの組織に引き続き影響を及...

Iconfinder が著作権侵害を排除する方法、ハッシュ アルゴリズムが画像の複製を検出

Iconfinder は、デザイナー、開発者、その他のクリエイティブ ワーカー向けに優れたアイコンを...

...

鍵となるのは人工知能コンピューティングセンターを構築し、それを活用することだ

デジタル経済の発展に伴い、全国の各省市がコンピューティングインフラの構築を競って推進し、人工知能コン...

ビッグニュース!アリババの音声認識モデルのコア技術により、未来を「聞く」ことができる

[[255840]] Ali Sister の紹介: 音声認識技術は人工知能技術の重要な部分として、...

AIは役に立たないなんて誰が言ったのでしょうか?パンデミックの間、AIは人類のために多くのことを行ってきました...

[[314062]] 10日以上も経過したが、流行は収束の兆しを見せず、事態はますます深刻化してい...

突如、Stable Diffusion 3がリリースされました!ソラと同じアーキテクチャですが、すべてがよりリアルです

1年以上の開発期間を経て、前世代に比べて3つの主要な機能に進化しました。さあ、効果を直接確かめてみま...

マスク氏とアルトマン氏がともに暗号通貨を復活させたい理由

著者 | プリタム・ボルドロイ徐潔成編纂暗号通貨は死んだのか?この質問に対する答えは、誰が答えるかに...