NLP タスクには Transformer が必要ですか? Googleの調査によると、事前学習済みの畳み込みモデルの方が優れていることが多い

NLP タスクには Transformer が必要ですか? Googleの調査によると、事前学習済みの畳み込みモデルの方が優れていることが多い

[[416631]]

現在、NLP分野ではTransformerベースのモデルが人気を博しており、大規模な事前学習手法により多くの自然言語タスクのベンチマークが大幅に向上し、機械翻訳などの分野でも実用化されています。しかし、事前トレーニングによって NLP タスクにおける畳み込みの効果も向上できるかどうかについて考えた研究者はほとんどいません。最近、十分なリソースを備えた Google Research による大規模な実証研究により、このギャップが埋められました。結果は、多くの NLP タスクにおいて、事前トレーニング済みの畳み込みモデルは事前トレーニング済みの Transformer モデルよりも劣っていないことを示しています。本稿では、本研究の実験結果と関連する議論に焦点を当てます。具体的な実験設定については論文を参照してください。

論文アドレス: https://arxiv.org/pdf/2105.03322.pdf

事前トレーニングが一般的になった現代では、Transformer アーキテクチャと事前トレーニング済み言語モデルは密接に結びついているようです。 BERT、RoBERTa、T5 などのモデルの基盤となるアーキテクチャは Transformer です。実際、Transformer に基づかない最近の事前トレーニング済み言語モデルはほとんどありません。

コンテキストベースの表現学習には豊かな歴史がありますが、現代の事前トレーニング済み言語モデリングは、ELMo や CoVE などの再帰アーキテクチャに基づくモデルから始まりました。これらのアーキテクチャは大きな成功を収めたにもかかわらず、Transformer が NLP コミュニティの心をつかんで以来、これらのアーキテクチャを使用した研究は大幅に減少しました。NLP コミュニティは、Transformer を (おそらくある程度暗黙的に) 以前のアーキテクチャよりも明らかに改善されたものと見なしました。

最近の研究では、完全畳み込みモデルの可能性が実証され、Transformer などの自己注意アーキテクチャの必要性が疑問視されています。たとえば、コーネル大学の博士課程の学生である Felix Wu 氏ら​​が 2019 年に提案した畳み込み seq2seq モデルは、機械翻訳や言語モデリングなどの一連の標準的なベンチマーク タスクで Transformer を上回るパフォーマンスを示しました。これらの調査結果に基づいて、当然次のような疑問が生じます。Transformer 以外の事前トレーニング済みモデルを検討すべきでしょうか?

畳み込みモデルは初期の段階では成功を収めているものの、事前トレーニング済み言語モデルの時代に畳み込みがまだ意味を持つかどうかは未解決の問題です。研究者らは、事前トレーニングと微調整のパラダイムの下で畳み込みアーキテクチャを厳密に評価した研究はこれまでなかったと述べた。これがこの研究の主な目的です。具体的には、この論文の目的は、事前トレーニング済みの畳み込みモデルが、さまざまなタスクにおいて事前トレーニング済みのトランスフォーマーに匹敵するかどうかを経験的に検証することです。

事前トレーニング スキームとモデル アーキテクチャ間の相互作用については、まだ十分に研究されていないトピックです。事前トレーニングから大きな恩恵を受けるのはトランスフォーマーだけですか?異なるアーキテクチャで帰納的バイアスを使用する場合、事前トレーニングでも大きな効果が得られますか?事前トレーニング済みの畳み込みモデルは、場合によってはパフォーマンスが向上することがありますか?この論文ではこれらの問題を検討します。

畳み込みベースのモデルには、いくつかの明確な利点があります。まず、畳み込みには自己注意の二次メモリ複雑性の問題がありません。これは大きな問題であり、新しいクラスの「効率的な」Transformer アーキテクチャを生み出すほどです。次に、畳み込みはローカルで実行され、モデルの順次信号としての位置エンコーディングに依存しません。そうは言っても、畳み込みには多くの欠点もあります。たとえば、畳み込みではグローバルな情報をキャプチャできないため、このようなモデルでは複数のシーケンスにわたってクロスアテンションを実行できません。

この記事では、事前トレーニング済みのシーケンスツーシーケンス モデル、Seq2Seq について説明します。畳み込みモデルは、T5 モデルで使用されるものと同様の、スパンベースのシーケンス間ノイズ除去目標を使用してトレーニングされます。研究者らは、拡張モデル、軽量モデル、動的モデルなどの複数の畳み込みバリアントモデルを、元のパラダイム(事前トレーニングなし)と事前トレーニング-微調整パラダイムの下で評価しました。これらの評価の目的は、事前トレーニングの時代に畳み込みアーキテクチャが実際にどれほど競争力があるかを理解することです。

実験結果によると、事前トレーニング済みの畳み込みは、毒性検出、感情分類、ニュース分類、クエリ理解、意味解析/合成要約などのさまざまな NLP タスクにおいて、事前トレーニング済みのトランスフォーマーに匹敵することが示されています。さらに、研究者らは、場合によっては、事前トレーニング済みの畳み込みモデルが、モデルの品質とトレーニング速度の点で、現在最高の事前トレーニング済みトランスフォーマーよりも優れている可能性があることを発見しました。また、バランスを取るために、研究者らは、事前トレーニング済みの畳み込みがより優れていない、または適用できない可能性がある状況についても説明しています。

この論文の主な貢献は次のとおりです。

  • 畳み込み Seq2Seq モデルの包括的な経験的評価は、事前トレーニング微調整パラダイムの下で実行されます。研究者らは、事前トレーニング済みの畳み込みモデルの競争力と重要性は未解決の問題のままであると述べた。
  • 研究者らはまた、いくつかの重要な観察を行った。具体的には、(1)事前トレーニングは畳み込みモデルとTransformerに同等の利点をもたらす可能性があります。(2)場合によっては、事前トレーニング済みの畳み込みは、モデルの品質とトレーニング速度の点で事前トレーニング済みのTransformerに匹敵します。
  • 研究者らは、8 つのデータセットを使用して、複数のドメインにおける多くのタスクについて広範な実験を実施しました。事前トレーニング済みの畳み込みモデルは、8 つのタスクのうち 7 つで、現在の最高の Transformer モデル (事前トレーニングありとなしの両方) よりも優れていることがわかりました。研究者らは、畳み込みと Transformer の速度と演算数 (FLOPS) を比較し、畳み込みの方が高速であるだけでなく、長いシーケンスに対してもスケーリングが優れていることを発見しました。

研究上の質問と議論

研究者たちは、以下の研究課題 (RQ) に焦点を当てました。

  • RQ1: 事前トレーニングは畳み込みとTransformerに同等の利点をもたらすことができますか?
  • RQ2: 畳み込みモデル (事前トレーニング済みかどうかに関係なく) は、Transformer モデルと同等のパフォーマンスを発揮できますか?パフォーマンスが向上するのはいつですか?
  • RQ3: Transformer モデルを使用する場合と比較して、事前トレーニング済みの畳み込みモデルを使用すると利点がありますか? 利点は何ですか?畳み込みモデルは自己注意ベースのトランスフォーマーよりも高速ですか?
  • RQ4: 事前トレーニング済みの畳み込みが適用できない状況はどのような場合ですか?どのような状況に警戒すべきでしょうか?理由は何ですか?
  • RQ5: 畳み込みモデルのバリアントの中には、他のものよりも優れているものがありますか?

実験結果

以下の表 2 は、毒性検出、感情分類、質問分類、ニュース分類における事前トレーニング済みの畳み込みネットワークと事前トレーニング済みの Transformer ネットワークのパフォーマンスを比較しています。すべてのモデルは、約 2 億 3000 万のパラメータを持つ 12 層の seq2seq アーキテクチャです。ご覧のとおり、事前トレーニングは畳み込みにも役立ち、事前トレーニングの有無にかかわらず、Transformer モデルよりも常に優れたパフォーマンスを発揮します。

結果の要約

実験の結果、複数の分野の 7 つのタスクにおいて、(1) 事前学習されていない Transformer と比較して、事前学習されていない畳み込みは競争力があり、多くの場合優れていること、(2) 事前学習された畳み込みは 7 つのタスクのうち 6 つで事前学習された Transformer よりも優れていることが示されました。これは質問RQ2の答えです。

また、事前トレーニングは、自己注意ベースのモデルと同様に畳み込みにも役立つことがわかりました。したがって、事前トレーニングの利点は Transformer モデルに限定されるものではありません。これは質問RQ1に対する答えです。

研究者らはまた、これらの事前トレーニング済みの畳み込みモデルの中で、拡張畳み込みと動的畳み込みが軽量畳み込みよりも一般的に優れていることを発見し、これが質問 RQ5 の答えとなっています。

最後に、研究者たちは、事前トレーニングを使用した後にモデルの相対的なパフォーマンス(つまり、ランキング)が変化することを観察しました。これは、事前トレーニングを使用してアーキテクチャを構築すると、何らかの効果があるはずだということを示唆しています。この効果の直接的な意味は、事前トレーニングなしで(相対的に言えば)パフォーマンスが良好なモデルが、必ずしも事前トレーニングを行った場合に最高のパフォーマンスを発揮するとは限らないということです。したがって、アーキテクチャを事前トレーニング スキームと組み合わせるだけでなく、事前トレーニングを使用した後、異なるアーキテクチャが異なる動作をする可能性があることにも注意する必要があります。

議論と分析

結果は、詳細な分析と議論とともに以下に拡張されます。事前トレーニング済み畳み込みの利点と欠点、および事前トレーニングがパフォーマンスに与える影響について説明し、コミュニティへの提案をいくつか示します。

1. 事前学習済みの畳み込みが機能しないのはどのような場合ですか?

実験結果に基づいて、畳み込みモデルが完璧に事前トレーニングされた Transformer よりも潜在的な利点を持っていることがわかり、場合によっては品質の向上も達成できます。ただし、畳み込みの欠点をさらに理解しておくと役立つかもしれません。

事前トレーニング済みの畳み込みの明らかな欠点は、アテンション全体にわたる誘導バイアスが欠けていることです。これは、Transformer エンコーダーの自己アテンションを使用することで自然に得られる機能です。このため、2 つ以上のシーケンス間の関係をモデル化する必要があるタスクには、事前トレーニング済みの畳み込みを使用することはお勧めできません。これを検証するために、研究者らは SQuAD と MultiNLI で実験を行い、誘導バイアスがないため、事前トレーニング済みの畳み込みのパフォーマンスは Transformer よりもはるかに劣ることを発見しました。初期の SNLI リーダーボードがクロスアテンションを使用するモデルと使用しないモデルを明確に区別していたのと同じように、モデルを検査および評価するときにこれを明確に区別できる必要があります。

SQuAD/MNLI などのベンチマークでの以前の評価では、事前トレーニング済みの畳み込みモデルは確かに魅力に欠けることが示されています。たとえば、MultiNLI では畳み込みでは約 75% の精度しか達成できませんが、Transformer では約 84% の精度に簡単に到達できます。同様に、畳み込みは SQuAd で約 70% を達成できますが、Transformer では約 90% に到達できます。前提/質問は仮定/コンテキストと相互作用できないため、これは完全に予想されたことです (RQ4)。しかし、研究者たちは実験を通じて、この現象の原因は単にこの相互注意特性の欠如にあることを発見しました。エンコーダーでクロスアテンション強化畳み込みの単一レイヤーを使用すると、事前トレーニング済みの畳み込みは、MultiNLI などのデータセットで事前トレーニング済みの Transformer に非常に近いレベルを達成でき、約 83% の精度を達成できることがわかりました。

そうは言っても、クロスアテンション誘導バイアスが本当に重要であるかどうかは、実践者によるさらなる実証が必要です。研究者らは、スケールアップする際には文のペアを結びつけるパターンは必ずしも必要ではないと強調している。スケールアップすると、文のペアのあらゆる順列について推論する必要が生じるからだ。このため、実際には、デュアル エンコーダー セットアップを使用して高速埋め込み空間検索を実行する方が実用的かつ実現可能です。さまざまなエンコードタスクにおける畳み込みのパフォーマンスが優れていることを考えると、事前トレーニング済みの畳み込みがデュアルエンコーダ設定で優れたパフォーマンスを発揮することが期待できます。

2. 事前トレーニング済みの Transformer と比較して、事前トレーニング済みの畳み込みの利点は何ですか?

実験結果に基づくと、畳み込みを使用すると、Transformer を使用する場合と比較して、品質がいくらか向上することがわかります。その他の利点については以下で説明します。

  • 畳み込みは、長いシーケンスを処理するときに高速化され、スケーリングが向上します。

図 1: seq2seq マスク言語モデリング タスクにおけるシーケンス長が処理速度に与える影響。結果は、C4 事前トレーニングでベンチマークされた 16 個の TPUv3 チップを使用して取得されます。結果は対数スケールで表示されます。

上の図 1 は、シーケンス間タスクにおける畳み込み (LightConvs) と Transformer のトレーニング速度を示しています。入力できる長さは {64、128、256、512、1024、2048、4096} です。畳み込みは常に高速であるだけでなく (シーケンスが短いほどさらに高速)、スケーリングも優れていることがわかります。畳み込みは長いシーケンスに対して線形にスケーリングしますが、トランスフォーマーはスケーリングしません。

  • 畳み込みFLOPはより効率的

研究者らは、シーケンスの長さが増加するにつれて畳み込みとトランスフォーマーの FLOP の数を測定しました。下の図 2 は、さまざまなシーケンス長の結果を示しています。全体的に、すべてのシーケンス長での浮動小数点演算の数に関して、畳み込みはトランスフォーマーよりも効率的です。

図 2: seq2seq マスク言語モデリング タスクにおけるシーケンス長が FLOP 数 (アインシュタイン合計演算数) に与える影響。結果は、C4 事前トレーニングでベンチマークされた 16 個の TPUv3 チップを使用して取得されます。結果は対数スケールで表示されます。

全体的に、畳み込みはクロックと FLOP の両方の点で高速であり、質問 RQ3 の答えとなります。さらに、研究者らは、畳み込みの FLOP 効率もさまざまなシーケンスの長さにわたって向上することを発見しました。

3. Transformer を畳み込みに完全に置き換えることをお勧めしますか?

Transformer は NLP 研究コミュニティを支配してきましたが、この論文では、モデルの品質、速度、FLOP、スケーラビリティなど、畳み込みのいくつかの利点が見過ごされてきたと主張しています。さらに、事前トレーニングが畳み込みに役立つかどうかはこれまで不明でした。この論文では、いくつかのタスクでは、事前トレーニングによって、Transformer モデルと同様のメリットが畳み込みモデルにももたらされることを示しています。しかし研究者らは、畳み込みは相互注意を必要とするタスクに対処するのが難しく、同じシーケンスに複数の文や文書がある状況をモデル化するのが困難であるとも指摘した。研究者たちは、これは実践者による探求に値する研究方向であり、Transformer を超えた新しいアーキテクチャの発見が期待されると考えています。

4. 事前トレーニングとアーキテクチャの進歩を混同しない

この論文では、軽量畳み込み、動的畳み込み、拡張畳み込みのすべてが事前トレーニングの恩恵を受けることができ、それらがもたらす利益は Transformer にもたらされる利益に劣らないことも示されています。

現在の研究環境では、事前トレーニングは常に Transformer アーキテクチャと密接に関連しています。そのため、BERT、Transformer、大規模言語モデルの成功を混同する人が常にいます。これまで大規模な事前トレーニングを採用したのは Transformer だけであったのは事実ですが、他のアーキテクチャでも同様の可能性を秘めていると考えられます。

研究者たちは、実験結果に基づいて、アーキテクチャと事前トレーニングの複合効果についてさらに研究する余地があると考えています。この研究自体も、NLP分野における畳み込みモデルの競争力を高めることが期待されます。彼らは、NLP タスクのソリューションを模索する際には、常に現在の最良の Transformer に限定するのではなく、他の代替フレームワークも積極的に模索すべきだと述べました。

<<:  最高裁判所も顔認識の乱用に対して行動を起こした。

>>:  CNNを称賛するのはやめろ。類似点と相違点さえ区別できない

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

新浪微博廖博:WAICリアルタイムストリームコンピューティングプラットフォームの成長と発展

[51CTO.com からのオリジナル記事] 7 年間の努力と見事な変貌。 2012年以降、6年連続...

周浦データの粘り強さと抑制力:有用性はデータインテリジェンスのゴールドスタンダード

IT は遠くありません。DT はすでにここにあります。​​​ DT 時代の到来により、「データ + ...

調査によると、AIツールは企業の従業員が年間約400時間を節約するのに役立つことがわかった

7月10日、人材分析・計画会社Visierは、英国、米国、カナダ、ドイツの250社以上の企業の従業員...

OpenAIに大きな打撃!米政府がChatGPTを「オープンソース化」、アルトマン氏はパニックに陥り3つのツイートを投稿

ビッグニュース!連邦取引委員会の調査が始まります!調査の対象は、人気の OpenAI に他なりません...

...

7 つの重要な要素: 優れた機械学習アルゴリズムを選択するには?

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

iQIYI機械学習プラットフォーム構築実践

機械学習プラットフォームを構築する以前、iQiyi にはすでに比較的成熟したディープラーニング プラ...

人工知能のジレンマ:人々の疑問を払拭できない

[[255964]]人工知能(AI)の急速な進歩と発展により、その二重用途やセキュリティリスクについ...

...

...

1分で10日間の世界の天気を予測します! Google DeepMindの新しいAI天気予報がScienceに掲載され、業界のSOTAを圧倒

1分以内に、10日間の高精度な世界天気予報が提供されます。 ChatGPT に続いて、別の AI モ...

さまざまな機械学習アルゴリズムの選択の考え方を説明する記事

序文これは Zhihu に関する質問です: k 近傍法、ベイズ法、決定木、SVM、ロジスティック回帰...

LEACHプロトコルのアルゴリズムと特徴

LEACH プロトコルについてはあまり知られていないかもしれません。このプロトコルの説明は、低電力適...

Java 仮想マシンの詳細な説明 ---- GC アルゴリズムとタイプ

この記事の主な内容: GCの概念GCアルゴリズム参照カウント方式(循環参照の問題を解決できず、Jav...

...