NLP タスクには Transformer が必要ですか? Googleの調査によると、事前学習済みの畳み込みモデルの方が優れていることが多い

[[416631]]

現在、NLP分野ではTransformerベースのモデルが人気を博しており、大規模な事前学習手法により多くの自然言語タスクのベンチマークが大幅に向上し、機械翻訳などの分野でも実用化されています。しかし、事前トレーニングによって NLP タスクにおける畳み込みの効果も向上できるかどうかについて考えた研究者はほとんどいません。最近、十分なリソースを備えた Google Research による大規模な実証研究により、このギャップが埋められました。結果は、多くの NLP タスクにおいて、事前トレーニング済みの畳み込みモデルは事前トレーニング済みの Transformer モデルよりも劣っていないことを示しています。本稿では、本研究の実験結果と関連する議論に焦点を当てます。具体的な実験設定については論文を参照してください。

論文アドレス: https://arxiv.org/pdf/2105.03322.pdf

事前トレーニングが一般的になった現代では、Transformer アーキテクチャと事前トレーニング済み言語モデルは密接に結びついているようです。 BERT、RoBERTa、T5 などのモデルの基盤となるアーキテクチャは Transformer です。実際、Transformer に基づかない最近の事前トレーニング済み言語モデルはほとんどありません。

コンテキストベースの表現学習には豊かな歴史がありますが、現代の事前トレーニング済み言語モデリングは、ELMo や CoVE などの再帰アーキテクチャに基づくモデルから始まりました。これらのアーキテクチャは大きな成功を収めたにもかかわらず、Transformer が NLP コミュニティの心をつかんで以来、これらのアーキテクチャを使用した研究は大幅に減少しました。NLP コミュニティは、Transformer を (おそらくある程度暗黙的に) 以前のアーキテクチャよりも明らかに改善されたものと見なしました。

最近の研究では、完全畳み込みモデルの可能性が実証され、Transformer などの自己注意アーキテクチャの必要性が疑問視されています。たとえば、コーネル大学の博士課程の学生である Felix Wu 氏らが 2019 年に提案した畳み込み seq2seq モデルは、機械翻訳や言語モデリングなどの一連の標準的なベンチマークタスクで Transformer を上回るパフォーマンスを示しました。これらの調査結果に基づいて、当然次のような疑問が生じます。Transformer 以外の事前トレーニング済みモデルを検討すべきでしょうか?

畳み込みモデルは初期の段階では成功を収めているものの、事前トレーニング済み言語モデルの時代に畳み込みがまだ意味を持つかどうかは未解決の問題です。研究者らは、事前トレーニングと微調整のパラダイムの下で畳み込みアーキテクチャを厳密に評価した研究はこれまでなかったと述べた。これがこの研究の主な目的です。具体的には、この論文の目的は、事前トレーニング済みの畳み込みモデルが、さまざまなタスクにおいて事前トレーニング済みのトランスフォーマーに匹敵するかどうかを経験的に検証することです。

事前トレーニングスキームとモデルアーキテクチャ間の相互作用については、まだ十分に研究されていないトピックです。事前トレーニングから大きな恩恵を受けるのはトランスフォーマーだけですか?異なるアーキテクチャで帰納的バイアスを使用する場合、事前トレーニングでも大きな効果が得られますか?事前トレーニング済みの畳み込みモデルは、場合によってはパフォーマンスが向上することがありますか?この論文ではこれらの問題を検討します。

畳み込みベースのモデルには、いくつかの明確な利点があります。まず、畳み込みには自己注意の二次メモリ複雑性の問題がありません。これは大きな問題であり、新しいクラスの「効率的な」Transformer アーキテクチャを生み出すほどです。次に、畳み込みはローカルで実行され、モデルの順次信号としての位置エンコーディングに依存しません。そうは言っても、畳み込みには多くの欠点もあります。たとえば、畳み込みではグローバルな情報をキャプチャできないため、このようなモデルでは複数のシーケンスにわたってクロスアテンションを実行できません。

この記事では、事前トレーニング済みのシーケンスツーシーケンスモデル、Seq2Seq について説明します。畳み込みモデルは、T5 モデルで使用されるものと同様の、スパンベースのシーケンス間ノイズ除去目標を使用してトレーニングされます。研究者らは、拡張モデル、軽量モデル、動的モデルなどの複数の畳み込みバリアントモデルを、元のパラダイム（事前トレーニングなし）と事前トレーニング-微調整パラダイムの下で評価しました。これらの評価の目的は、事前トレーニングの時代に畳み込みアーキテクチャが実際にどれほど競争力があるかを理解することです。

実験結果によると、事前トレーニング済みの畳み込みは、毒性検出、感情分類、ニュース分類、クエリ理解、意味解析/合成要約などのさまざまな NLP タスクにおいて、事前トレーニング済みのトランスフォーマーに匹敵することが示されています。さらに、研究者らは、場合によっては、事前トレーニング済みの畳み込みモデルが、モデルの品質とトレーニング速度の点で、現在最高の事前トレーニング済みトランスフォーマーよりも優れている可能性があることを発見しました。また、バランスを取るために、研究者らは、事前トレーニング済みの畳み込みがより優れていない、または適用できない可能性がある状況についても説明しています。

この論文の主な貢献は次のとおりです。

畳み込み Seq2Seq モデルの包括的な経験的評価は、事前トレーニング微調整パラダイムの下で実行されます。研究者らは、事前トレーニング済みの畳み込みモデルの競争力と重要性は未解決の問題のままであると述べた。
研究者らはまた、いくつかの重要な観察を行った。具体的には、(1)事前トレーニングは畳み込みモデルとTransformerに同等の利点をもたらす可能性があります。(2)場合によっては、事前トレーニング済みの畳み込みは、モデルの品質とトレーニング速度の点で事前トレーニング済みのTransformerに匹敵します。
研究者らは、8 つのデータセットを使用して、複数のドメインにおける多くのタスクについて広範な実験を実施しました。事前トレーニング済みの畳み込みモデルは、8 つのタスクのうち 7 つで、現在の最高の Transformer モデル (事前トレーニングありとなしの両方) よりも優れていることがわかりました。研究者らは、畳み込みと Transformer の速度と演算数 (FLOPS) を比較し、畳み込みの方が高速であるだけでなく、長いシーケンスに対してもスケーリングが優れていることを発見しました。

研究上の質問と議論

研究者たちは、以下の研究課題 (RQ) に焦点を当てました。

RQ1: 事前トレーニングは畳み込みとTransformerに同等の利点をもたらすことができますか?
RQ2: 畳み込みモデル (事前トレーニング済みかどうかに関係なく) は、Transformer モデルと同等のパフォーマンスを発揮できますか?パフォーマンスが向上するのはいつですか?
RQ3: Transformer モデルを使用する場合と比較して、事前トレーニング済みの畳み込みモデルを使用すると利点がありますか? 利点は何ですか?畳み込みモデルは自己注意ベースのトランスフォーマーよりも高速ですか?
RQ4: 事前トレーニング済みの畳み込みが適用できない状況はどのような場合ですか?どのような状況に警戒すべきでしょうか?理由は何ですか？
RQ5: 畳み込みモデルのバリアントの中には、他のものよりも優れているものがありますか?

実験結果

以下の表 2 は、毒性検出、感情分類、質問分類、ニュース分類における事前トレーニング済みの畳み込みネットワークと事前トレーニング済みの Transformer ネットワークのパフォーマンスを比較しています。すべてのモデルは、約 2 億 3000 万のパラメータを持つ 12 層の seq2seq アーキテクチャです。ご覧のとおり、事前トレーニングは畳み込みにも役立ち、事前トレーニングの有無にかかわらず、Transformer モデルよりも常に優れたパフォーマンスを発揮します。

結果の要約

実験の結果、複数の分野の 7 つのタスクにおいて、(1) 事前学習されていない Transformer と比較して、事前学習されていない畳み込みは競争力があり、多くの場合優れていること、(2) 事前学習された畳み込みは 7 つのタスクのうち 6 つで事前学習された Transformer よりも優れていることが示されました。これは質問RQ2の答えです。

また、事前トレーニングは、自己注意ベースのモデルと同様に畳み込みにも役立つことがわかりました。したがって、事前トレーニングの利点は Transformer モデルに限定されるものではありません。これは質問RQ1に対する答えです。

研究者らはまた、これらの事前トレーニング済みの畳み込みモデルの中で、拡張畳み込みと動的畳み込みが軽量畳み込みよりも一般的に優れていることを発見し、これが質問 RQ5 の答えとなっています。

最後に、研究者たちは、事前トレーニングを使用した後にモデルの相対的なパフォーマンス（つまり、ランキング）が変化することを観察しました。これは、事前トレーニングを使用してアーキテクチャを構築すると、何らかの効果があるはずだということを示唆しています。この効果の直接的な意味は、事前トレーニングなしで（相対的に言えば）パフォーマンスが良好なモデルが、必ずしも事前トレーニングを行った場合に最高のパフォーマンスを発揮するとは限らないということです。したがって、アーキテクチャを事前トレーニングスキームと組み合わせるだけでなく、事前トレーニングを使用した後、異なるアーキテクチャが異なる動作をする可能性があることにも注意する必要があります。

議論と分析

結果は、詳細な分析と議論とともに以下に拡張されます。事前トレーニング済み畳み込みの利点と欠点、および事前トレーニングがパフォーマンスに与える影響について説明し、コミュニティへの提案をいくつか示します。

1. 事前学習済みの畳み込みが機能しないのはどのような場合ですか?

実験結果に基づいて、畳み込みモデルが完璧に事前トレーニングされた Transformer よりも潜在的な利点を持っていることがわかり、場合によっては品質の向上も達成できます。ただし、畳み込みの欠点をさらに理解しておくと役立つかもしれません。

事前トレーニング済みの畳み込みの明らかな欠点は、アテンション全体にわたる誘導バイアスが欠けていることです。これは、Transformer エンコーダーの自己アテンションを使用することで自然に得られる機能です。このため、2 つ以上のシーケンス間の関係をモデル化する必要があるタスクには、事前トレーニング済みの畳み込みを使用することはお勧めできません。これを検証するために、研究者らは SQuAD と MultiNLI で実験を行い、誘導バイアスがないため、事前トレーニング済みの畳み込みのパフォーマンスは Transformer よりもはるかに劣ることを発見しました。初期の SNLI リーダーボードがクロスアテンションを使用するモデルと使用しないモデルを明確に区別していたのと同じように、モデルを検査および評価するときにこれを明確に区別できる必要があります。

SQuAD/MNLI などのベンチマークでの以前の評価では、事前トレーニング済みの畳み込みモデルは確かに魅力に欠けることが示されています。たとえば、MultiNLI では畳み込みでは約 75% の精度しか達成できませんが、Transformer では約 84% の精度に簡単に到達できます。同様に、畳み込みは SQuAd で約 70% を達成できますが、Transformer では約 90% に到達できます。前提/質問は仮定/コンテキストと相互作用できないため、これは完全に予想されたことです (RQ4)。しかし、研究者たちは実験を通じて、この現象の原因は単にこの相互注意特性の欠如にあることを発見しました。エンコーダーでクロスアテンション強化畳み込みの単一レイヤーを使用すると、事前トレーニング済みの畳み込みは、MultiNLI などのデータセットで事前トレーニング済みの Transformer に非常に近いレベルを達成でき、約 83% の精度を達成できることがわかりました。

そうは言っても、クロスアテンション誘導バイアスが本当に重要であるかどうかは、実践者によるさらなる実証が必要です。研究者らは、スケールアップする際には文のペアを結びつけるパターンは必ずしも必要ではないと強調している。スケールアップすると、文のペアのあらゆる順列について推論する必要が生じるからだ。このため、実際には、デュアルエンコーダーセットアップを使用して高速埋め込み空間検索を実行する方が実用的かつ実現可能です。さまざまなエンコードタスクにおける畳み込みのパフォーマンスが優れていることを考えると、事前トレーニング済みの畳み込みがデュアルエンコーダ設定で優れたパフォーマンスを発揮することが期待できます。

2. 事前トレーニング済みの Transformer と比較して、事前トレーニング済みの畳み込みの利点は何ですか?

実験結果に基づくと、畳み込みを使用すると、Transformer を使用する場合と比較して、品質がいくらか向上することがわかります。その他の利点については以下で説明します。

畳み込みは、長いシーケンスを処理するときに高速化され、スケーリングが向上します。

図 1: seq2seq マスク言語モデリングタスクにおけるシーケンス長が処理速度に与える影響。結果は、C4 事前トレーニングでベンチマークされた 16 個の TPUv3 チップを使用して取得されます。結果は対数スケールで表示されます。

上の図 1 は、シーケンス間タスクにおける畳み込み (LightConvs) と Transformer のトレーニング速度を示しています。入力できる長さは {64、128、256、512、1024、2048、4096} です。畳み込みは常に高速であるだけでなく (シーケンスが短いほどさらに高速)、スケーリングも優れていることがわかります。畳み込みは長いシーケンスに対して線形にスケーリングしますが、トランスフォーマーはスケーリングしません。

畳み込みFLOPはより効率的

研究者らは、シーケンスの長さが増加するにつれて畳み込みとトランスフォーマーの FLOP の数を測定しました。下の図 2 は、さまざまなシーケンス長の結果を示しています。全体的に、すべてのシーケンス長での浮動小数点演算の数に関して、畳み込みはトランスフォーマーよりも効率的です。

図 2: seq2seq マスク言語モデリングタスクにおけるシーケンス長が FLOP 数 (アインシュタイン合計演算数) に与える影響。結果は、C4 事前トレーニングでベンチマークされた 16 個の TPUv3 チップを使用して取得されます。結果は対数スケールで表示されます。

全体的に、畳み込みはクロックと FLOP の両方の点で高速であり、質問 RQ3 の答えとなります。さらに、研究者らは、畳み込みの FLOP 効率もさまざまなシーケンスの長さにわたって向上することを発見しました。

3. Transformer を畳み込みに完全に置き換えることをお勧めしますか?

Transformer は NLP 研究コミュニティを支配してきましたが、この論文では、モデルの品質、速度、FLOP、スケーラビリティなど、畳み込みのいくつかの利点が見過ごされてきたと主張しています。さらに、事前トレーニングが畳み込みに役立つかどうかはこれまで不明でした。この論文では、いくつかのタスクでは、事前トレーニングによって、Transformer モデルと同様のメリットが畳み込みモデルにももたらされることを示しています。しかし研究者らは、畳み込みは相互注意を必要とするタスクに対処するのが難しく、同じシーケンスに複数の文や文書がある状況をモデル化するのが困難であるとも指摘した。研究者たちは、これは実践者による探求に値する研究方向であり、Transformer を超えた新しいアーキテクチャの発見が期待されると考えています。

4. 事前トレーニングとアーキテクチャの進歩を混同しない

この論文では、軽量畳み込み、動的畳み込み、拡張畳み込みのすべてが事前トレーニングの恩恵を受けることができ、それらがもたらす利益は Transformer にもたらされる利益に劣らないことも示されています。

現在の研究環境では、事前トレーニングは常に Transformer アーキテクチャと密接に関連しています。そのため、BERT、Transformer、大規模言語モデルの成功を混同する人が常にいます。これまで大規模な事前トレーニングを採用したのは Transformer だけであったのは事実ですが、他のアーキテクチャでも同様の可能性を秘めていると考えられます。

研究者たちは、実験結果に基づいて、アーキテクチャと事前トレーニングの複合効果についてさらに研究する余地があると考えています。この研究自体も、NLP分野における畳み込みモデルの競争力を高めることが期待されます。彼らは、NLP タスクのソリューションを模索する際には、常に現在の最良の Transformer に限定するのではなく、他の代替フレームワークも積極的に模索すべきだと述べました。

<<: 最高裁判所も顔認識の乱用に対して行動を起こした。

>>: CNNを称賛するのはやめろ。類似点と相違点さえ区別できない