BERT の素晴らしさはすべてデータセットのおかげであるのでしょうか?大きなモデルがリストを独占することは、学術界にとって大惨事となるかもしれない

[[271399]]

2018年に自然言語処理分野の新参者として登場したBERTは、ここ数年の自然言語処理（NLP）分野の集大成です。登場するや否や皆を驚かせ、あらゆるアルゴリズムを圧倒し、11回のNLPテストの最高記録を破り、さらには「人間を超える」パフォーマンスを発揮しました。将来のNLP研究と産業応用における最も主流の言語モデルの1つと見なされています。

しかし、台湾の国立成功大学が最近発表した論文は、この考えに冷水を浴びせかけている。この研究では、少なくともARCTタスクにおいては、BERTが異常な統計的手がかりを利用していると主張しています。 BERT が優れた結果を達成できるのは、こうした統計的な手がかりがあるからです。元のデータを変更せずに異常な手がかりを削除すると、BERT はランダムな推測よりもさらに悪くなります。

この発言は、機械学習コミュニティから即座に強い反応を引き起こしました。研究コミュニティの一人は次のようにコメントしました。「この論文はとても気に入りました。この論文は、これらのモデルが正しく「理解」されておらず、単純な（間違った）統計的手がかりしか使用していないことを、シンプルかつ効果的に示しています。ほとんどの人（おそらくイーロン・マスクを除く）は、これが BERT モデルが行うことだと理解していると思います。しかし、ラベルの数が少ない BERT の改良版は、まだ数多く存在します。」

BERT の研究が価値があることは間違いありませんが、現在のベンチマークの中には効果がないものもあります。 BERT が何らかのタスクを「解決した」というニュースを見ると、NLP を解決したかのように思われますが、こうした出来事は誇張された傾向になっており、懸念すべきものです。

まず、NLP ベンチマークの現状を再検討してみましょう。

NLP は活発に開発されている分野であるため、その人気の高まりはさまざまなリーダーボードと切り離せません。これらのリーダーボードは、複数の共有タスク、GLUE ベンチマークなどのベンチマークシステム、SQUAD や AllenAI などの個別のデータセットの中核をなしています。これらのリーダーボードは、人間の自然言語処理の問題を解決するためのより優れたモデルを開発するためのエンジニアリングチーム間の競争を刺激します。しかし、これは本当にそうなのでしょうか?マサチューセッツ大学の博士研究員であるアンナ・ロジャース氏は、この現象についての自身の見解を述べた。

リーダーボードの何が問題なのですか?

一般的に言えば、NLP 分野のランキングは次のようになります。

オンラインおよび学術論文でのランキング（提案モデルとベースラインモデルの比較）はこの形式に従います。

現在、モデルのテストパフォーマンスを使用して、それが新規性や興味深さを備えているかどうかを評価するだけでは不十分ですが、リーダーボードはまさにそれを示します。ディープラーニングは非常に広範囲で、さまざまなアーキテクチャが含まれているため、モデルパラメータやトレーニングデータなどの追加情報を測定する標準的な方法を見つけるのは困難です。論文では、これらの詳細は方法のセクションに書かれることもあれば、付録や GitHub リポジトリのコメントに記載されることもあれば、まったく言及されないこともあります。これらのオンラインランキングでは、各システムの詳細は、論文のリンク（ある場合）またはリポジトリ内のコードからのみ確認できます。

ますます忙しくなるこの世界で、レビューや複製のためでなければ、実際にこれらの詳細を探している人はどれくらいいるでしょうか?これらのシンプルなリーダーボードには、私たちが最も関心を持っている最新の SOTA に関する情報がすでに提供されています。私たちは通常、考えるのを怠けており、この情報を批判的に受け止めず、リマインダーがすぐに現れてもそれを無視することさえ選択します。もし私たちがこれらの警告サインを積極的に探さなければならないとしたら…まあ、それは不可能でしょう。優勝モデルは Twitter で話題となり、ブラインドレビューで何らかのメリットが得られる可能性もあります。

この SOTA ファーストのアプローチの危険性についても多くの議論が巻き起こっています。読者がランキングだけに注目すると、研究者は SOTA に勝つことだけが価値のある研究であると考えてしまいます。このアイデアにより、多数の水に関する論文が発表されましたが、その性能向上は非常に限られており、その多くは再現不可能です (Crane、2018)。これは、同じタスクを行っている研究者にもいくつかの問題をもたらします。彼らのモデルは SOTA に到達していないため、論文を書く必要すらないと感じています。

GLUE ベンチマークの現在のランキングを見ると、各モデルのコストが非常に高く、基本的には一般の研究者が再現できるものではないことがわかります。

この記事の目的は、ランキングが最近提起した別の問題を探ることです。その理由は非常に単純です。基本的に、利用可能なデータからより優れた表現を構築したか、単により多くのデータやより深いネットワークを使用したかのいずれかの理由で、モデルのパフォーマンスが向上しました。問題は、モデルがより多くのデータ/計算を使用する場合、パフォーマンスが向上した本当の理由を見つけるのが難しいことです。

現在、最も人気のあるチャートは、Transformer ベースのモデルが主流となっています。 BERT は数か月にわたってリーダーボードを席巻した後、NAACL 2019 カンファレンスで最優秀論文賞を受賞しました。最近、XLNet が逆転し、20 のタスクで BERT を上回り、新しい SOTA 事前トレーニングモデルになりました。その他のトランスフォーマーモデルには、GPT-2、ERNIE などがあります。

問題は、これらのモデルが巨大であることです。コードはオープンソースですが、これらの結果を再現したり、同等のモデルを作成するために必要な計算能力は、通常の研究室では手に負えないものです。たとえば、XLNet のトレーニングトークンは 320 億に達し、2 日間のトレーニングに 128 個の Cloud TPU が必要となり、コストは 61,400 ドルを超えました。モデルを微調整するだけでも非常にコストがかかります。

このようなランキングは本当に大丈夫なのでしょうか？

しかし一方で、この傾向は予測可能であり、避けられないものであるようにも思われます。つまり、より多くのリソースを持つユーザーは、より多くのリソースを使用してパフォーマンスを向上させる方法を見つけるでしょう。大規模なモデルはスケーラビリティを実証し、より多くの情報に基づいてより複雑なパターンを学習する能力であるディープラーニングの本来の潜在能力を実現すると主張する人もいます。特定の NLP タスクを解決するためにどれだけのデータが必要かは正確にはわかりませんが、データが多ければ多いほど効果は高まり、データを制限すると逆効果になると思われます。

この観点からすると、今後は業界だけがトップレベルのNLP研究を行えるようになると思われます。学者は、より多くの資金を獲得するか、高性能コンピューティングセンターと協力することによってのみ、参加を増やすことができます。さらに、分析に移行して、業界が提供する大規模なモデルの上に何かを構築したり、データセットを作成したりすることもできます。

しかし、NLP の全体的な進歩の観点から見ると、これは最善の選択肢ではないかもしれません。

「ビッグモデル + ランキング = 災害」となるのはなぜですか?

簡単に言えば、大規模モデルの主な問題は、「より多くのデータと計算 = SOTA」が研究のニュースではないということです。

リーグテーブルの目的は実際の進捗状況を示すことなので、新しいフレームワークを考案することを検討する必要があります。明らかに、大規模な事前トレーニング済みモデルは価値がありますが、著者が自分のシステムが同量のデータと計算能力を使用する他のモデルよりも優れていることを実証しない限り、彼らが提示しているのはモデルなのかリソースなのかを判断するのは困難です。

さらに、この研究は大部分が再現不可能であり、XLNet トレーニングを再現するために 61,400 ドルを費やす人は誰もいないでしょう。制御されたバリアントテストでは、XLNet は 3 つのデータセットで BERT よりもわずか 1 ～ 2% 優れたパフォーマンスしか発揮しないことが示されています。そのため、XLNet のマスキング戦略が BERT よりも効果的であるかどうかは実際には明らかではありません。

同時に、学習者モデルの開発は、直面する根本的なタスクがより困難であることと、リーダーボードを重視するコミュニティが SOTA のみに焦点を当てていることから、推進されていません。これは、学生がより優れたエンジニアとして卒業できない可能性があるため、最終的には学術チームに損害を与えます。

最後に、大規模なディープラーニングモデルは過剰にパラメータ化されることがよくあります。たとえば、BERT の小型バージョンは、いくつかの文法テスト実験で大型バージョンよりも高いスコアを獲得しました。ディープラーニングモデルに大量の計算能力が必要であるという事実自体は必ずしも悪いことではありませんが、計算能力を浪費することは環境に良くありません。

BERTは単なる統計的な適合である

データと計算能力に関する疑問に加えて、台湾の国立成功大学の研究者らは最近、自然言語の理解におけるニューラルネットワークの役割を再検討した新しい論文を発表した。研究者らはまず、BERT が議論推論理解タスクにおいて非常に優れたパフォーマンスを発揮し、人間のベースラインレベルよりわずか 3 パーセント低いことを発見しました。しかし、さらに調査を進めると、その結果はデータセット内の統計的な手がかりのみに基づいていることが判明した。したがって、これらの手がかりに基づいて敵対的データセットを作成すると、モデルはランダムな推測よりも大幅に改善されません。

論文: 自然言語の議論に対するニューラルネットワークの理解の調査
論文アドレス: https://arxiv.org/pdf/1907.07355.pdf

この研究は、非常に難しい議論推論理解 (ARCT) タスクでテストされました。たとえば、「今日は雨が降るので傘を持ってきてください」という単純な議論には、「濡れるのは悪いことだ」という前提が根底にあります。 ARCT は、基礎となる前提を直接理解することを避け、推論に重点を置いています。以下は、ARCT タスクからのデータポイントです。

ARCT テストセットのサンプル。モデルは、理由と保証からクレームを推測する必要があります。たとえば、「Google を使用しない選択も可能で、他の検索エンジンは Google にリダイレクトされないため、Google は独占企業ではありません。」

BERT のような事前トレーニング済みモデルは、このデータセットで 77% の精度を達成できますが、これは通常の人間のベースラインレベルよりわずか 3 パーセント低い値です。十分な一般知識がないままこのような優れた結果を達成できるというのは非科学的であるため、研究者は BERT がこのタスクで何を学んだかを調査し続けています。

この調査は、この論文によって開始されたものではありません。これまでにも多くの研究で、BERT の意思決定プロセスの調査が試みられてきました。しかし、研究者たちは、BERT が令状内の「not」などの手がかりとなる単語を検索することを発見しました。これは、BERT の優れたパフォーマンスが、いくつかの「疑似」統計的手がかりの探索によるものであることを示しています。

推論の逆を行えば、これらの異常な統計的手がかりを除去し、敵対的サンプルを構築することが可能になります。このような敵対的データセットでは、BERT は 53% の精度しか達成できず、これはほぼランダムな推測の確率です。さらに、多くのモデルが実際にそのような異常な統計的手がかりを見つけているため、敵対的データセットはより重要な指標として機能する可能性があります。以下は、上記の ARCT ケースの敵対的な例です。

ロジックに応じて「Not」などの単語を変更するだけで、モデルはそれを解決できなくなります。 BERT は、このような敵対的データセットでのみ次の結果を達成できます。

これらの実験結果から、BERT などのモデルが、いくつかの異常な統計的手がかりにほぼ適合していることがわかります。しかし、BERT のフィッティングモデリング機能が依然として非常に強力であり、BiLSTM などのモデルをはるかに上回っていることは間違いありません。研究者らは最終的に、GLUE などのベンチマークに加えて、敵対的データセットも標準メトリックとして採用し、モデルのパフォーマンスに対するより堅牢な評価基準を提供する必要があると述べました。

考えられる解決策

NLP リーダーボードの追求は、再現性の目標を放棄する危険に私たちをさらしており、数か月後には Google モデルが別のモデルを上回ることになるだけです。このようなことが再び起こらないようにするには、リーダーボードを変更する必要があります。

解決策としては、大きく分けて 2 つが考えられます。

特定のタスクについては、標準的なトレーニングコーパスを提供し、計算量を強力なベースラインモデルで使用される量に制限できる必要があります。ベースラインが BERT に似ている場合、研究者はリソースをより有効に活用できるモデルをさらに開発する動機付けになります。システムが事前トレーニング済みの表現 (単語埋め込み、BERT など) を使用する場合、最終スコアでは事前トレーニングデータのサイズを考慮する必要があります。

GLUE のような一連のタスク全体については、参加者が必要なすべてのデータと計算を使用できるようにすることができますが、最終スコアにはそれが考慮される必要があります。リーダーボードには、ベースラインに対するモデルのパフォーマンスの向上が反映されるだけでなく、モデルが使用するリソースの量もリストされる必要があります。

どちらのアプローチでも、少なくともタスクオーガナイザーによって推定される推論時間など、計算電力消費量を推定する信頼性の高い方法が必要です。 Aleksandr Drozd (RIKEN CCS) は、最善のアプローチは FLOP カウントを報告することだと考えています。これは、PyTorch や TensorFlow などのフレームワークではすでに可能です。また、ディープラーニングモデルを取り込み、データのバッチで 1 エポックにわたってトレーニングし、研究者に推定値を提供する共有タスク用の一般的なサービスを構築することもできます。

トレーニングデータを評価することも簡単な作業ではありません。プレーンテキストコーパスは、注釈付きコーパスや Freebase よりも価値が低くなります。これは測定可能かもしれません。たとえば、非構造化データは生のトークン数 N として、拡張/解析されたデータは N として、構造化データはインデックスとして N^2 として推定できる必要があります。

上記に対する反論としては、一部のモデルは本質的に他のモデルよりも多くのデータを必要とする可能性があり、大規模な実験でのみ合理的に評価できるというものがあります。しかし、この場合でも、説得力のある論文では、新しいモデルが他のモデルよりも大量のデータをより有効に活用できることを示す必要があり、すべてのモデルを複数ラウンドにわたって同じデータでトレーニングする必要があります。

ここ数か月、NLP の分野では新たな進歩が見られ、数か月ごとにより新しく強力なモデルが登場し、非現実的な結果を達成しています。しかし、データセットを調べ始めると、モデルが何も学習していなかったことが判明しました。モデル最適化の作業から一歩離れて、これらのデータセットとその真の意味を詳しく見てみましょう。

<<: 求職者の履歴書はどうすればAIやロボットによる審査に合格できるのでしょうか？

>>: MITは超伝導体を使用して、人間の脳に近いエネルギー効率を持つ極めて低電力のニューロンを作成します。