Chen Danqi 氏のグループによるマスク言語モデルに関する研究: 15% のマスク率は最適ではないが、40% は維持可能か?

Chen Danqi 氏のグループによるマスク言語モデルに関する研究: 15% のマスク率は最適ではないが、40% は維持可能か?

少し前に、スローン財団は2022年度スローン研究賞の受賞者を発表しました。Chen Danqi、Fang Fei、Gu Quanquan、Li Boなど多くの研究者がコンピューターサイエンスの分野で賞を受賞しました。

受賞直後、陳丹奇氏のチームは新たな研究を発表した。しかし、陳丹奇のこれまでの高く評価された作品とは異なり、この新しい作品は多くの疑問に直面している。

この研究はマスク言語モデリング (MLM) に関するものです。マスクされた言語モデルでは通常、15% のマスク率が使用されます。これは、マスク率が高いと適切な表現を学習するのに十分なコンテキストが提供されず、マスク率が低いとトレーニング コストが大幅に増加することが判明しているためです。しかし、陳丹奇氏らは、マスキング率を40%に上げると、パフォーマンスが15%のベースラインを超える可能性があること、また、80%に上げると、パフォーマンスの大部分を維持できることを発見しました。これは、下流のタスクを微調整した結果です。

この研究は多くの人々の独自の実験結果と矛盾しており、オープンソースコードもなかったため、TwitterやZhihuなどのプラットフォーム上で大きな論争を引き起こした。

これは単にパラメータ調整の結果であり、理論的根拠はなく、「何層ものブラックボックスがある」ため、再現できるかどうかは一概には言えないと考える人もいます。しかし、論文の設定通りに厳密に論文の結果を再現できれば、それは「誰かが事前に最適なパラメータを調整した」に等しいと考える人もいますが、それは間違いではありません。さらに、この論文は「すべての人にMLMの使用を再考するきっかけを与える」ものであり、価値ある研究であるといえます。

知乎リンク: https://www.zhihu.com/question/517319014?utm_source

次はこの作品を一緒に見ていきましょう。

この記事の内容は何ですか?

数か月前、He Kaiming の Masked Autoencoders がコンピューター ビジョンで人気を博しました。元の画像の 80% をマスクして再構成できる機能は驚異的です。 He Kaiming氏らは論文の中で、CV分野における事前学習済みの大規模モデルの将来性に期待を寄せている。NLP分野では、アルゴリズムの学習によく使われるマスキング率は15%である。陳丹奇氏の新たな研究では、この数は大幅に増加した。

論文リンク: https://arxiv.org/abs/2202.08005

事前トレーニング済みの言語モデルは、自然言語処理の状況を変えました。大規模言語モデルは、豊富な多様な言語表現機能を獲得するために、膨大な量のテキスト データでトレーニングされます。常にシーケンス内の次のトークンを予測する自己回帰モデルと比較して、BERT などのマスク言語モデル (MLM) は、コンテキストに基づいて入力トークンのマスクされたサブセットを予測します。これは、双方向の性質により、より適切に機能することがよくあります。

このアプローチは、モデルをトークン コンテンツのごく一部 (通常はシーケンスあたり 15%) のみをマスクするように制限することから始まります。 15% という数字は、マスクされたテキストが多すぎるとモデルが表現をうまく学習できないという仮定を反映しており、これは BERT 以降の研究で広く採用されている考え方です。同時に、シーケンスの 15% のみを予測することは、MLM の効果的な事前トレーニングの制限であると考えられてきました。

プリンストン大学の Danqi Chen 氏らによる研究では、著者らはこれまでの結論とはまったく異なる状況を発見しました。効果的な事前トレーニング スキームでは、入力テキストの 40 ~ 50% をマスクして、デフォルトの 15% よりも優れたダウンストリーム パフォーマンスを実現できるということです。

次の表は、マスキングが 80%、40%、15% の事前トレーニング済みモデルのダウンストリーム パフォーマンスを示しています。マスキング率が 80% の場合、コンテキスト コンテンツの大部分は見えなくなりますが、15% のマスキングと比較すると、モデルは同様の事前トレーニング済みの表現効果を学習できます。これはマスキング率に関する人々の直感に疑問を投げかけ、モデルが高マスキング率からどのように利益を得るのかという疑問を提起します。

表 1: 異なるマスキング率でのマスキングの例、検証の難しさ、および下流タスクのパフォーマンス。ここで、すべてのモデルは、効果的な事前トレーニング条件下でトレーニングされた大規模なモデルです。

これに沿って、著者らはマスキング率を、破損率(どの程度のコンテキストがマスキングされるか)と予測率(モデルによって予測されるトークンの数)の 2 つの要素に分解することを提案しています。 MLM では、損害率と予測率は両方ともマスキング率と同じです。ただし、これら 2 つの要因は逆の効果をもたらします。予測率が高いほどトレーニング信号が多く生成され、最適化のメリットが得られますが、破損率が高いほどコンテキストが少なくなり、学習の問題がより困難になります。

これら 2 つの要因を個別に研究するために、著者らは損傷と予測を分離するアブレーション実験を設計しました。実験により、モデルは予測率が高くなるとメリットがあるものの、損傷率が高くなるとメリットがないことが示されました。より高い予測率の利点がより高い損傷率の悪影響をカバーできるかどうかによって、モデルがより高いマスキング率でより優れたパフォーマンスを発揮できるかどうかが決まります。研究者らはまた、より高い損傷率を処理するより大きなモデルでは、より高い最適なマスキング率を示すことも発見した。

この結果に触発されて、著者らはスパン マスキングや PMI マスキングなどの複雑なケースでより高いマスキング率を考慮しました。マスキング率 15% で評価すると、これらの方法は単純な均一マスキングよりも優れていることが示されていますが、均一マスキングは、それぞれの最高のマスキング率で複雑なマスキング ベースラインと競合します。この記事の著者らは、新しい予測率 - 損傷率フレームワークは、生のトークンまたはランダム トークン (80-10-10 戦略) に基づく BERT の予測手法にも新たな光を当てると述べています。この手法がなければ、モデルのパフォーマンスは通常向上します。

著者らは議論の中で、MLM でより高いマスキング率を採用すると、特にリソースが限られた環境ではパフォーマンスが向上すると述べました。入力からマスクされたトークンを削除したり、破損率と予測率を切り離したりすると、事前トレーニングがさらに高速化される可能性があります。

具体的には、この研究の貢献は次のとおりです。

  • 研究によると、高いマスキング率でマスクされた言語モデルのトレーニングが成功する可能性があることがわかりました。たとえば、効率的な事前トレーニング方法を備えた大規模モデルでは、マスキング率が 15% の場合よりも 40% の場合の方がパフォーマンスが向上します。
  • 研究者らは、マスキング率を破損率と予測率に分解することを提案しています。これら 2 つの相反する要因は、それぞれタスクの難易度とトレーニング信号に影響します。このフレームワークを使用して、研究者らは、モデルが大きいほど最適なマスキング率が高くなり、[MASK] トークンのみを使用したマスキングが 80-10-10 戦略よりも優れていることを示しています。
  • この調査では、マスキング率が高い場合、均一マスキングは、スパン マスキングや PMI マスキングなどのより高度なマスキング スキームと競合できることが実証されています。

マスク言語モデルでは、通常 15% のマスク率が使用されます。研究者は一般的に、マスク率が高いと適切な表現を学習するためのコンテキストが不十分になり、マスク率が低いとトレーニング コストが高くなりすぎると考えています。

この研究では、下流のタスクの微調整によって測定したところ、最大 40% のマスキング レートが 15% のベースラインを上回るパフォーマンスを発揮し、80% のマスキングでもパフォーマンスの大部分を維持できることがわかりました。

実験結果

アブレーション実験で、研究者らはマスキング率を上げると次の 2 つの効果があることを発見しました。1. 入力トークンの破損率が高くなり、コンテキストのサイズが小さくなり、タスクが難しくなります。2. モデルがより多くの予測を実行し、トレーニングに役立ちます。研究者らは、大規模なモデルは本質的に困難なタスクを実行する能力が高いため、より高いマスキング率に特に適していることを観察しました。さらに、研究者らはこの発見を、スパン マスキングや PMI マスキングなどの複雑なマスキング スキーム、および BERT の 80-10-10 戦略と組み合わせ、単純な均一マスキングを [MASK] に置き換えた方が、より高いマスキング レートで競争力があることを発見しました。

図 1: 効率的な事前トレーニング スキームを使用した大規模モデルに対するマスキング比率の影響。研究者らは、ほとんどのタスクにおいて、15% より高いマスキング率の方がパフォーマンスが良く、40% が最適なマスキング率であることを発見しました。

表 2: 大規模モデルと効率的な事前トレーニング方法の条件下での GLUE ベンチマークでの 15% または 40% のマスキング率のテスト結果の比較。

図 2: マスキング率が 15% と 40% の効率的な事前トレーニング方法を使用してトレーニングされた大規模モデルのダウンストリーム タスクのパフォーマンス。

表3: 被害率と予測率40% のマスキングをベースラインとして使用し、m_corr と m_pred を分離して個別に操作します。傾向は明らかです。予測率が高いほど有益ですが、損害率が高いほど有害です。

図 3: 異なるサイズのモデルに対するマスキング比の影響。モデルが大きいほど、最適なマスキング比も大きくなることがわかります。

今後の展望

研究者らは、他の言語モデルにおけるマスキング率の問題についてさらに議論しました。MLM に加えて、自己回帰言語モデル (Radford ら、2018 年、Brown ら、2020 年) やシーケンスツーシーケンス言語モデル (Raffel ら、2020 年、Lewis ら、2020 年) など、NLP タスクに広く使用されている事前トレーニング スキームが他にもあります。同様に、シーケンスツーシーケンス言語モデルは、特定のマスキング率でテキストを破損し、自己回帰方式でマスキングされたテキストを予測します。 T5 (Raffel et al., 2020) でも 15% のマスキング率が使用されます。研究者らは、例えばテキスト対テキストモデルを研究し、マスキング率とさまざまな種類のデコーダー間の相互作用を調査するなど、研究を拡大する予定です。
詳細については、原文論文を参照してください。


<<:  自動運転車の安全性保証、検証、認証の見直し

>>:  住宅価格予測のための機械学習

ブログ    
ブログ    

推薦する

OpenAIは、AIモデルが人間の価値観と一致していることを確認するために世論を集める新しいチームを結成しました

米国現地時間1月17日火曜日、人工知能分野のリーダーであるOpenAIは、自社のブログで「Colle...

...

アンドリュー・ン:ディープラーニングの知識を完全に説明する 22 枚の写真

Andrew Ng 氏は、Tess Ferrandez 氏が修了したディープラーニング特別コースのイ...

分析と AI で注意すべき 7 つの致命的な間違い

2017年、『エコノミスト』誌は、データが石油を上回り、世界で最も価値のある資源になったと宣言しまし...

2000年以降の大学生が伝染病と戦うロボットを設計

「私たちのロボット戦車は防疫ロボットに転用できるだろうか?」疫病流行の期間中、山東科技大学の学生たち...

...

...

AI機能をエッジに拡張する方法: ストレージが基盤となる

[[270991]]人工知能技術の復活は、ここ数年の IT に代表される計算能力の大幅な向上が主な要...

明らかにした! BBC は 365 の職業を分析し、これが機械によって排除される可能性が最も低い職業であると判明しました。

この写真を見ると怖いと感じますか? [[211553]]これは、将来人間がロボットに物乞いをするよう...

将来、ロボットは手術を支援し、反復作業をより効率的に実行できるようになるかもしれない。

人々は人工知能の急速な発展と、さまざまな業界でのその応用事例を目撃してきました。ヘルスケアは、AI、...

第4回パラダイム NeurIPS 2020: ナレッジグラフ埋め込みの自動化

少し前に、Fourth Paradigm の上級研究員である Quanming Yao 博士が、Ne...

2021年以降、AIが研究技術を向上させる4つの方法

研究テクノロジーは、現代のビジネス環境に人工知能と機械学習を適用するための優れた方法を提供します。 ...

パリのノートルダム大聖堂の火災後、文化遺産の修復に AI 技術をどのように応用できるでしょうか?

[[262791]]それを受け入れるかどうかは別として、突然の火災でノートルダム大聖堂は焼け落ちた...

...