陳丹奇と清華大学特別賞受賞学生が新たな成果を発表:Google BERTが提案したトレーニングルールを破る

陳丹奇と清華大学特別賞受賞学生が新たな成果を発表:Google BERTが提案したトレーニングルールを破る

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

新しいスローンフェローはどのようにお祝いするのでしょうか?

最新の研究結果を発表することはカウントされますか?

スローン賞が発表された同日に、陳丹奇氏のチームが最新の研究成果を発表しました。

チームは、古典的な NLP モデル BERT によって提案された事前トレーニングの「15% マスキング率」ルールが破られる可能性があることを発見しました。

「15% のマスキング率」とは、事前トレーニングタスクで 15% の単語がランダムにマスキングされ、トレーニングを通じて AI がマスキングされた単語を予測することを学習することを意味します。

陳丹奇氏のチームは、マスキング率を40%に上げると、15%のときよりもパフォーマンスがさらに向上すると考えています

それだけでなく、この記事では、40% のマスキング率での NLP モデルトレーニングの効果をさらに向上させる新しい方法も提案しています。

ハギングフェイスのエンジニアはこう語った。

BERT の興味深い点は、画期的な研究であるにもかかわらず、そのトレーニング方法が間違っているか不必要であるということです。

この論文の共同筆頭著者であるGao Tianyu氏は、清華大学特別賞の受賞者でもあります。彼は学部在学中に、トップクラスの学会論文を 4 本発表しました。

それで、この論文はどのようにしてこの結論に達したのでしょうか?

「マスキング率が高い場合は、大きなモデルの方が適しています」

Chen Danqi 氏のチームはまず、マスキング率、反復回数、モデル サイズという3 つの側面からこの結論を検証しました。

彼らはまず、一連の異なるマスキング レートを使用して、次のパラメータで NLP モデルをトレーニングしました。

結果は、少数のデータセットを除いて、 MNLI、QNLI、QQP、STS-B、SQuADなどのデータセットに対するモデルのトレーニング効果は、 40%のマスキング率が15%よりも優れていることを示しています。

さらなる反復のために さらに、著者らは異なる反復率におけるモデルの効果も記録した。

結果は、反復回数が増えるにつれて、40% のマスキング レートが 15% よりも一般的に優れたパフォーマンスを示すことを示しています。

それだけでなく、著者らは、40% のマスキング率でトレーニングするには、より大きなモデルの方が適していることも発見しました。

結果は、マスキング率が 40% の場合、大規模モデルが中規模 NLP モデルよりもパフォーマンスが優れていることを示しています

マスキング率を 15% に設定するだけでは 40% に設定するほど効果的ではなく、大規模な NLP モデルではマスキング率 40% でのトレーニングの方が適しているようです。

研究チームは、より困難なタスクではモデルがより多くの機能を学習するように促す可能性があり、大規模なモデルにはこの余裕があると推測しています。

根底にある原理を探るために、著者らは新しい評価方法を提案した。

マスキング率を2つの指標に分割する

具体的には、マスキング率は破壊率に分割されます  (腐敗率)と予測率  (予測率)指標は2つ。

このうち破壊率は破壊される文の割合、予測率はモデルによって予測される割合です。

たとえば、「私はバスケットボールをするのが好きです」というコーパスは、「私は [MASK][MASK][MASK]」に分解されてモデルに提供されますが、モデルは最初の [MASK] が「好き」かどうかを予測するだけで済みます。

このように、破壊率を使用して事前トレーニングタスクの難易度を制御し、予測率を使用してモデルの最適化効果を制御することができます。

この論文では、さらに損傷率 (mcorr) と予測率 (mpred) を研究し、新しい規則を発見しました。

予測率が高いほどモデルの効果は良くなりますが、破壊率が高いほどモデルの効果は悪くなります。

これにより、さまざまな事前トレーニング タスクをより正確に評価できるようになります。

最後に、著者らはこの基準に基づいて複数のマスクをテストし、どのマスクがより高いマスキング率でより優れたパフォーマンスを発揮するかを調べました。

結果は、マスキング率が増加するにつれて、ランダム均一マスキング(Uniform)のパフォーマンスが Span Masking やPMI-Maskingよりも優れていることを示しています。

しかし、これまでの多くの NLP モデルでは、PMI マスキングやスパン マスキングなどのより複雑なマスクがトレーニングに直接使用されていました。

これは、大規模な NLP モデルの事前トレーニング効果を一般化することはできず、トレーニング方法のみをさらに研究する価値があることも示しています。

著者について

この論文の著者の何人かは、Chen Danqi 氏のチームのメンバーです。

第一著者の Gao Tianyu 氏は現在、プリンストン大学の博士課程 2 年生です。清華大学で学士号を取得し、清華大学学部生特別奨学金を受賞したこともあります。

学部生の頃、高天宇さんは劉志遠教授のチームで科学研究に従事し、その間に合計4つのトップカンファレンス論文(AAAI 2本、EMNLP 2本)を発表しました。

共同筆頭著者の Alexander Wettig 氏は、プリンストン大学の博士課程 1 年生です。ケンブリッジ大学で学士号と修士号を取得し、NLP の一般化能力に興味を持っています。

Zexuan Zhong はプリンストン大学の博士課程の学生です。イリノイ大学アーバナ・シャンペーン校で修士号を取得しました。指導教官は Xie Tao でした。北京大学コンピューターサイエンス学部で学士号を取得し、Microsoft Research Asia でインターンをしました。指導教官は Nie Zaiqing でした。

この発見により、多くの大規模な NLP モデルはトレーニング方法を改善することでより良い結果を達成できるようになるかもしれません。

論文の宛先:

https://gaotianyu.xyz/content/files/2022/02/should_you_mask_15-1.pdf

<<:  厚いコードが入ったチャットのスクリーンショットも安全ではありません。マスターは数分で復元するアルゴリズムを作成しました

>>:  アンドリュー・ン氏の新たな動き:「データ中心のAI」の拠点となる新たなMLリソースサイトを設立

ブログ    

推薦する

資本が投資している人工知能は本当に人工知能なのでしょうか? 3分で機械学習とは何かを理解する

この記事は2300語で、3分ほど読むことをお勧めします。人工知能の機械学習が実際にどのように学習する...

UiPath Carnivalは職場の自動化におけるイノベーションを探るために近日開催されます

ロボティック・プロセス・オートメーション(RPA)エンタープライズソフトウェア企業のUiPathは最...

人工知能は航空宇宙に貢献しており、我が国の有人宇宙計画の宇宙ステーションの軌道上建設ミッションは着実に前進している。

中国有人宇宙工程弁公室によると、2021年以来、我が国の有人宇宙計画は宇宙ステーションの重要技術検証...

Googleの怠け者ツールが登場:AIカンファレンスのアバターがリリース、ワンクリックで要約、質問、スピーチが可能に

会議で苦しめられてきた労働者はついに解放される!先日終了した Google Cloud Next&#...

自分だけのデジタルヒューマンを開発しよう、FACEGOODが音声駆動表現技術をオープンソース化

現在、メタバースのトレンドの下、AIデジタルヒューマンもエンターテインメント、サービス、教育、マーケ...

...

遅い二次アルゴリズムと高速なハッシュマップについての簡単な説明

みなさん、こんにちは!昨日、プログラミング面接の準備をしていて、アルゴリズムの基礎を学ぼうとしている...

AIは観光業を良いビジネスにするでしょうか?

[[245713]]黄金の9月と銀の10月、観光業界は好景気の日々を待ち望んでいました。一方では、...

インテリジェントロボット:ハイエンド製造レベルの重要な指標

[51CTO.com からのオリジナル記事] ロボット製造は現在、知能ロボットの時代である 2.0 ...

C# のデータ構造とアルゴリズムにおける線形リストの構築クラスの簡単な分析

C# のデータ構造とアルゴリズムで線形リストを構築するためのクラスは何ですか? C# のデータ構造と...

ロボティック プロセス オートメーションの 10 大メリット

ロボティック プロセス オートメーション (RPA) ソリューションは、人間が日常的に実行する多くの...

機械学習に関する9つの誤解

機械学習のようにテクノロジーが大々的に宣伝されると、多くの誤解が生じます。ここでは、機械学習が提供で...

Google の 15 のオープンソース無料人工知能プロジェクト!開発者: 了解しました

開発者は人工知能に関するオープンソース プロジェクトを数多く目にしてきたと思いますし、Github ...

北本重型トラック、易欧、松山湖材料研究所が「易本デュアルカーボン研究所」設立に向けた戦略協力協定を締結

8月4日、中国北方工業集団公司、北奔重型トラック集団有限公司、渤海、松山湖材料研究所は調印式を開催し...

...