この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 新しいスローンフェローはどのようにお祝いするのでしょうか? 最新の研究結果を発表することはカウントされますか? スローン賞が発表された同日に、陳丹奇氏のチームが最新の研究成果を発表しました。 チームは、古典的な NLP モデル BERT によって提案された事前トレーニングの「15% マスキング率」ルールが破られる可能性があることを発見しました。
陳丹奇氏のチームは、マスキング率を40%に上げると、15%のときよりもパフォーマンスがさらに向上すると考えています。 それだけでなく、この記事では、40% のマスキング率での NLP モデルトレーニングの効果をさらに向上させる新しい方法も提案しています。 ハギングフェイスのエンジニアはこう語った。
この論文の共同筆頭著者であるGao Tianyu氏は、清華大学特別賞の受賞者でもあります。彼は学部在学中に、トップクラスの学会論文を 4 本発表しました。 それで、この論文はどのようにしてこの結論に達したのでしょうか? 「マスキング率が高い場合は、大きなモデルの方が適しています」Chen Danqi 氏のチームはまず、マスキング率、反復回数、モデル サイズという3 つの側面からこの結論を検証しました。 彼らはまず、一連の異なるマスキング レートを使用して、次のパラメータで NLP モデルをトレーニングしました。 結果は、少数のデータセットを除いて、 MNLI、QNLI、QQP、STS-B、SQuADなどのデータセットに対するモデルのトレーニング効果は、 40%のマスキング率が15%よりも優れていることを示しています。 さらなる反復のために さらに、著者らは異なる反復率におけるモデルの効果も記録した。 結果は、反復回数が増えるにつれて、40% のマスキング レートが 15% よりも一般的に優れたパフォーマンスを示すことを示しています。 それだけでなく、著者らは、40% のマスキング率でトレーニングするには、より大きなモデルの方が適していることも発見しました。 結果は、マスキング率が 40% の場合、大規模モデルが中規模 NLP モデルよりもパフォーマンスが優れていることを示しています。 マスキング率を 15% に設定するだけでは 40% に設定するほど効果的ではなく、大規模な NLP モデルではマスキング率 40% でのトレーニングの方が適しているようです。 研究チームは、より困難なタスクではモデルがより多くの機能を学習するように促す可能性があり、大規模なモデルにはこの余裕があると推測しています。 根底にある原理を探るために、著者らは新しい評価方法を提案した。 マスキング率を2つの指標に分割する具体的には、マスキング率は破壊率に分割されます (腐敗率)と予測率 (予測率)指標は2つ。 このうち破壊率は破壊される文の割合、予測率はモデルによって予測される割合です。 たとえば、「私はバスケットボールをするのが好きです」というコーパスは、「私は [MASK][MASK][MASK]」に分解されてモデルに提供されますが、モデルは最初の [MASK] が「好き」かどうかを予測するだけで済みます。 このように、破壊率を使用して事前トレーニングタスクの難易度を制御し、予測率を使用してモデルの最適化効果を制御することができます。 この論文では、さらに損傷率 (mcorr) と予測率 (mpred) を研究し、新しい規則を発見しました。 予測率が高いほどモデルの効果は良くなりますが、破壊率が高いほどモデルの効果は悪くなります。 これにより、さまざまな事前トレーニング タスクをより正確に評価できるようになります。 最後に、著者らはこの基準に基づいて複数のマスクをテストし、どのマスクがより高いマスキング率でより優れたパフォーマンスを発揮するかを調べました。 結果は、マスキング率が増加するにつれて、ランダム均一マスキング(Uniform)のパフォーマンスが Span Masking やPMI-Maskingよりも優れていることを示しています。 しかし、これまでの多くの NLP モデルでは、PMI マスキングやスパン マスキングなどのより複雑なマスクがトレーニングに直接使用されていました。 これは、大規模な NLP モデルの事前トレーニング効果を一般化することはできず、トレーニング方法のみをさらに研究する価値があることも示しています。 著者についてこの論文の著者の何人かは、Chen Danqi 氏のチームのメンバーです。 第一著者の Gao Tianyu 氏は現在、プリンストン大学の博士課程 2 年生です。清華大学で学士号を取得し、清華大学学部生特別奨学金を受賞したこともあります。 学部生の頃、高天宇さんは劉志遠教授のチームで科学研究に従事し、その間に合計4つのトップカンファレンス論文(AAAI 2本、EMNLP 2本)を発表しました。 共同筆頭著者の Alexander Wettig 氏は、プリンストン大学の博士課程 1 年生です。ケンブリッジ大学で学士号と修士号を取得し、NLP の一般化能力に興味を持っています。 Zexuan Zhong はプリンストン大学の博士課程の学生です。イリノイ大学アーバナ・シャンペーン校で修士号を取得しました。指導教官は Xie Tao でした。北京大学コンピューターサイエンス学部で学士号を取得し、Microsoft Research Asia でインターンをしました。指導教官は Nie Zaiqing でした。 この発見により、多くの大規模な NLP モデルはトレーニング方法を改善することでより良い結果を達成できるようになるかもしれません。 論文の宛先: https://gaotianyu.xyz/content/files/2022/02/should_you_mask_15-1.pdf |
<<: 厚いコードが入ったチャットのスクリーンショットも安全ではありません。マスターは数分で復元するアルゴリズムを作成しました
>>: アンドリュー・ン氏の新たな動き:「データ中心のAI」の拠点となる新たなMLリソースサイトを設立
庚子年の初めに、突然の疫病が中国全土に広がり、人々は突然「2003年を夢見ている」ような気分になった...
ハッシュ アルゴリズムを使用して ASP.NET データ暗号化を実装するプロセスは何ですか?私たちの...
現在、人工知能が何であるかをまだよく理解していない人がたくさんいます。今日は、人工知能の主要な技術と...
オピニオンリーダー | 北京大学光華管理学院文:周 連(北京大学光華管理学院副学長)新興技術である人...
ついに、GPT-4V がコンピューターを自動的に操作することを学習する日が来ました。マウスとキーボー...
私たちはここ数年、自動運転車について話し合い、議論してきました。しかし、道路上では見かけません。これ...
年末が近づくにつれ、多くの研究機関が2020年のトレンド予測を発表しています。これらの予測の多くは、...
5G建設の展開に伴い、「デジタルトランスフォーメーション」という言葉も注目を浴び、さまざまな展示会...
企業が生産性を高め、顧客体験を強化する方法を模索する中、生成 AI は今後 10 年間であらゆる業界...
丑年の最初の仕事週に、国家人工知能イノベーションおよび応用パイロットゾーンの数が増加しました。工業情...
人工知能技術の発展に伴い、人工知能はあらゆる分野で広く利用されるようになり、人類社会に広範かつ深遠な...
翻訳者 | 朱 仙中レビュー | Chonglou導入この記事は、ユーザーの好みに合わせてシンプルで...