清華大学、DeepMindなどは、既存の小サンプル学習法は安定的かつ効果的ではないと指摘し、評価フレームワークを提案した。

清華大学、DeepMindなどは、既存の小サンプル学習法は安定的かつ効果的ではないと指摘し、評価フレームワークを提案した。

評価基準の違いにより、統一基準に基づく既存の小規模学習法の公平な比較が大きく妨げられており、この分野における実際の進歩を客観的に評価することも不可能となっている。最近、清華大学、DeepMindなどの研究者らは論文「FewNLU: 少数ショット自然言語理解のための最先端の方法のベンチマーク」の中で、既存の小規模サンプル学習法は安定性と有効性に欠けており、既存の研究にはほとんどのNLUタスクで優れたパフォーマンスを達成できる単一の小規模サンプル学習法は存在しないと指摘した。小規模サンプルの自然言語理解の開発は、依然として厳しい課題に直面しています。この研究はACL2022本会議で採択されました。

  • 論文アドレス: https://arxiv.org/abs/2109.12742
  • プロジェクトアドレス: https://github.com/THUDM/FewNLU
  • リーダーボードアドレス: https://fewnlu.github.io/

この論文の貢献は次のとおりです。

(1)本研究では、小サンプル自然言語理解のための新しい評価フレームワークであるFewNLUを提案し、この評価基準の利点をテストセット小サンプル学習性能、テストセットと検証セットの相関、安定性という3つの主要な側面から定量的に評価した。 (2)研究者らはこの分野の関連研究を再評価し、既存の研究では既存の小規模サンプル学習法の絶対的なパフォーマンスと相対的なギャップを正確に推定していないこと、現在のところほとんどのNLUタスクで優れたパフォーマンスを達成できる単一の方法は存在しないこと、異なる方法の利点は補完的であり、最良の組み合わせモデルのパフォーマンスは完全教師付きNLUシステムのパフォーマンスに近いことを発見した。 (3)さらに、本論文では、FewNLUを提案し、Leaderboardを構築することで、小規模サンプルの自然言語理解の分野における将来の研究の発展に貢献したいと考えています。

小規模サンプルの自然言語理解評価フレームワーク

少数ショット学習にはモデル選択が必要ですか?

予備実験結果(表 1 に示す)は、ほとんどの既存の研究のように、(以前の実験経験に基づく)事前に固定されたハイパーパラメータのセットに基づく実験設定が最良の選択ではないことを示しています。実験条件のわずかな変化や変動により、パフォーマンスが劇的に変動する可能性があります。小さな検証セットに基づいて、異なる実験で個別にモデル選択を実行することが重要です。

小規模サンプルの自然言語理解評価フレームワーク

上記の結論に基づいて、本論文では、アルゴリズム 1 に示すように、小規模サンプルの自然言語理解のためのより堅牢で効果的な評価フレームワークを提案します。

この評価フレームワークには、データ分割の構築方法と主要な検索ハイパーパラメータの決定方法という 2 つの主要な設計上の選択肢があります。

データ分割を構築するにはどうすればいいですか?

まず、データ分割の構築に関する3つの主要な指標を提案します。(1)最終テストセットでの小サンプル学習パフォーマンス、(2)ハイパーパラメータ空間分布に関するテストセットと検証セット間の相関、(3)実験実行回数に関する安定性です。

これを踏まえて、本稿では、(1)K分割交差検証(K分割CV)[2]、(2)最小記述距離(MDL)[2]、(3)バギング[9]、(4)ランダムサンプリング戦略、(5)モデル誘導分割戦略(6)、本稿で提案する複数データ分割(マルチスプリット)など、様々なデータ分割戦略について定量的な実験と議論を行っている。

実験結果を表2、3、図1に示します。表 2 および 3 の実験結果は、小規模サンプルのパフォーマンスと関連性の点では、Multi-Splits が他のベンチマーク ソリューションよりも優れたデータ分割戦略であることを示しています。

さらに、図 1 に示すように、Multi-Splits の利点は、実行回数 K を増やしてもトレーニング セットと検証セットのデータ量に影響がないという点からも生まれます。それどころか、結果の信頼性がさらに高まります。したがって、実験中は常に K の値を可能な限り増やすことを選択できます。ただし、CV と MDL の場合、K 値が大きいと失敗 (失敗モード) につながり、K 値が小さいと非常にランダムで不安定な結果につながります。同時に、実際に値を選択する方法を事前に知ることは困難です。したがって、マルチ分割はより実用的なデータ分割戦略です。

少数ショット学習法の再評価

この論文では、統一された評価フレームワークに基づいて、最先端の小規模サンプル学習方法を再評価します。この論文では、さまざまな小規模学習方法とテクニックを組み合わせることで達成できる最高のパフォーマンスについても探求します (表 5 の「Our Best」に示されているように)。再評価実験の結果を表に示します。

再評価の結果、次の重要な結論が明らかになりました。

  • 結論 1:これまでの文献では、少数ショット学習法の絶対的および相対的なパフォーマンスの違いは正確に推定されていません。さらに、DeBERTa のような大規模モデルに対する小規模ショット法 (ADAPET など) の利点は大幅に減少します。半教師ありの少数ショット法 (iPET や Noisy Student など) の利点は、大規模なモデルでも一貫しています。
  • 結論 2:さまざまな少数ショット学習方法の利点は、大部分が補完的です。現在のさまざまな高度な方法を組み合わせることで、単一の方法よりも大幅に優れた小規模サンプル学習パフォーマンスを実現できます。現在の最適な組み合わせ方法の小サンプル学習パフォーマンスは、RoBERTa で達成された完全教師ありパフォーマンスに近いですが、DeBERTa で達成された現在の最適な完全教師ありパフォーマンスとは依然として大きく異なります。
  • 結論 3:既存の関連研究には、ほとんどの NLU タスクで優れたパフォーマンスを達成できる単一の小規模サンプル学習方法は存在しません。これは、将来、タスク全体にわたって一貫性があり堅牢な小規模学習方法をさらに開発するための新たな課題を提起します。


<<:  ソフトウェア配信における機械学習の活用方法

>>:  3Dチップ技術がコンピューティングに破壊的な変化をもたらす3つの方法:AMD、Graphcore、Intelはそれぞれ独自の秘策を秘めている

ブログ    
ブログ    

推薦する

NatureがAIGC禁止令を発令!ビジュアルコンテンツにAIを使用した投稿は受け付けられません

最も権威のある科学雑誌の一つであるネイチャー誌は最近、明確な声明を発表しました。 生成型人工知能 (...

これは陰謀論ですか? AIさん、どう思いますか?

[[385257]]ビッグデータダイジェスト制作出典: iflscience編集:赤道のパンダボデ...

ドローンによるマッピング:建設業界の再考

[[392894]]建設業界は技術変革の瀬戸際に立っています。建設業界では新しい技術の導入が遅れるこ...

モザイクでも止められない!これらのAIアルゴリズムはワンクリックで高解像度を実現できます

ぼやけた写真が好きな人はいません。本当の顔を復元したいという衝動にかられたことはありませんか? AI...

アート業界におけるメタバースの探究

メタバースの概念がますます普及するにつれて、さまざまな業界がこの豊かな土地を探索し始めました。多くの...

相関ルール推奨アルゴリズムの原理と実装

相関ルールは、データ間の潜在的な関連性を発見するために使用されます。最も一般的なアプリケーションは、...

インテリジェントプラットフォームを活用してビデオ監視データの津波に対処する方法

システム設計者は、高度なセンサー技術の急激な拡大と、それを安全または生命/安全の環境にどのように適用...

「新世代人工知能倫理規定」が発表:人工知能のライフサイクル全体に統合し、データプライバシーのセキュリティとアルゴリズムの倫理に重点を置く

9月26日、国家新世代人工知能ガバナンス専門委員会は「新世代人工知能倫理規範」(以下、「規範」という...

自動運転、論文採点のための人工知能…インテリジェントテクノロジーにはどのような破壊的可能性が秘められているのでしょうか?

[[216050]]教育が人工知能の発展と時代の変化に追いつかなければ、15年後には大学の半数が苦...

...

7年間の変革:WOT2018がテクノロジーの背後にある真実を明らかにする

2018 年のインターネット業界が新たな変化の時期を迎えていることは否定できません。新たなアップグレ...

FPSからRTSまで、ゲーム人工知能におけるディープラーニングアルゴリズムの概要記事

この論文では、ビデオゲームをプレイするためのディープラーニングアルゴリズムをレビューし、さまざまな種...

...

小売業界における人工知能の応用

多くの小売業者にとって、2020年のコロナウイルスの流行は、その存続と運営に深刻な影響を及ぼしました...

顔認識:攻撃の種類となりすまし防止技術

コンピュータサイエンスとエレクトロニクスの急速な発展により、顔認証は現在、指紋に次いで世界第2位の市...