Microsoft の Zhu Chenguang: 事前トレーニング済みモデルの次のステップは何ですか? PLMの「不可能の三角形」を突破する

Microsoft の Zhu Chenguang: 事前トレーニング済みモデルの次のステップは何ですか? PLMの「不可能の三角形」を突破する

近年、大規模な事前トレーニング済み言語モデル (PLM) により、さまざまな NLP タスクのパフォーマンスが大幅に向上しました。 BERT と GPT-2 から始まり、自己教師あり事前トレーニング + 教師あり微調整のパラダイムは大きな成功を収め、意味的類似性、機械読解、常識推論、テキスト要約など、多くの NLP 分野で SOTA の結果を更新しました。さらに、中規模 PLM では、広範囲かつ迅速なモデルの微調整と調整が可能になります。

しかし、多くの実際的な、特に新しい NLP シナリオでは、予算や時間の制約により、効果的な微調整のためのラベル付きデータは非常に限られています。この状況により、ゼロショットおよび少数ショットの NLP モデルの開発が促進されました。 GPT-3 から始まり、超大規模 PLM (SL-PLM) は、タスクの説明と場合によってはいくつかの手動の例のみが与えられた場合に、一般的な NLP タスクでより強力なパフォーマンスを示します。この機能は、これまでの中規模 PLM では見られませんでした。しかし、SL-PLM は前例のない規模であるため、その広範な適用には大きな制限があります。小規模なテクノロジー企業や研究者にとって、これらのモデルをロードするのに十分なコンピューティング リソースを入手することさえ困難であり、効率的に展開して微調整することは困難です。

最近、Microsoft の Cognitive Services Research (CSR) チームの 2 人の研究者が、新しい論文「Impossible Triangle: What's Next for Pre-trained Language Models?」で、事前トレーニング済み言語モデルの将来について考察しました。

論文の筆頭著者である朱晨光氏は清華大学姚学院を卒業し、学士号を取得し、2016年にスタンフォード大学で博士号を取得した。その後マイクロソフトに入社し、現在はCSRのチーフリサーチマネージャーを務めています。

論文アドレス: https://arxiv.org/pdf/2204.06130.pdf

彼らはまず、中規模のモデルサイズ、SOTA の小規模サンプル学習能力、SOTA の微調整能力を含む「不可能三角形」の概念に基づいて、現在の PLM モデルを使用することの難しさについて詳しく説明しました。研究者たちは、既存のすべての PLM モデルには不可能三角形の 1 つ以上の属性が欠けていると考えています。 PLM のこれらの欠けている特性を補うために、知識蒸留、データ拡張、ヒント学習などのさまざまな手法が提案されていますが、実際のシナリオでの PLM の適用には必然的に追加の作業が必要になります。

こうした状況に対応して、研究者らは、不可能を可能にする三角形を実現するための PLM の将来の研究方向について独自の見解を提示し、そのタスクを 3 つの主要な段階に分解しました。

不可能三角形

この研究では、「不可能の三位一体」の経済理論を使用して、図 1 に示すように、PLM 研究が現在直面している障害について説明します。この三角形は、PLM を効果的に使用するための 3 つの重要な特性を表します。P1 はモデル サイズ、P2 は SOTA の小サンプル学習能力、P3 は SOTA の自己教師学習能力を表します。これらの 3 つの要素は、実際のアプリケーションにおける PLM の 3 つの要件に対応しています。P1 は、適切な量のコンピューティング リソースを使用した効率的な展開に使用され、P2 は、ラベル付きデータがゼロまたは少ないシナリオに使用され、P3 は、ラベル付きデータが比較的豊富なシナリオに使用されます。

不可能三角形が存在する理由の 1 つは、現段階では、小規模サンプル学習機能は、PLM スケールが十分に大きく、容量が十分に高い場合にのみ現れるということです。いくつかの研究では、GPT-3 よりも優れたスモールショット学習機能を実現するために中規模の PLM (iPET など) を設計しましたが、このモデルは後に SL-PLM に追い抜かれ、その後、モデルが拡張し続けるにつれてゼロショットまたはスモールショット学習のパフォーマンスは向上し続けました。たとえば、540B パラメータを持つ PaLM は、8B および 62B パラメータを持つモデルバリアントと比較して、多くのタスクで精度が大幅に向上します。したがって、優れた教師あり学習機能を維持しながら、SOTA ゼロ/少数ショット学習パフォーマンスを備えた中規模のモデルを開発することは、依然として大きな課題です。

不可能三角形の 3 つの属性すべてを実現している PLM はありませんが、多くの PLM が次の機能の 1 つまたは 2 つを実現しています。

中規模 PLM (P1 + P3): これらの言語モデルは中規模で、パラメータが 10 億未満であり、効果的に調整および展開できます。このようなモデルは、一般的な NLP タスク (GLUE ベンチマーク、テキスト要約、オープンドメインの質問応答、試行推論など) で SOTA パフォーマンスを達成できます。ただし、このようなモデルは通常、ゼロ/少数ショットの学習機能が比較的弱いため、これらのモデルを使用するには、ターゲット ドメインに十分なラベル付きデータが必要です。

非常に大規模な PLM (P2): これらの言語モデルは非常に大きく、1 ~ 1 兆個のパラメータを持ち、大規模なデータで事前トレーニングされています。たとえば、5,400 億のパラメータを持つ PaLM は、7,800 億のトークンを持つ別のテキスト コーパスで事前トレーニングされました。プロンプトタスクの説明と少数の入出力サンプルペアが与えられると、このようなモデルは一般的なゼロ/少数ショットの NLP タスクで SOTA パフォーマンスを実現します。しかし、一般的に、SL-PLM のゼロ/少数ショットのパフォーマンスは、教師ありトレーニング済みモデルのパフォーマンスよりも低く、微調整後も、多くの SL-PLM のパフォーマンスは、モデルのサイズが大きく、微調整が難しいため、最もよく微調整された中規模 PLM よりも低いままです。

現在の救済策は何ですか?

不可能な三角関係が存在するため、研究者はそれを解決するためにさまざまな手段を講じてきました。要約すると次のようになります。

巨大なモデルスケール(P1が欠落)。これは、SL-PLM が優れた小ショット学習能力と微調整後の強力なパフォーマンスを示した場合に発生します。 SL-PLM と同様のパフォーマンスを持つ中規模のモデルを取得するための一般的なアプローチは、知識蒸留 (KD) です。 KD では、大きいモデルが教師として機能し、小さいモデルが生徒として機能し、教師の予測分布またはパラメータから学習します。知識蒸留は、より効果的なモデルを作成するのに非常に効果的ですが、パフォーマンスはわずかに低下します。しかし、知識蒸留には依然として 2 つの問題があります。1 つ目は、学生モデルが教師モデルと同じパフォーマンスを達成することが難しいこと、2 つ目は、SL-PLM のサイズが大きいために推論が妨げられ、教師モデルとして使用するには不便であることです。

ゼロ/少数ショットのパフォーマンスが低い (P2 の欠如): これは中規模の PLM で最も一般的であり、微調整後に SOTA パフォーマンスを達成できますが、ゼロ/少数ショットの学習能力は比較的低いです。このようなモデルは、ラベル付けされたデータが十分にない場合に展開するのに適しています。データ拡張は、他のモデルやノイズ注入から疑似ラベルや疑似データインスタンスを生成し、モデルがこれらの追加データを効果的な教師ありトレーニングに活用できるようにする一般的な方法です。しかし、疑似データの品質のばらつきや、さまざまなタスクにおけるデータ タイプの多様性により、一般的に適用可能なソリューションを実現するのは困難です。

教師ありトレーニングのパフォーマンスが低い (P3 がない): これは、計算リソースが限られている場合や、トレーニング データの量が不十分で非常に大きなモデルを調整できない場合に、SL-PLM を微調整するときによく発生します。典型的な解決策は、迅速な学習です。ハード プロンプト (個別のテキスト テンプレートなど) またはソフト プロンプト (連続テンプレートなど) を利用すると、微調整中にハード プロンプトの単語またはソフト プロンプトのパラメータのみが更新されます。これは、ラベル付きデータが与えられた場合の SL-PLM のパフォーマンスを向上させるのに非常に効果的であることが示されています。ただし、このアプローチはプロンプトの設計に非常に敏感であり、教師あり学習を使用した中規模 PLM ほど効果的ではありません。

3つの重要な段階

現在の NLP モデルには不可能三角形がありますが、研究者たちは次の 3 つの段階を経て解決できると考えています。

フェーズ 1: PLM 開発の目標は、三角形内の必要な属性の一部を達成しながら、その他の不足している属性を改善することです。たとえば、SOTA 教師あり学習機能を備えた中規模モデルでは、小規模学習のパフォーマンスを向上させることができます。また、小規模学習機能を備えた SL-PLM は、より強力な教師あり学習パフォーマンスを備えたより小さなモデルに圧縮されます。

フェーズ 2: いくつかの NLP タスク (NER やテキスト要約など) の 1 つで、必要な 3 つのプロパティすべてを実装する PLM を開発します。この目的のために、トレーニング データのサイズに対するパフォーマンスの依存性が低いことや、ゼロ/少数ショット学習と教師あり学習のパフォーマンスのギャップが小さいことなど、対象タスクの固有の特性を活用できます。

フェーズ 3: フェーズ 1 と 2 での進捗を基に、一般的な NLP タスクに必要な 3 つのプロパティすべてを実装する PLM を開発します。潜在的なアプローチとしては、より大きなデータを使用して中規模モデルを事前トレーニングすること、より優れた知識蒸留を開発すること、データ拡張方法の一般化などが挙げられます。

PLM モデルが一般的な NLP タスクにおける不可能三角形の 3 つの特性をすべて備えれば、NLP の研究と応用の全体像が変わり、高速で効率的かつ高品質なモデルの開発と展開が促進されます。​

<<:  機械学習パイプラインのデータをオーケストレーションする方法

>>:  2022年には大学卒業者数が1000万人を超えるが、AI関連の仕事の月給はたったの2万4000円?

ブログ    
ブログ    
ブログ    

推薦する

上位 10 の古典的なソート アルゴリズムの概要 (Java コード実装を含む)

最近、ソートアルゴリズムを勉強していて、多くのブログを読んでいます。インターネット上のいくつかの記事...

12 のシナリオ アプリケーション、100 を超えるアルゴリズム、AI はどのようにして経済を征服するのか?

[[328065]] 2020年2月7日、第34回アメリカ人工知能学会年次会議(AAAI 2020...

機械学習: 教師なし学習: 9 つのクラスタリング アルゴリズム

今日は、機械学習の教師なし学習における一般的なクラスタリング手法をいくつか紹介したいと思います。教師...

クラウドとジェネレーティブ AI の今後の動向

絶えず変化するビジネス環境において、データは驚くべき速度で増加しています。データの急増により、あらゆ...

2018 年最も注目された AI および機械学習のスタートアップ 10 社

PwCとCB Insightsによるマネーツリーのレポートによると、人工知能のスタートアップへの投資...

...

...

AIと合成生物学の融合における5つの大きな課題:テクノロジー、データ、アルゴリズム、評価、社会学

過去 20 年間で生物学は大きな変化を遂げ、生物システムを設計することが可能になりました。私たちの細...

アリババ人工知能ラボ:テクノロジーがあなたの生活をどう変えるかを見てみましょう

[PConline News] ジャカルタアジア競技大会が閉幕し、アジア競技大会は正式に杭州タイムに...

...

ロボットが石油・ガス生産をより安全にする方法

石油とガスの生産は世界で最も危険な仕事の一つです。石油掘削、掘削作業、保守テストなどの作業により、毎...

JVMの基本的なガベージコレクションアルゴリズムについて

この記事は JavaEye ブログからの引用であり、元のタイトルは「JVM チューニングの概要 (パ...

科学者はAIを使って人気曲を97%の精度で識別する

6月21日のニュースによると、新たな研究により、人工知能(AI)は人気曲を正確に識別できることが示さ...