最近、清華大学の研究者たちは、シンプルで効率的な NLP 学習フレームワークを提案しました。現在主流の NLP コミュニティの大規模な事前トレーニング + 下流タスクの微調整パラダイムとは異なり、このフレームワークでは大規模な事前トレーニングは必要ありません。このフレームワークは、従来の事前トレーニング済み言語モデルと比較して、トレーニング効率 (トレーニング FLOP) を 2 桁向上させ、複数の NLP タスクで事前トレーニング済みモデルと同等かそれ以上のパフォーマンスを実現します。この研究結果は、大規模な事前学習済み言語モデルの必要性に疑問を投げかけています。大規模な事前学習は下流のタスクにどの程度貢献するのでしょうか?最良の結果を得るために、大規模な事前トレーニングが本当に必要ですか?
事前トレーニング済みの言語モデルは、その強力なパフォーマンスにより幅広い注目を集めており、事前トレーニングと微調整のパラダイムは多くの NLP タスクの標準的な方法となっています。しかし、現在のところ、一般言語モデルの事前トレーニング コストは非常に高く、十分なリソースを持つ少数の研究機関や組織のみがそれを研究できる状況です。この「高価で集中化された」研究モデルは、民間の研究者が NLP コミュニティに貢献できる範囲を制限し、この分野の長期的な発展の障害さえも作り出します。 最近、この状況を緩和するために、清華大学の研究者は、事前学習された言語モデルを必要としない効率的な学習フレームワークを提案しました。このフレームワークは、一般的なコーパスから下流タスクに関連するサブセットを選択し、言語モデリング タスクと下流タスクを共同でトレーニングします。研究者はこれをTLM (タスク駆動型言語モデリング) と呼んでいます。従来の事前トレーニング済みモデル (RoBERTa など) と比較すると、 TLM では、多くの NLP タスクで事前トレーニング済みモデルのパフォーマンスに匹敵するかそれを超えるために、トレーニング時間の約 1% とコーパスの 1%しか必要としません (図 1 を参照)。研究者たちは、TLM の導入によって、既存の事前トレーニングの微調整パラダイムについての考察がさらに深まり、NLP の民主化が促進されることを期待しています。 言語モデルは「詰め込み」されるのか?タスク駆動型言語モデリングTLM の動機は、人間は重要な情報のみを学習することで、限られた時間とエネルギーでタスク スキルを迅速に習得できるという単純な観察から生まれました。たとえば、試験のために詰め込み勉強をする場合、不安を抱える学生は、考えられるすべての知識ポイントを学習する必要はなく、試験の準備としてシラバスに従って関連するいくつかの章を復習するだけで済みます。同様に、事前トレーニング済み言語モデルの下流タスクにおける優れたパフォーマンスは、主に下流タスクに関連するコーパス内のデータから得られると推測できます。下流タスクに関連するデータのみを使用することで、完全なデータと同様の結果を得ることができます。 大規模な一般コーパスから重要なデータを抽出するために、TLM はまずタスク データをクエリとして使用し、一般コーパスから類似データを呼び出します。ここで著者は、スパース特徴に基づくBM25アルゴリズム[2]をリコールアルゴリズムとして選択した。その後、TLM はタスクデータとリコールデータに基づいてタスク目標と言語モデリング目標を最適化し (下式のように)、最初から共同トレーニングを実行します。 1%の計算能力 + 1%のコーパスは、事前学習済みの言語モデルに匹敵する可能性があるTLM のパフォーマンスをテストするために、研究者らは 3 つの異なるスケールで 8 つの NLP 分類タスクの比較実験を実施しました。これら 8 つのタスクは、コンピューター サイエンス、バイオメディカル、ニュース、解説の 4 つの分野をカバーしています。これらには、5,000 個未満のトレーニング サンプルを使用する低リソース タスク (Hyperpartisan News、ACL-ARC、SciERC、Chemprot) と、20,000 個を超えるトレーニング サンプルを使用する高リソース タスク (IMDB、AGNews、Helpfulness、RCT) が含まれ、トピック分類、感情分類、エンティティ関係抽出などのタスク タイプをカバーしています。実験結果から、TLM は対応する事前トレーニング微調整ベースラインと同等かそれ以上のパフォーマンスを達成することがわかります。平均すると、TLM はトレーニング FLOP の量とトレーニング コーパスのサイズを 2 桁削減します。 タスク駆動型言語モデリング (TLM) と事前学習済み言語モデル (PLM)表 1 は TLM と PLM を直接比較したものです。一般に、PLM はタスクに関係のない知識を非常に高いコストで可能な限り学習しますが、TLM は各タスクに関連する知識を非常に低いコストで学習します。 TLM と PLM を比較すると、いくつかの特徴があります。 1. NLP研究の公平性と民主化を推進する 事前トレーニング自体は多くのコンピューティング リソースに大きく依存しており、この制限により、ほとんどの NLP 研究者はアルゴリズムの微調整に重点を置いています。ただし、微調整パフォーマンスの上限は、事前トレーニング済みモデルのパフォーマンスによって大きく制限されます。 TLM を使用すると、ほとんどの研究者は、最も高度なソリューションに基づいて、モデル アーキテクチャ、損失関数、アルゴリズムなどを、低コストかつ高い効率で自由に探索できます。 2. 効率性 TLM は、タスクあたりの平均 FLOP 消費量の点で PLM を大幅に上回ります。解決すべき対象タスクが少数の場合(たとえば、研究者が少数のデータ セットを調査したい場合)、TLM は非常に効率的です。ただし、一度に多数のタスクを解決する必要がある場合(たとえば、業界が複数の関係者に同様のサービスを提供するために NLP プラットフォームを構築する場合)、PLM には依然として利点があります。 3. 柔軟性 TLM はタスク駆動型であるため、研究者はラベル付け、シーケンスの長さ、データ表現、ハイパーパラメータ調整などの戦略をより自由にカスタマイズして、パフォーマンスと効率を向上させることができます。 4. 一般性 PLM はタスクに依存しない一般的な表現を学習し、小規模サンプルやゼロショット学習に使用できますが、TLM はタスクに依存する表現を学習することで効率性と引き換えにある程度一般性を犠牲にします。この意味で、TLM は汎用性の面でさらに改善される必要があります。さらに、PLM と TLM を組み合わせることで、汎用性と効率性の間のより良いトレードオフを実現できます。 TLM の詳細: 下流のタスクにより多くのパラメータを利用できるようにするTLM がどのように機能するかについてより深い洞察を得るために、研究者はモデルの各注意ヘッドによって出力される注意スコアを視覚化しました。 TLM の注意パターンには、より多くの「対角」パターン (図 3 の赤いボックス) が含まれていることがわかります。つまり、ほとんどのトークンは、その注意スコアを隣接するトークンに集中させます。このパターンは、以前の研究 [1] で、モデルの最終的な予測に重要な貢献をすることが証明されています。事前トレーニング済みモデル (BERT、RoBERTa) には多数の「垂直」アテンション ヘッド (図 3 の灰色の領域) が含まれています。これは、ほとんどのトークンが [CLS]、[SEP] などの単語や、意味情報や構文情報を持たないピリオドに注意スコアを集中していることを意味します。この現象は、TLM のパラメータ利用率が事前トレーニング済み言語モデルよりも大幅に高く、TLM が下流のタスクに対してより意味的に有益な表現を学習した可能性があることを示しています。 要約するTLM の導入により、NLP 研究は事前トレーニングと微調整のパラダイムから脱却できるようになり、NLP 研究者は大規模な事前トレーニング済みモデルに制限されることなく、新しいモデル構造とトレーニング フレームワークをより自由に探索できるようになります。将来的には、TLM に基づいて、より大規模な事前トレーニング済みモデルのパフォーマンスを経済的に達成する方法、TLM の汎用性と移転可能性を向上させる方法、TLM を小サンプル学習またはゼロサンプル学習に使用できるかどうかなど、より興味深い研究を行うことができます。 |
>>: 何開明は2年ぶりに新たな論文を発表した。大規模な視覚モデルへの道を開くこの論文には、1つの数式も含まれていない。
[[385874]]基本的な紹介配列内のほとんどの要素が 0 であるか、同じ値を持つ配列である場合...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
AI の取り組みが失敗すると、その責任はスキルのギャップにあるとされることが多いです。しかし、それだ...
「私たちのロボット戦車は防疫ロボットに転用できるだろうか?」疫病流行の期間中、山東科技大学の学生たち...
[[441739]]バックスペースで文字列を比較するLeetCode の問題へのリンク: http...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
経済が不況に陥っているため、テクノロジー業界の大手企業は給与を削減したり、従業員を解雇したりしている...
[[237644]] 人工知能(AI)は、国家や企業が支配権を争う新たな技術の最前線です。マッキン...
志東西(公式アカウント:zhidxcom)起源ディープラーニング分野の大物として、ヤン・ルカン氏は近...
科学研究の分野で働く人なら、P/NP 問題についてはある程度聞いたことがあるでしょう。この問題は、ク...
8月29日、情報筋によると、イーロン・マスク氏、マーク・ザッカーバーグ氏、その他米国の著名なテクノ...