最近、清華大学のチームが事前トレーニングを必要としない効率的な NLP 学習フレームワークを提案しました。このフレームワークは、わずか 1% の計算能力と 1% のトレーニング コーパスを使用して、多くの NLP タスクで事前トレーニング済みモデルに匹敵するか、それを超えるパフォーマンスを達成しました。この研究結果は、大規模な事前トレーニング言語モデルの必要性に疑問を投げかけています。最良の結果を得るために、本当に大規模な事前トレーニングが必要なのでしょうか? 事前学習済み言語モデル (PLM) に基づく手法は自然言語処理の分野で普及しており、さまざまな標準的な自然言語タスクで最先端 (SOTA) のパフォーマンスを達成しています。その強力なパフォーマンスにより、NLP タスクを解決するための標準的な方法の 1 つとなっています。 しかしながら、事前トレーニングが大量のコンピューティングリソースに大きく依存している現状では、事前トレーニングの調査を行える十分なリソースを持つ機関や組織はごく少数にとどまっており、ほとんどの研究者は、より少ないリソースしか必要としない下流の微調整アルゴリズムの研究に目を向けています。 ただし、微調整アルゴリズムのパフォーマンスの上限も、事前トレーニング済みモデルのパフォーマンスによって大きく制限されます。 この「高価で集中化された」研究モデルは、民間の研究者が NLP コミュニティに貢献できる範囲を制限し、この分野の長期的な発展を大きく制限します。 清華大学の研究者たちは、この問題に対処するために、新しい効率的な学習フレームワーク「TLM(タスク駆動型言語モデリング)」を提案しました。 論文アドレス: https://arxiv.org/pdf/2111.04130.pdf プロジェクトアドレス: https://github.com/yaoxingcheng/TLM TLM フレームワークは、大規模な事前トレーニングを必要としません。従来の事前トレーニング済みモデル (RoBERTa など) と比較して、トレーニング時間とコーパスの約 1% しか必要としません。多くのタスクで、事前トレーニング済みモデルと同等かそれ以上のパフォーマンスを実現できます。 著者は、TLM の導入により、NLP 研究者が既存の事前トレーニング - 微調整パラダイムを再検討し、NLP の民主化のプロセスを促進し、NLP 分野のさらなる発展を加速することを期待しています。 言語モデルも「土壇場で準備」できるのでしょうか? タスク駆動型言語モデリング私たちは、人間は限られた時間とエネルギーで、特定のスキルを効率的に習得できるという観察をしました。このプロセス全体では、すべての知識と情報を習得する必要はなく、コア部分を重点的に学習するだけで済みます。 たとえば、受験者は試験前に詰め込み勉強をし、試験に対処するために重要な内容だけを勉強すればよい場合があります。この現象に触発されて、私たちは「事前トレーニング済みの言語モデルを土壇場での補足として使用できるか?」という疑問を抱かずにはいられません。 従来の事前トレーニング微調整法とTLMフレームワークの比較 同様に、著者らは、特定のタスクにおける事前トレーニング済み言語モデルのパフォーマンスは、大規模な完全なデータを必要とせず、大規模な一般コーパスのタスク関連部分からのみ恩恵を受けると仮定しています。 この方法は主に 2 つの段階で構成されます。 大規模な一般コーパスから重要なデータを抽出するために、TLM はまずタスク データをクエリとして使用し、一般コーパスから類似データを呼び出します。 TLM は、タスク データとリコール データに基づくタスク目標と言語モデリング目標に基づいて、最初から共同でトレーニングされます。 タスクデータに基づくコーパス想起まず、タスクデータに基づいて、大規模な一般コーパスから関連データを抽出します。 密な特徴を使用する傾向があるほとんどのテキストマッチングアルゴリズムと比較して、この論文の著者は異なるアプローチを採用し、スパースな特徴に基づくBM25アルゴリズム[2]をリコールアルゴリズムとして使用します。これはシンプルで効率的であり、下流のタスクによって提供される監視信号に依存しません。 同時に、このアルゴリズムは事前トレーニング モデルにまったく依存しないため、従来の大規模な事前トレーニングと公平に比較できます。 自己監督タスクと下流タスクの共同トレーニング TLM は、選別された一般予測データとタスク データに基づいて、自己教師タスクと下流タスクの共同トレーニングを実行します。 著者らは、従来のマスク言語モデリングを自己教師ありトレーニングタスクとして使用しました。 トレーニングの損失関数 実験結果: 小規模なリソースは大規模な事前学習済み言語に匹敵する 主な結果著者らは、3 つの異なるスケールで 8 つの自然言語分類タスクについて比較実験を実施しました。これらのタスクは、バイオメディカル、ニュース、解説、コンピューターなどの分野をカバーし、感情分類、エンティティ関係抽出、トピック分類などのタスクタイプが含まれます。 3つの異なるトレーニングスケールでのTLMの評価結果 従来の事前トレーニング微調整パラダイムと比較して、TLM はマルチドメインおよびマルチタスク データセットで同等またはそれ以上の結果を実現します。 より大きな利点は、同等またはそれ以上の結果を達成するために TLM が使用するリソース (計算の FLOP および使用されるトレーニング データの量を含む) が、対応するトレーニング前の微調整ベンチマークと比較して約 2 桁も大幅に削減されることです。 パラメータ効率分析TLM の効率性のより根本的な原因を探るために、著者らはモデルの各注意ヘッドによって出力される注意結果の視覚的な分析を実施しました。 既存の研究[1]では、「対角線」パターン(赤いボックスで示す)を示す注意結果がモデルのパフォーマンスに影響を与える重要な要因であると指摘されています。これは、「対角線」パターンが前のトークンまたは後続のトークンに注意を集中させ、隣接するトークン間の相関関係を捉えてモデル化するためです。 注目結果の視覚的分析 視覚化の結果から、TLM にはより多くの「対角」パターンが含まれていることがわかります。つまり、隣接する他のシンボルに注意をそらすシンボル位置が多くあるということです。 対照的に、元の大規模な事前トレーニング済みモデル(BERT-Base および RoBERTa-Base)では、「対角」パターンが少なく、「垂直」パターン(灰色で表示)が多くなっています。つまり、より多くのシンボル位置が、[CLS]、[SEP] などのシンボルや、文法情報や意味情報を持たない句読点に重点を置いたものになっています。 TLM のパラメータ効率は事前トレーニング済みの言語モデルよりも大幅に優れており、タスク駆動型学習により、TLM は下流のタスクのためにより豊富な文法情報と意味情報を学習できることがわかります。 アブレーション実験さらに、著者らは、データ選択戦略、データ想起量、マルチタスク学習ターゲットの重みなど、さまざまな角度からアブレーション実験を実施し、モデル性能の安定性と最適な構成を検証しました。 データ選択戦略アブレーション実験結果 データリコール戦略の面では、同じ数のランダム選択と比較して、スパース特徴に基づく BM25 アルゴリズムの最終結果には大幅な改善 (約 1 ~ 4 ポイント) があり、同様のリコールとタスク データを持つ一般データに対する有効性が証明されています。 最適なデータリコールのアブレーション実験結果 一般データの教師なし学習(ρ1)とタスクデータの教師なし学習(ρ2)の目標重みのアブレーション結果 最適なデータ想起とマルチタスク学習目標の重みという 2 つの要因の除去実験の結果は、一貫した結論を示しています。つまり、2 つの要因の選択は、タスク データ スケールと強い相関関係を示しています。 データ規模の大きいタスク(AGNews、RCTなど)では、比較的類似性の低い一般データを思い出す必要があり、同時に、タスクデータターゲットの割合を大きくする必要があります。 データ規模が小さいタスク (ChemProt、SciERC など) の場合、十分な情報を提供するために比較的多くの共通データを思い出す必要があり、共通データの思い出しに関する教師なしトレーニングの目標に大きな重みを付けます。 TLM と PLM: 利点は何ですか? 要約すると、PLM はタスクに関係のない知識を非常に高いコストで可能な限り学習しますが、TLM は各タスクに関連する知識を非常に低いコストで学習します。 TLMとPLMの比較 具体的には、TLM は PLM と比較して次の特性を持っています。 1. 民主化 TLM の導入により、NLP 研究が大規模なコンピューティング リソースによって制限され、ごく少数の機関や個人によってしか実行できないという現状が打破されます。 TLM フレームワークに基づいて、ほとんどの NLP 研究者は、低コストかつ高い効率で最も高度なソリューションを自由に探索および研究できます。 2. 柔軟性 PLM と比較して、TLM では研究者が特定のタスクに応じて、ラベル付け戦略、データ表現、シーケンスの長さ、ハイパーパラメータなどをより柔軟にカスタマイズできます。これにより、パフォーマンスと効率をさらに向上させることができます。 3. 効率性 実験結果に示されているように、TLM のタスクあたりの FLOP 消費量は PLM よりも大幅に少なくなります。 TLM と PLM は、それぞれ異なる状況に適しています。少数のターゲット タスクや特定の分野特有のまれなタスクに直面した場合 (たとえば、NLP 科学研究中に少数のデータセットで実験や研究を行う、業界が非常に特殊な分野の問題を解決する必要があるなど)、TLM は非常に効率的な選択肢となります。多数の類似した共通タスクを一度に解決する必要がある場合 (たとえば、企業が複数の関係者に同様のサービスを提供するために統合プラットフォームを構築する必要がある場合)、PLM の再利用性により、依然として利点があります。 4. 汎用性 PLM はタスクに依存しない一般的な表現を学習します。つまり、普遍性を重視しますが、TLM はタスクに依存する表現を学習することで、より高い効率性と引き換えに、ある程度の普遍性を犠牲にします。もちろん、PLM と TLM を組み合わせて、汎用性と効率性の間のより良いトレードオフを実現することもできます。 要約と展望TLM の導入により、自然言語処理の分野に「新しい視点」がもたらされます。これにより、既存の NLP 研究はコストのかかる事前トレーニングから脱却できるようになり、より独立した NLP 研究者がより広い領域で自由に研究することも可能になります。 将来的には、TLM の汎用性と移転可能性をさらに向上させる方法や、より大規模な事前トレーニング済みモデルのパフォーマンスをより経済的に達成する方法など、TLM フレームワークに基づいたさらなる研究が行われる可能性があります。 著者について 論文 1 Yao Xingcheng は、清華大学 Yao クラスの上級学部生です。彼は、今年の人気の EMNLP 受理論文 SimCSE の共同筆頭著者でもあります。 論文アドレス: https://arxiv.org/pdf/2104.08821.pdf この論文の責任著者は、清華大学学際情報科学学院の助教授であり、Recurrent AI の共同創設者でもある Yang Zhilin 氏です。同氏は、Transformer-XL、XLNet、HotpotQA など、NLP 分野で人気の高い多くの研究を行ってきました。 論文の他の2人の著者、鄭 延安氏と楊 暁崇氏も清華大学の出身です。鄭 延安氏は、今年初めに発表された待望の『P-tuning (GPT Understands, Too)』の共著者です。 論文アドレス: https://arxiv.org/pdf/2103.10385.pdf |
<<: 2021年11月のドローン業界の最新動向を3分で振り返る
>>: ファーウェイが「天才少年」の業績を初めて明らかに:彼は入社から1年も経たないうちにこの偉業を成し遂げた
こんにちは、皆さん。私は Luga です。今日は、人工知能 (AI) エコシステムに関連するテクノロ...
時代の発展とテクノロジーの進歩に伴い、人工知能の分野も革新を繰り返しています。しかし、この神秘的な業...
統合ストリームとバッチサンプルの生成プロセスを明らかにし、Hudiカーネルの最適化と変換を共有し、デ...
ビッグデータと AI の活用により、患者が生成する膨大な量の情報の処理と分析が大幅に容易になりました...
今日、タイムクリスタルは再び新しいスターを迎え、Sceinceサブマガジンに登場しました。 タイムク...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
テクノロジーの世界を永遠に変えたかもしれない GenAI チャットボットである OpenAI の C...
人工知能は組織内で大きな変化をもたらしますが、変化とともに、AI が仕事を奪ってしまうのではないかと...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
農作物の保護から電力検査、映画やテレビの撮影から消防救助、緊急通信から交通検査まで、ドローンの活用が...
7月19日、MetaとMicrosoftは協力して、研究や商用目的で無料で使用できるMetaの次世代...
この記事では、花、車、猫、馬、人、自転車、犬の 7 種類の何千もの画像でトレーニングされ、特定の画像...