BERT や GPT などの大規模な事前トレーニング済みモデル (PTM) は近年大きな成功を収め、人工知能の分野におけるマイルストーンとなっています。複雑な事前トレーニングの目的と巨大なモデルパラメータにより、大規模な PTM は大量のラベル付きデータとラベルなしデータから効果的に知識を獲得できます。知識を巨大なパラメータに格納し、特定のタスクに合わせて微調整することで、巨大なパラメータに暗黙的にエンコードされた豊富な知識がさまざまな下流のタスクに役立ちます。現在、AI コミュニティでは、モデルをゼロから学習するのではなく、下流のタスクのバックボーンとして PTM を採用することがコンセンサスとなっています。 本稿では、清華大学コンピュータ科学技術学部、中国人民大学情報科学技術学院などの学者数名が、事前学習モデルの歴史、特に転移学習や自己教師学習との特殊な関係について詳細な研究を行い、AI発展マップにおけるPTMの重要な位置を明らかにした。 論文アドレス: http://keg.cs.tsinghua.edu.cn/jietang/publications/AIOPEN21-Han-et-al-Pre-Trained%20Models-%20Past,%20Present%20and%20Future.pdf 清華大学の教授であり、WuDao プロジェクトの責任者である Tang Jie 氏は、次のように述べています。「この 40 ページ以上に及ぶ事前トレーニング モデルのレビューは、基本的に技術的な観点から事前トレーニングの詳細を明らかにしています。」 さらに、この研究では、PTM における最新の進歩についてもレビューします。コンピューティング能力の急激な向上とデータの可用性の向上によって可能になったこれらのブレークスルーは、現在、効果的なアーキテクチャの設計、豊富なコンテキストの活用、計算効率の向上、説明と理論分析の実施という 4 つの重要な方向で開発されています。最後に、本研究では、PTM に関する一連の未解決の問題と研究の方向性について議論し、それらの見解が PTM に関する将来の研究に刺激を与え、促進することを期待しました。 大規模な PTM の使用により、言語理解および言語生成タスクのパフォーマンスが大幅に向上しました。 図(a)は近年の言語モデルに関する論文数を示しており、図(b)は近年のNLP PTM適用後のモデルサイズとデータサイズの増加傾向を示しています。 背景 PTM は最近研究者の注目を集めていますが、事前トレーニングは新しい機械学習ツールではありません。実際、機械学習のパラダイムとしての事前トレーニングは長年にわたって開発されてきました。このセクションでは、初期の教師あり事前学習から現在の自己教師あり事前学習まで、AI 分野における事前学習の発展を紹介し、PTM の背景を理解するのに役立ちます。 転移学習と教師付き事前トレーニング 初期の事前トレーニング研究では、主に転移学習が取り上げられました。転移学習の研究は、人々が以前に学習した知識に頼って新しい問題を解決し、より良い結果を達成できるという考えに基づいています。より正確に言えば、転移学習は複数のソースタスクから重要な知識を抽出し、その知識をターゲットタスクに適用することを目的としています。 転移学習では、ソースタスクとターゲットタスクのデータドメインとタスク設定がまったく異なる場合がありますが、これらのタスクを処理するために必要な知識は一貫しています。一般的に、転移学習では特徴転移とパラメータ転移という 2 つの事前トレーニング方法が広く検討されています。 ある程度、特性移行とパラメータ移行は PTM の基礎となります。単語埋め込みは特徴転送フレームワークに基づいて構築され、NLP タスクの入力として広く使用されています。 自己教師あり学習と自己教師あり事前トレーニング 図 4 に示すように、転移学習は、帰納的転移学習、トランスダクティブ転移学習、自己学習、教師なし転移学習の 4 つのサブ設定に分けられます。 これら 4 つの設定のうち、帰納的設定と変換的設定は、教師ありソース タスクからターゲット タスクに知識を転送することを目的としているため、研究の中核となります。 自己教師あり学習と教師なし学習には、設定において多くの類似点があります。ある程度、自己教師あり学習は教師なし学習の分野と見なすことができます。なぜなら、どちらもラベルのないデータを扱うからです。ただし、教師なし学習は主にデータ内のパターンの検出 (クラスタリング、コミュニティの発見、異常検出など) に重点を置いているのに対し、自己教師あり学習は依然として教師あり設定のパラダイム (分類や生成など) にとどまっています。 自己教師あり学習の発達により、大規模な教師なしデータでの事前トレーニングが可能になります。ディープラーニング時代のCVの基礎である教師あり事前学習と比較して、自己教師あり事前学習はNLPの分野で大きな進歩を遂げました。 NLP タスクの PTM の最近の進歩により、Transformer ベースの PTM は NLP タスクのバックボーンとしてのパイプライン標準になりました。 NLP における自己教師あり学習とトランスフォーマーの成功に触発されて、一部の研究者は CV タスクのための自己教師あり学習とトランスフォーマーを研究してきました。これらの初期の取り組みにより、自己教師あり学習とトランスフォーマーが従来の教師あり CNN よりも優れていることが示されました。 トランスフォーマーと表現型PTM 論文の第 3 部では、主要な基本ニューラル アーキテクチャである Transformer から始まり、事前トレーニングの目標としてそれぞれ自己回帰言語モデリングとオートエンコーダ言語モデリングを使用する 2 つの画期的な Transformer ベースの PTM、GPT と BERT を紹介します。このセクションの最後には、GPT と BERT 以降の典型的な変種を簡単にレビューし、PTM の最新の開発状況を明らかにします。 トランス Transformer 以前は、RNN は長い間、シーケンス データ、特に自然言語を処理するための典型的なニューラル ネットワークでした。 RNN と比較すると、Transformer は、自己注意メカニズムを適用して入力シーケンス内のすべての単語間の相関関係を並列にモデル化するエンコーダー/デコーダー構造です。 Transformer のエンコードおよびデコードフェーズでは、Transformer の自己注意メカニズムによって、すべての入力単語の表現が計算されます。下の図 5 は、自己注意メカニズムが「Jack」と「he」間の参照関係を正確に捉え、最高の注意スコアをもたらした例を示しています。 Transformer は、その優れた特性により、徐々に自然言語の理解と生成のための標準的なニューラル アーキテクチャになりました。 GPT GPT は、最新の Transformer アーキテクチャと自己教師あり事前トレーニング目標を組み合わせた最初のモデルです。実験では、GPT が自然言語推論、質問応答などを含むほぼすべての NLP タスクで顕著な成功を収めていることが示されています。 GPT の事前トレーニング段階では、各単語の条件付き確率が Transformer によってモデル化されます。下の図 6 に示すように、GPT は各単語に対して、前の単語にマルチヘッド自己注意操作を適用し、位置ベースのフィードフォワード層を通じてその確率分布を計算します。 バート BERT の出現は PTM 分野の発展も大きく促進しました。理論的には、GPT とは異なり、BERT は双方向のディープ Transformer を主な構造として使用します。また、BERT を特定のタスクに適応させるための 2 つの別々の段階、つまり事前トレーニングと微調整があります (下の図 7 を参照)。 事前トレーニング後、BERT は下流のタスクに対して堅牢なパラメータを取得できます。 GPT の後、BERT は SQuAD (人間のパフォーマンスを上回る)、GLUE (絶対改善率 7.7%)、MNLI (絶対改善率 4.6%) など、17 種類の NLP タスクでさらに大幅な改善を達成しました。 GPTとBERTの後 GPT と BERT に続いて、RoBERTa や ALBERT などの改良モデルも登場しました。 下の図8に示すように、ラベルなしデータからより適切に知識を獲得するために、RoBERTaやALBERT以外にも近年さまざまなPTMが提案されています。いくつかの研究では、モデル アーキテクチャが改善され、XLNet、MASS、SpanBERT、ELECTRA などの新しい事前トレーニング タスクが検討されました。 効果的なアーキテクチャの設計 この部分では、BERT 後の PTM についてさらに詳しく説明します。 Transformer ベースの PTM の成功は、自然言語やその他のシーケンス モデリングのためのさまざまな新しいアーキテクチャに影響を与えました。一般的に言えば、言語事前トレーニング用の BERT Transformer 以降のすべてのアーキテクチャは、統合シーケンス モデリングと認知にインスパイアされたアーキテクチャという 2 つの目的に分類できます。さらに、本論文の第 3 章では、主に自然言語理解の向上に焦点を当てたその他の重要な BERT のバリエーションについて簡単に説明します。 統一シーケンスモデリング 研究者たちは、さまざまな新しいアーキテクチャが、さまざまな種類の言語タスクを単一の PTM に統合しようとしていることを発見しました。この論文では、これらの開発について説明し、それが自然言語処理の統一にどのようなインスピレーションをもたらすかを探ります。 XLNet (Yang et al., 2019) や MPNet (Song et al., 2020) などの自己回帰モデリングとオートエンコーダモデリングを組み合わせます。順列言語モデリングに加えて、もう 1 つの方向性は、UniLM (Dong et al.、2019) などのマルチタスク トレーニングです。最近、GLM(Du et al.、2021)は、自己回帰と自己エンコードを組み合わせるよりエレガントな方法を提案しました。 一般化されたエンコーダー/デコーダーを適用するモデルとしては、MASS (Song et al., 2019)、T5 (Raffel et al., 2020)、BART (Lewis et al., 2020a) のほか、PEGASUS (Zhang et al., 2020a) や PALM (Bi et al., 2020) などの一般的な seq2seq タスクで指定されるモデルがいくつかあります。 認知にインスパイアされた建築 人間レベルの知能を追求するには、意思決定、論理的推論、反事実的推論、作業記憶などの認知機能のマクロアーキテクチャを理解することが重要です (Baddeley、1992)。この論文では、維持可能な作業記憶と持続可能な長期記憶に焦点を当て、認知科学に触発された新たな試みについて概説しています。 メンテナンス可能なワーキングメモリ。Transformer-XL (Dai et al., 2019)、CogQA (Ding et al., 2019)、CogLTX (Ding et al., 2020) などの Transformer ベースのアーキテクチャが含まれます。 持続可能な長期記憶。 REALM (Guu et al., 2020) は、Transformer 用の持続可能な外部メモリを構築する方法を探求する先駆者です。 RAG(Lewis et al.、2020b)は、マスクの事前トレーニングを自己回帰生成に拡張します。 その他のPTMバリアント 現在の研究のほとんどは、シーケンス モデリングの統一と認知にヒントを得たアーキテクチャの構築に加えて、BERT のアーキテクチャを最適化して自然言語理解における言語モデルのパフォーマンスを向上させることに重点を置いています。 一連の研究は、ある種のデータ拡張 (Gu et al., 2020) と見なすことができるマスキング戦略の改善を目的としており、その中には SpanBERT (Joshi et al., 2020)、ERNIE (Sun et al., 2019b,c)、NEZHA (Wei et al., 2019)、Whole Word Masking (Cui et al., 2019) などがあります。 もう一つの興味深いアプローチは、マスク予測の目的をELECTRA(Clark et al.、2020)などのより困難な目的に変更することです。 複数のソースからのデータの活用 このセクションでは、多言語 PTM、マルチモーダル PTM、知識強化 PTM など、複数ソースの異種データを活用する一般的な PTM をいくつか紹介します。 多言語事前トレーニング 大規模な英語コーパスでトレーニングされた言語モデルは、多くのベンチマークで大きな成功を収めています。しかし、私たちは多言語の世界に住んでおり、各言語ごとに大規模な言語モデルをトレーニングすることは、必要なコストとデータ量を考えると最適なソリューションではありません。したがって、単一言語表現ではなく多言語表現を学習するようにモデルをトレーニングする方が、より良いアプローチになる可能性があります。 BERT 以前にも、多言語表現を研究した研究者がいました。多言語表現を学習するには、主に 2 つのアプローチがあります。1 つはパラメータ共有による学習で、もう 1 つは言語に依存しない制約を学習することです。どちらのアプローチでも、モデルを多言語シナリオに適用できますが、特定のタスクに限定されます。 BERT の出現は、一般的な自己教師タスクで事前トレーニングし、その後特定の下流タスクで微調整することが可能であることを示しています。これにより、研究者は、多彩な機能を備えた多言語モデルを事前トレーニングするためのタスクを設計するようになります。タスクの目的に応じて、多言語タスクは理解タスクと生成タスクに分けられます。 いくつかの理解タスクは、まず非並列多言語コーパス上で多言語 PTM を事前トレーニングするために使用されます。しかし、MMLM (多言語マスク言語モデリング) タスクでは、並列コーパスをうまく活用できません。 TLM(翻訳言語モデリング)に加えて、Unicoder(Huang et al.、2019a)、ALM(Yang et al.、2020)、InfoXLM(Chi et al.、2020b)、HICTL(Wei et al.、2021)、ERNIE-M(Ouyang et al.、2020)など、並列コーパスから多言語表現を学習するための効果的な方法がいくつかあります。 さらに、本研究では、MASS(Song et al、2019)やmBART(Liu et al、2020c)などの多言語PTMの生成モデルについても広範囲に調査しました。 マルチモーダル事前トレーニング 画像テキスト PTM に基づいて、現在のソリューションはビジョン言語 BERT を使用することです。 ViLBERT (Lu et al, 2019) は、画像と言語を学習するためのタスクに依存しない共同表現モデルです。 MLM、文と画像のアライメント (SIA)、マスク領域分類 (MRC) の 3 つの事前トレーニング タスクを使用します。一方、VisualBERT (Li et al、2019) は BERT アーキテクチャを拡張します。 一部のマルチモーダル PTM は、VQA などの特定のタスクを解決するように設計されています。 B2T2 (Alberti et al, 2019) は、主に VQA に焦点を当てたモデルです。 LP (Zhou et al, 2020a) は、VQA と画像キャプションに重点を置いています。さらに、UNITER(Chen et al、2020e)は、2つのモダリティ間の統一された表現を学習します。 OpenAI の DALLE (Ramesh 他、2021 年) と清華大学および BAAI の CogView (Ding 他、2021 年) は、条件付きゼロショット画像生成に向けて大きな一歩を踏み出しました。 最近、CLIP(Radford et al.、2021)とWenLan(Huo et al.、2021)は、V&L事前トレーニング用のネットワーク規模のデータの拡張を検討し、大きな成功を収めました。 強化された知識の事前トレーニング 構造化された知識の典型的な形式はナレッジグラフです。多くの研究では、エンティティと関係の埋め込み、またはそれらのテキストとの配置を統合することによって PTM を強化しようとしています。 Wangら(2021)は、言語モデルの損失と知識埋め込みの損失を組み合わせて、Wikidataエンティティ記述の事前トレーニング済みモデルに基づく知識強化表現を取得しました。興味深い試みはOAGBERT(Liu et al., 2021a)であり、これはOAG(オープンアカデミックグラフ)(Zhang et al., 2019a)の異種構造知識を統合し、7億の異種エンティティと20億の関係をカバーします。 構造化された知識と比較すると、非構造化知識はより完全ですが、ノイズも多くなります。 第6章から第8章の要約 コンピューティング効率の向上 研究者らは、次の 3 つの側面からコンピューティング効率を向上させる方法を紹介しました。
説明と理論的分析 研究者らは、さまざまな NLP タスクにおける PTM の優れたパフォーマンスを紹介するだけでなく、PTM の仕組みを理解し、PTM によって捕捉されたパターンを明らかにするなど、PTM の動作についても時間をかけて説明しました。彼らは、PTM のいくつかの重要な特性 (知識、堅牢性、構造的スパース性/モジュール性) を調査し、PTM の理論的分析における先駆的な研究をレビューしました。 PTMの知識に関して、PTMによって捕捉される暗黙の知識は、言語知識と世界知識の2つのカテゴリーに大別できます。 PTM の堅牢性に関しては、研究者が実際のアプリケーションに PTM を導入する場合、堅牢性が深刻なセキュリティ上の脅威になります。 今後の方向性 最後に、研究者らは、既存の研究に基づいて、PTM は将来的に以下の側面でさらに発展できる可能性があると指摘しました。
実際、研究コミュニティは上記の方向に多大な努力を払い、最近いくつかの進歩を遂げています。しかし、まだ解決すべき問題がいくつか残っていることに注意する必要があります。 詳細については原文論文を参照してください。 |
<<: スマートウォッチからスマートコンタクトレンズまで、ウェアラブルデバイスはどのように進化しているのでしょうか?
>>: 面接で使えるEslintのFix機能に隠されたアルゴリズムの質問
人工知能 (AI) は未来だと言う人もいれば、AI は SF だと言う人もいれば、AI は私たちの日...
伝説のゲーム開発者ジョン・カーマック氏は、2030年頃に汎用人工知能(AGI)が登場する可能性がある...
[[356945]]人工知能技術の急速な発展により、SF映画のシーンが現実のものとなった。メディアの...
論文リンク: https://arxiv.org/pdf/2309.08504.pdfコードリンク:...
最近、2021年世界ロボット大会が北京で盛大に開幕しました。ロボット分野の最先端技術と最新の成果が展...
動画生成AIはここまで進化したのか? !写真をスワイプするだけで、選択したターゲットが動きます。明ら...
最近の調査によると、毎日 9,300 万枚の自撮り写真がソーシャル メディアに投稿されており、Ins...
SQL 結合を最適化する方法は、データベース コミュニティが何十年にもわたって研究してきた大きな問題...
過去 2 年間で、ChatGPT は急速に広まりました。過去 6 か月間で、多くの企業が生成 AI ...