ディープラーニングの急速な発展に伴い、テキスト分類、感情分析など、学術界では毎年多くの高品質な注釈付きデータセットが公開されています。同時に、産業界もさまざまなタスク指向の注釈付きデータを蓄積していきます。注釈付きデータに保存されている特定のタスク知識を事前トレーニング済みモデルに注入し、それによってそのようなタスクの有効性を全体的に向上させる方法は、重要な研究方向となっています。 この記事は、まず事前学習済みモデルの 2 つの典型的なパラダイムの紹介から始まり、次に事前学習済み言語モデルが学習する知識と、事前学習済みモデルに知識を注入する方法に焦点を当てます。次に、事前学習済み対話モデルと、DAMO アカデミー会話インテリジェンス チームの半教師あり事前学習済み対話モデルの進歩に焦点を当て、最後に将来の研究の方向性を展望します。 1. 事前学習済み言語モデルの2つの主要なパラダイム1.1. 教師あり事前トレーニングニューラル ネットワーク モデルの事前トレーニングは、ディープラーニングにおいて常に注目されているトピックです。最も古い研究は、2006年にヒントン教授が提案した制限付きボルツマンマシン最適化に基づく貪欲アルゴリズムに遡ります[2]。この方法では、ラベルなしデータを使用してディープビリーフネット(DBN)をレイヤーごとに初期化し、より深いネットワークが下流のタスクにも迅速に収束できるようにします。ビッグデータの台頭とコンピューティング能力の向上により、大規模で関連性の高いラベル付きデータセットに対して直接教師あり事前トレーニングを実行し、その後、特定の下流タスクに対して転移学習を実行すると、より強力なパフォーマンスが得られることが徐々に発見されました。一般的なアプローチは、VGGやResNetなどの超深層モデルを使用してImageNetで事前トレーニングし、画像分類の専門家によって注釈が付けられた大量の経験的知識をモデルのパラメータに注入して、ターゲット追跡や画像セグメンテーションなどの他の関連タスクの学習にうまく適応することです。 1.2. 自己教師あり事前トレーニング過去1、2年で、事前学習済み言語モデルの台頭に伴い、大規模な自己教師事前学習のために、ラベルなしデータに対する識別モデルの教師付き損失関数を自己教師を使用して構築することが新しい主流となっている。たとえば、自然言語処理の分野では、BERTはコンテキストベースの単語トークン予測を使用して優れた自然言語表現を学習し、その有効性は多数のNLPタスクで検証されている[3]。コンピュータービジョンの分野では、ViTに基づく一連の最近の研究[4]でも、BERTに似たトランスフォーマー構造を使用して画像パッチ再構築を事前学習し、それによって優れた画像表現を学習し、imagenet-1Kなどの画像分類データセットで大幅な改善を達成した。 レビュー[5]では、清華大学の研究者は転移学習の観点から、既存の2つの事前トレーニングパラダイムを統一的に検討しました。下の図1に示すように、教師あり事前トレーニングであれ自己教師あり事前トレーニングであれ、最終的な目標は、データから直接より合理的な分散表現を学習し、それをより適切に転送して特定の下流タスクに適応させることです。 図1: ニューラルネットワークの事前学習の2つの主要なパラダイム(レビュー[5]より引用) まとめると、2 つのパラダイムにはそれぞれ長所と短所があります。教師あり事前トレーニングではラベル付けされたデータのガイダンスがあるため、学習した特徴は特定の関連する下流タスクにより適していますが、手動のラベル付けに大きく依存しています。一方、自己教師あり事前トレーニングでは手動のラベル付けに制限されず、大量のラベルなしデータを学習に使用できますが、設計された損失関数は一般に、LM 損失、MLM 損失、対照損失などの単純で一般的なものである必要があり、これにより、大規模なモデルはより普遍的な意味表現を学習します。 2. 事前トレーニング済みの言語モデルは何を学習しましたか?2.1. モデルの知識検出現在の動向から判断すると、BERT に代表される自己教師あり事前トレーニングが主流の研究となっている。論文[6]では、知識検出を使用して、BERTモデルの各層の注意重みの関係を深く調査しました(図2を参照)。異なる層の異なる注意ヘッドは、異なる言語機能に敏感であることがわかりました。たとえば、いくつかの注意ヘッドは定冠詞で修飾された名詞に敏感であり、いくつかは受動態にもっと注意を払い、いくつかはある程度の長距離共参照解決を達成します。 図2: BERTの異なるアテンションヘッドの重みの分析([6]より引用) 事前トレーニングの本質は、トレーニングデータに含まれる情報を、モデルが理解できる方法でパラメータに暗黙的に格納することです[5]。多くの研究により、BERTなどの事前トレーニング済みモデルは、より優れた言語知識(構文、文法)だけでなく、ある程度の世界知識や常識知識も学習できることが示されています[7][8][9]。しかし、事前トレーニング済みモデルが人間の経験や知識をより良く学習し活用するにはまだ多くの問題があり、より良くモデル化する方法、より効果的に事前トレーニングする方法、知識の統合度合いを評価する方法など、さらなる研究と探求が必要です。 2.2. 人間の経験的知識ここでは、人間の経験に関する知識を大まかに 3 つのカテゴリに分類します。
3. 人間の注釈知識をどのように注入するか?現在、さまざまな事前トレーニング済みモデルが利用可能ですが、モデルに注釈知識を注入する方法は、まだ十分に検討されていない方向性です。初期の研究では、GoogleのT5 [16]は、ラベル付きデータとラベルなしデータを統合して学習用の言語生成タスクを実行しようとしましたが、実験では、ラベル付きデータとラベルなしデータを単純に混合してトレーニングすると、悪影響が出る可能性があることが示されています。 多くの実験的調査を行った結果、元の 2 つの事前トレーニング パラダイムに依存していると、事前トレーニングを適切に実行することが難しいことがわかりました。まず、自己教師あり事前学習または教師あり事前学習のみを使用して、ラベル付き事前学習データとラベルなし事前学習データの両方を有効活用することは不可能です。自己教師あり損失関数だけでは、ラベル付き知識の高レベルの意味を学習できず、教師あり損失関数では、ラベルなしコーパスの共通の基盤となる意味を学習できないためです。次に、大規模な事前学習では、使用される事前学習データには、少量のラベル付きデータと大量のラベルなしデータの間に量的なギャップがあることが多いため、2 種類の事前学習を単純に混合すると、ラベル付き知識の情報がラベルなしデータに埋もれてしまうか、深刻な過剰適合が発生します。したがって、この問題を解決するには、新しい事前学習パラダイムが必要です。 ここでは、半教師あり事前トレーニングを提案します。図 3 に示すように、転移学習の観点から見ると、半教師あり事前トレーニングは最初の 2 つのパラダイムの自然な拡張と考えることができます。半教師あり学習の損失関数を構築することで、限られたラベル付き知識と大量のラベルなしデータを最大限に活用します。半教師あり学習理論[17]では、モデルはラベルなしデータに対して自己推論を実行し、その結果に基づいて最適化をさらに制約する必要があります。また、ラベル付きデータを使用してある程度の監督を行い、自己教師あり事前トレーニングプロセスをガイドし、モデルパラメータが自明な解決策に陥るのを回避する必要があります。 図3: 半教師あり事前学習の新しいパラダイム 私たちのチームは会話型AIに焦点を当てているため、半教師あり事前学習のアイデアを会話分野に初めて適用し、半教師あり事前学習会話モデルを提案しました。MultiWozなどの国際的な古典的な会話データセットで大幅な改善を達成し、私たちの論文はAAAI2022に採択されました[1]。次に、事前学習済み対話モデルとは何かを簡単に紹介し、その後、半教師あり事前学習済み対話モデルに焦点を当てます。 4. 事前学習済み対話モデル事前トレーニング済み言語モデル (PLM) は、どのような文章が自然言語に近いかを答える必要があります。一方、事前トレーニング済み会話モデル (PCM) は、会話履歴を考慮すると、どのような応答がより合理的かを答える必要があります。そのため、事前学習済み対話モデルは事前学習済み言語モデルよりもタスク特化型であり、事前学習済み言語モデルがあまり考慮しない対話ターン、対話役割、対話戦略、タスク目標などの特徴を総合的に考慮する必要があります。図4は、対話の固有の属性の概要を示しています。 図4: ダイアログ固有のプロパティの概要 現在、事前学習済み対話モデルのモデリングは、基本的に対話理解と対話生成という2つの主要なタスクカテゴリに基づいており、BERTやGPT-2と同様の損失を使用して対話コーパスに対して事前学習が行われています。例えば、会話理解の一般的なモデルとしては、PolyAIのConvRT [20]、SalesforceのTOD-BERT [21]、AmazonのConvBERT [31]などが挙げられ、対話生成の一般的なモデルとしては、MicrosoftのDialoGPT [18]、GoogleのMeena [19]、FacebookのBlender [30]などが挙げられます。ただし、これらのモデルのいずれにも注釈知識は組み込まれていません。 5. 半教師あり事前学習モデリングソリューション私たちのターゲット評価ベンチマークは、Cambridge MultiWOZ2.0 や Amazon MultiWOZ2.1 などの従来の対話データセットです。このタスクでは、ユーザーの意図認識、対話戦略の選択、応答生成を実行するための対話モデルを構築する必要があります。下流タスクモデルについては、既存のエンドツーエンド対話モデルUBAR [24]を直接使用し、その一般的なGPT-2モデルベースをSPACEモデルベースに置き換え、同じ設定で評価を実施しました。 5.1. 対話戦略の知識対話戦略は対話プロセスにおける重要なモジュールであり、一般的には対話アクションラベル (DA) によって特徴付けられます。つまり、2 者間の対話履歴に基づいて、対話戦略は適切な対話アクションを選択し、対話の生成を導く必要があります (図 5)。現在、Meena や DialoGPT などのさまざまな一般的な事前トレーニング済み対話モデルでは、対話アクションの選択プロセスがモデル パラメータに暗黙的にモデル化されることが多く、説明不能や制御不能などの問題があります。この戦略は高レベルのセマンティクスであるため、自己監督のみを使用して適切に学習することは困難です。したがって、対話戦略のモデリングから始めて、ラベル付きデータ内の対話戦略の知識を事前トレーニング済みの対話モデルに統合し、より優れた事前トレーニングを実現するために半教師あり手法を使用することを提案します。 図5: 完全な会話プロセス 要約と分析の後、ISO国際対話アクション標準[25]からタスクベースの対話で最も頻繁に使用される20の対話アクションセットを要約し(図6を参照)、複数の既存の対話データセットを整理して統合しました。手動での整列と削除の後、最大の英語タスク対話アクション注釈データセットUniDA(合計97万ラウンド)を作成しました。同時に、さまざまな公開フォーラム、オープンソースベンチマーク、その他のチャネルから高品質の英語の非標準化対話コーパスUnDial(合計3500万ラウンド)を収集して処理しました。詳細については論文[1]を参照してください。 図6: 英語対話UniDAシステム 5.2. 戦略的知識の注入本論文では、対話戦略のモデリング問題を解決するために半教師あり事前学習を使用し、対話行動予測タスクを半教師あり学習タスクに変換し、設計することを提案する。 空間 このシリーズの最初の事前トレーニング済みモデルはSPACE 1.0(AAAI論文[1]ではGALAXYモデルとしても知られています)です。 具体的には、SPACE1.0 はエンコーダー + デコーダー アーキテクチャを採用しています。事前トレーニングの目標には、対話理解と対話生成をモデル化する従来の自己教師あり損失と、対話戦略をモデル化する半教師あり損失の両方が含まれます。完全なフレームワークを図 7 に示します。 図7: 半教師あり対話事前学習フレームワーク まず、対話理解のために、応答選択を事前トレーニングの目的として使用します(図7の右側に示すように)。つまり、対話コンテキストと候補応答が与えられた場合、[CLS]でバイナリ分類を実行して、それが正しい応答であるかどうかを判断します。多くのPCM研究[20][21]では、訓練応答の選択が対話理解にとって非常に重要であることが実証されているため、我々はこの目的を維持します。 対話生成では、対話コンテキストを与えられた場合に正しい応答文を生成するという共通の応答生成目標を使用しました (図 7 の左側を参照)。 図8: Rドロップに基づく一貫性正規化損失 対話ポリシーには、半教師あり学習で非常に効率的な一貫性正規化法を使用して対話アクションをモデル化します。理論的には、低密度仮定(つまり、分類境界が低密度分布にある)の下では、同じサンプルを摂動した後の分類結果には依然としてある程度の一貫性(つまり、分布が近い、または予測結果が近い)があることが証明されているため、一貫性正則化に基づく半教師あり学習によって最終的に正しい分類面が見つかることを保証できます[23]。対話戦略の特定の損失関数は次のように構成されます。
最後に、モデルの事前トレーニングでは、モデル全体の理解、戦略、生成の目標をまとめて最適化します。詳細については論文[1]を参照してください。 6. 半教師付き事前トレーニングは大きな効果がある我々は、スタンフォード大学のIn-Car [28]、ケンブリッジ大学のMultiWOZ2.0 [26]、AmazonのMultiWOZ2.1 [27]という3つの国際的な会話データセットでこのアプローチの有効性を検証した。最も早く提案されたのは In-Car データセットです。これは車内の音声会話データで、合計約 3,000 件の完全な会話と比較的簡単な難易度を備えています。MultiWOZ2.0 は現在、最大規模で最も難しく、最も広く使用されているタスクベースの会話データセットで、レストランやホテルの予約など、7 つのシナリオにわたる 10,000 件の完全な会話が含まれています。 MultiWOZ2.1 は、MultiWOZ2.0 に基づいて手動で注釈が付けられ、修正されたデータセットです。 図 9 に示すように、ポリシー知識を半教師あり事前トレーニングに組み込んだ後、SPACE1.0 モデルはこれらの対話リストで以前の SOTA モデルを大幅に上回り、エンドツーエンドのハイブリッド スコアが In-Car、MultiWOZ2.0、MultiWOZ2.1 でそれぞれ 2.5、5.3、5.5 ポイント増加していることがわかります。 図9: 各データセットの全体的なエンドツーエンドスコアの比較 上記の結果は、半教師あり事前トレーニングの有効性を十分に実証しています。同時に、トレーニング リソースが少ない状況でも実験を実施し、異なるトレーニング データ比率を使用した場合でもモデルのパフォーマンスが大幅に向上することがわかりました。図10に示すように、SPACE1.0モデルは、トレーニングデータの5%のみを使用した場合に全トレーニングデータの100%を使用するGPT-2ベースの対話モデルSimpleTODに匹敵し、トレーニングデータの10%のみを使用した場合に全トレーニングデータを使用するT5ベースの対話モデルMinTLを直接上回ります。 図10: 低リソーストレーニングにおけるエンドツーエンドのスコア結果の比較 また、ケース分析も行いました。図11から、以前のSOTAモデルと比較して、SPACE1.0モデルはより正確な対話アクションを予測できることがわかります。したがって、合理的な対話戦略は、全体的なエンドツーエンドのタスク完了効果を向上させることができます。 図11: ケーススタディ SPACE1.0 モデル (GALAXY) は、MultiWOZ 公式サイトで依然として 1 位にランクされています。結果のスクリーンショットを以下に示します。 7. まとめと展望この研究では主に、半教師あり事前トレーニングを通じて特定の人間の注釈知識を大規模モデルに注入し、モデルが下流のタスクにさらに顕著な効果をもたらす方法を紹介します。以前の半教師あり学習と比較して、私たちの焦点は、ラベル付きデータの量への依存を減らす方法ではなく、下の図 12 に示すように、特定のラベル付き知識をより効率的に組み込む方法にあります。 写真 12: 下流トレーニングから事前トレーニングまで半教師あり学習を拡張する その後の作業では、このパラダイムをさまざまな NLP タスクにさらに拡張し、実用的な半教師あり事前トレーニング SPACE モデル システムを作成する方法が、継続的に検討される必要がある方向性です。これには以下が含まれます。
事前トレーニング済みモデルの作成は、強力な AI コンピューティング パワーのサポートと切り離せません。SPACE モデルの開発は、Alibaba Cloud EFLOPS チームが提供する効率的なコンピューティング パワー サービスの恩恵も受けています。ここに感謝の意を表したいと思います。 |
<<: 科学者はロボットに人間に近い触覚を与える人工指先を開発
>>: 自己一貫性を利用して大規模モデルの推論能力を向上させたGoogleは、ベンチマークの数学問題の75%を解決しました。これはGPT-3よりも20%高い数値です。
[[333418]] PyTorch 1.6 ナイトリーでは、自動混合精度トレーニングをサポートす...
電子商取引であれ、インターネット広告であれ、直接ユーザーと向き合うものであり、ユーザーの属性によって...
人工知能は転移学習を利用して、自然画像から抽出した特徴を利用してイラスト分類の精度を向上させます (...
モノのインターネットは私たちの日常生活を再構築するのに役立つテクノロジーですが、IoT がその可能性...
今週、OpenAIのビデオAIツール「Sora」が登場するや否や大きな話題を呼んだ。 「仕事を失う」...
[[253842]]人工知能はすでにトレンドです。スマートホテル、スマートインターネットカフェ、自...
2017年7月、国務院は「新世代人工知能開発計画」を発表し、人工知能が国家戦略の重要なツールとなって...
[[256519]] 2019年1月現在の人工知能の現状は?最近の調査では、AI の人気、測定可能な...
8月28日、国家エネルギー音声の公式WeChatアカウントによると、龍源電力工程技術有限公司は最近、...
規制は消費者と市場を保護するために導入されていますが、多くの場合、規制は複雑で、コストがかかり、遵守...