復旦大学データインテリジェンスおよびソーシャルコンピューティング研究所
本論文では、復旦DISC研究所が提案した多段階意味アラインメントに基づく多段階視覚言語事前トレーニングモデルMVPTRを紹介します。MVPTRは多段階視覚言語表現モデルおよび事前トレーニング方法です。画像とテキスト情報から異なるレベルの意味を表現することを明示的に学習し、異なる段階で異なるレベルの意味をアラインメントします。大規模な画像テキストペアコーパスで事前トレーニングされたMVPTRモデルは、画像テキスト検索、視覚言語質問応答、視覚推論、フレーズ参照表現などの下流視覚言語タスクで大きな進歩を遂げました。
この論文の動機視覚と言語は、人間の知能の重要な表現です。視覚とテキストからの情報を協調的に処理するために、近年の視覚言語に関するマルチモーダル研究では、画像テキスト検索、視覚言語質問応答 (VQA)、フレーズ表現などのさまざまなタスクからの視覚と言語の意味学習を調整することに重点を置いています。タスク間の障壁を打ち破り、一般化されたマルチモーダル表現を学習するために、研究者は、大規模な画像とテキストのペアで自己教師あり事前トレーニングを行った後に微調整することで下流のタスクで優れたパフォーマンスを達成できる視覚言語事前トレーニング モデル (VL-BERT、UNITER、OSCAR など) の構築を試みてきました。 現在の視覚言語事前トレーニング モデルのほとんどは、BERT のシーケンス モデリング メソッドに従っています。オブジェクト検出器、CNN、ビジュアル トランスフォーマーを介して画像からオブジェクト レベル、グリッド レベル、パッチ レベルの特徴を抽出し、それらをビジュアル シーケンスに連結し、単語を分割した後、テキスト シーケンスと連結してシーケンスを作成し、マルチ レイヤー トランスフォーマーを介してモーダル内およびモーダル間の相互作用を学習します。この方法は比較的直接的ですが、研究者は、この方法では、モーダル間情報間のマルチ レイヤーの意味粒度の調整の調査が不足していると考えています。 この研究では、画像とテキストの意味的一致を説明するために、画像とテキストのペアの例を示します。まず、モダリティ内のセマンティクスは階層的なネスト構造を持ちます。画像全体は多数のサブ画像で構成でき、各サブ画像には複数のオブジェクトを含めることができます。文の場合は多数のトークンに分割でき、複数のトークンでフレーズを形成できます。同時に、異なるレベル間の意味的な整合は相互に役立ちます。画像のタグ付けは、トークンを画像および画像内のオブジェクトと一致させ、これにより、単語を含むフレーズを画像内の領域と一致させ、フレーズグラウンディングのタスクを完了するのに役立ちます。オブジェクトとトークン、フレーズ、画像領域間の一致情報に基づいて、画像と文章の類似性をさらに推測し、画像テキスト検索タスクを完了できます。 そのため、複数レベルの意味的整合を相乗的に活用するために、Fudan DISC Lab の研究者は、多段階視覚言語事前トレーニング フレームワークである MVPTR を提案しました。 MVPTR はまず、テキストと画像からそれぞれ 2 つのレベルのセマンティクスを構築しました。画像の場合、この研究ではオブジェクト検出器を使用して地域の特徴を抽出し、予測されたオブジェクト カテゴリをオブジェクト レベルのセマンティクス概念として使用しました。テキストの場合、単語分割後のトークンに加えて、テキスト シーン グラフ パーサーを使用して、シーン グラフの構造化されたタプルをフレーズ レベルのセマンティクス概念として抽出しました。同時に、MVPTR モデルは、ユニモーダル学習とクロスモーダル学習の 2 つの段階に分かれています。ユニモーダル段階では、モデルはモダリティ内の相互作用を学習し、各モダリティの多層セマンティック表現を取得します。クロスモーダル段階では、モデルはモダリティ間の相互作用を学習し、きめ細かい推論を実行します。 MVPTR の事前トレーニングのために、この研究では、さまざまな段階でさまざまな自己教師タスクを設計し、マルチレベルの意味的アライメントを実行しました。ユニモーダル視覚面では、研究者らはMCR(マスクされた概念回復)を導入して、地域的特徴とオブジェクトレベルの概念を整合させました。クロスモーダル段階では、最初にVSC(視覚的意味的コントラスト)を使用して、グローバルな画像とテキストのユニモーダル表現を粗粒度で整合させ、次にWPG(弱教師ありフレーズグラウディング)を使用してフレーズレベルの概念と地域的特徴を整合させ、最後にITM(画像テキストマッチング)とMLM(マスクされた言語モデリング)を高レベルの意味的推論タスクとして使用しました。 約 900 万の画像とテキストのペアのコーパスで事前トレーニングすることにより、この研究の基本設定における MVPTR は、下流のタスクでより優れたパフォーマンスを発揮します。 方法の紹介MVPTR のモデル構造を下図に示します。 モデル入力図に示すように、各モダリティについて、多段階の意味を明示的に学習するために、研究者は異なる色で表された 2 つの入力部分を構築しました。この研究では、主に画像のキャプション作成タスクで使用されていた従来の方法にヒントを得て、概念の埋め込みを学習することで、他のレベルのセマンティクスを導入しました。 テキストについては、BERT の処理方法と同様に、まず単語セグメンターを使用してテキストを単語に分割し、次に既存のテキストシーングラフパーサー SPICE を使用してシーングラフに解析し、グラフ内の構造タプル (オブジェクト、属性オブジェクト、オブジェクト関係オブジェクト) をフレーズレベルの意味概念として扱います。この研究では、各フレーズ概念について、その中のすべての単語の平均埋め込みから初期化された埋め込み表現を個別に学習します。同時に、概念は一般化可能である必要があるため、この研究では事前トレーニング コーパスに 50 回以上出現するフレーズのみを考慮します。 画像については、この研究では固定オブジェクト検出器を使用して、画像から重要なオブジェクトのランドマークと対応する視覚的特徴を検出し、さらに線形レイヤーを通じて視覚的特徴とランドマーク座標を他の埋め込みと同じ次元にマッピングしました。同時に、各ボックスの対応するオブジェクト ラベルがオブジェクト レベルの概念として使用され、そのラベル ワードの埋め込みがこの概念の表現として使用されます。 ユニモーダル学習ユニモーダル学習段階では、MVPTR はビジュアル エンコーダーとテキスト エンコーダーのみを使用して、モーダル内インタラクションと表現を学習します。ビジュアル エンコーダーは、連結されたオブジェクト フィーチャ シーケンスとオブジェクト ラベル シーケンスを入力として受け取り、オブジェクト間の関係を学習し、オブジェクト フィーチャと対応するオブジェクト レベルの概念を揃えます。テキスト エンコーダーは、連結された単語シーケンスとフレーズ シーケンスを入力として受け取り、フレーズの構造情報を提供して、コンテキスト内のフレーズ レベルの概念をさらに学習します。 MCRカバーコンセプトの復元ビジュアル エンコーダーでは、入力ビジュアル シーケンスに、予測ラベルの形式でオブジェクト レベルの概念が含まれます。以前の代表的な研究であるオスカーは、そのような概念をアンカーとして使用して、オブジェクトの表現と単語を一致させるのに役立つと提案しました。アンカーポイントの役割をさらに強化するために、本研究では事前トレーニングタスクMCRを提案しました。 BERTのMLMタスクと同様に、研究者らは入力ラベルシーケンスの一部をランダムにマスクし、特殊文字[MASK]に設定するかランダムに置き換え、ビジュアルエンコーダーの出力に基づいて線形レイヤーを通じてマスクされた部分の元のラベルを予測しました。 MCR タスクは、弱い監督下での視覚的特徴とオブジェクトの概念の調整と見ることができます (特定のラベルを予測するには、対応するオブジェクトとラベルの関係を学習する必要があります)。MCR は画像タグ付けに似ており、領域の表現をさらに調整して、その後のクロスモーダルインタラクティブ学習に役立ちます。 クロスモーダル学習単一のモダリティ内での相互作用と表現を学習した後、第 2 段階では、モダリティ間の意味的な相互作用とアライメントを学習します。まず、粗粒度レベルで、VSC タスクを使用して、ユニモーダル エンコーダーによって取得されたグローバル表現と 2 つのエンコーダーの意味空間を整合させます。整合されたトークン、フレーズ、およびオブジェクトの特徴シーケンスは連結され、学習のためにマルチモーダル エンコーダーに入力されます。その後の事前トレーニング タスクでラベルから単語へのショートカットが生成されないようにするため、ラベル シーケンスは考慮されません。これは、真のクロスモーダル関係の学習に影響します。この段階では、WPG をさらに使用してオブジェクトの特徴とフレーズの表現を調整し、以前の表現に基づいて、ITM や MLM などの高レベルの推論タスクが完了します。 VSC 視覚的意味対照学習クロスモーダルエンコーダーを入力する前に、MVPTR は VSC を介して 2 つのモーダルエンコーダーの意味空間を揃えます。具体的なアプローチは、画像とテキストをグローバルレベルで大まかに揃える CLIP と ALBEF のトレーニング方法に似ています。 この研究では、画像とテキストのグローバル表現として、ビジュアルエンコーダとテキストエンコーダによって取得された「[CLS]」トークンの表現を使用し、2つのベクトル間のコサイン類似度を意味的類似度として使用します。 InfoNCE をトレーニング損失として使用すると、同じバッチ内の一致する画像とテキストのみが正のサンプル ペア (モデル図のコサイン類似度行列の対角部分に対応) になり、残りは負のサンプル ペアになります。 この研究では、グローバルな粗粒度アライメントを通じて、アライメントされた空間内のトークン、フレーズ、およびオブジェクトの特徴シーケンスを連結し、それらをクロスモーダルエンコーダーに入力します。 WPGの弱い監督下でのフレーズアライメントクロスモーダル学習段階では、フレーズ間のアラインメント関係をさらに明示的に学習しました。特定の画像領域とフレーズ間のマッチング関係を取得することは不可能であるため、研究者は学習にMVPTRの同様の既存の弱教師付きフレーズグラウンディング法を使用しました。 本研究では、共エンコードされた画像とテキストのペアごとに、クロスモーダルエンコーダによって取得されたn個のフレーズとm個のオブジェクト特徴の表現を考慮し、このようなn*m類似度マトリックスに対して、コサイン類似度を通じて各フレーズ領域間の意味的類似度を計算します。多様な例の学習に基づくこの方法では、画像全体におけるフレーズのマッチングスコアとして各フレーズに最も類似する領域を選択し、その後、すべてのフレーズを平均して、フレーズ領域マッチングに基づく画像テキストマッチングスコアを取得します。トレーニングプロセスの後半では、画像と文章のマッチングのスコアを使用することができる。 ALBEF 研究におけるこれまでの研究結果と同様に、この研究ではクロスモーダル エンコーダーの第 3 層で WPG をトレーニングしました。モデルは各レベルでのマッチングを完了すると、最終的に ITM や MLM などの高レベルの意味的推論タスクを完了します。 ITM画像とテキストのマッチング画像とテキストのマッチングは、視覚言語の事前トレーニング モデルでよく使用される事前トレーニング タスクです。基本的には、マルチモーダル シーケンス内の画像とテキストが一致するかどうかを判断するシーケンス関係の推論タスクです。 MVPTR では、クロスモーダル エンコーダーによって出力された CLS トークン機能を直接使用して、一致するかどうかの 2 カテゴリ スコアを予測する多層パーセプトロンを学習します。 ALBEF のアプローチと同様に、この研究では、ITM タスクを実行するために、VSC タスク出力の全体的な類似性に基づいて、トレーニング バッチからより困難な負のサンプルをサンプリングします。 MLM マスク言語モデル言語モデルのマスキングも、事前トレーニング モデルでよく使用されるタスクです。研究者は、量詞、形容詞、名詞、動作などの記述テキスト内のキーワードをマスキングして返信することは、本質的にさまざまな角度からの推論タスクであるため、本質的に推論タスクであると考えています。 MLM の設定は、他の事前トレーニング済みモデルと一致しています。トークンの一部をランダムにマスクまたは置き換え、モデル出力の表現を通じて元のトークンを予測するために多層パーセプトロンを学習します。 実験事前トレーニング設定まず、モデル構造については、本研究ではBERT-baseと同じパラメータ設定を採用した。ユニモーダルエンコーダは両方とも6層Transformerアーキテクチャであり、パラメータはBERT-baseの最初の6層から初期化される。クロスモーダルエンコーダも6層Transformerアーキテクチャであり、パラメータはBERT-baseの最後の6層から初期化される。 事前トレーニング データセットとして、MVPTR は VinVL と同じデータセット (MSCOCO、FLickr30k、GQA、Conceptual Captions、SBU、OpenImages など) を使用します。これらのデータセットには、合計約 500 万枚の画像と 900 万枚の画像とテキストのペアが含まれています。画像の特徴抽出のために、MVPTR は VinVL が提供するオブジェクト検出器を使用します。具体的なモデルとトレーニングパラメータの設定については、論文の紹介を参照してください。 この研究では、MSCOCO と Flickr30k の画像テキスト検索タスク、VQA v2 の視覚的質問応答タスク、SNLI-VE の視覚的推論タスク、RefCOCO+ のフレーズ表現タスクなど、複数のダウンストリームタスクで事前トレーニング済みの MVPTR を微調整しました。具体的な微調整方法とパラメータ設定については、記事とコードを参照してください。 次の図は、3 つのタスクの結果を示しています。 事前トレーニング済みの MVPTR では、MSCOCO および FLickr の画像テキスト検索タスクが大幅に改善されていることがわかります。これは、複数レベルのセマンティック アライメントによって、モデルが画像とテキストのグローバルな一致関係を学習できることを示しています。同時に、研究者らは、Flickr データセット (表 2 の下半分) で MVPTR のユニモーダル エンコーダーの意味アライメント能力を検証し、MVPTR のユニモーダル部分を他のユニモーダル エンコーダー ベースの方法 (この実験では、CLIP* は CLIP-ViT32 の微調整バージョン) と比較しました。結果から、追加の概念とオブジェクト概念アライメント タスク MCR を導入することで、MVPTR-Uni のパラメーター スケールが他の 2 つ (6 層と 12 層の Transformer アーキテクチャ) の半分しかないにもかかわらず、ユニモーダル部分は他の 2 つのモデル CLIP よりもさらに優れたパフォーマンスを発揮することがわかります。 クロスモーダル推論タスクでは、MVPTR は VQA よりも一定の改善が見られます。同時に、さまざまなカテゴリで MVPTR と VinVL のパフォーマンスを比較すると、MVPTR は VQA v2 の「その他」タイプの質問で優れたパフォーマンスを発揮し、VinVL はデジタル質問で優れたパフォーマンスを発揮します。 VinVL は物体検出ラベルに基づいて直接答えを予測するため、研究者らは、この方法はカウント問題にうまく使用できる一方で、MVPTR は推論を必要とする他の種類の問題を解決するためにクロスモーダル相互作用をよりよく学習できると推測しています。 SNLI-VE の視覚的含意タスクでは、テスト セットにおける MVPTR は ALBEF よりわずかに劣っています。研究者は、テスト セットにおける ALBEF の強力な一般化パフォーマンスは、設計された運動量蒸留法によるものだと考えています。さらに、この研究では、そのような方法によって MVPTR がどのように改善されるかをさらに探究します。 RefCOCO+のフレーズ参照表現タスクでは、このタスクはオブジェクト検出器と考慮領域の選択に大きく依存するため、研究者はMVPTRとVinVLを比較しました(VinVLの結果は、この研究でMVPTRと同様の方法を使用して微調整実験によって得られました)。RefCOCO+のtestAとtestBの2つのテストセットの精度に関しては、MVPTRは80.88/67.11を記録し、VinVLの80.5/65.96よりも高く、MVPTRの方がフレーズレベルのアライメント機能が優れていることを示しています。 アブレーション実験各レベルでの整合の相乗促進効果を検証するために、本研究では、オブジェクト/フレーズレベルの概念の導入と整合に関するアブレーション実験を設計した。 まず、表の最初の 3 行を比較すると、オブジェクト レベルの概念が導入されていないと、細粒度および粗粒度の画像とテキストのマッチング、フレーズ レベルのアライメントなど、他のレベルでの意味的なアライメントに悪影響を及ぼし、さらに視覚的な質問応答の推論能力に影響を与えることがわかります。この影響はすべてのアブレーション実験の中で最も大きく、オブジェクト レベルの概念が他のレベルでのアライメントの基礎であることを示しています。同時に、入力を導入するだけで、MCR の弱い監督によってモデルのパフォーマンスがさらに向上し、特に Uni-RSUM への影響が顕著になり、MCR がオブジェクト概念のアンカー能力を強化できることが示されました。一般に、オブジェクト レベルの配置は、フレーズ レベルと画像テキスト レベルの配置に役立ちます。 最初の行と最後の 2 行を比較すると、フレーズ レベルの概念が、視覚的なグラウンディングと、きめ細かい画像とテキストのマッチング タスクの完了に効果的に役立つことがわかります。最後の 2 行を比較すると、WPG を通じてフレーズ概念の表現の学習を明示的にガイドしないと、入力側でフレーズ概念を導入するだけでノイズが発生し、画像とテキストのマッチングのパフォーマンスが低下することがわかります。一般的に、フレーズレベルの配置は画像とテキストの配置に役立ちます。 概念の階層的表現MVPTR では、フレーズレベルとオブジェクトレベルの概念を明示的に学習しました。研究者は、学習した概念埋め込み表現を視覚化することで、2 つの概念の間にネストされた階層関係が存在することを確認しました。下の図に示すように、研究者は t-SNE を使用して学習した埋め込みを 2 次元に縮小し、いくつかの一般的なオブジェクト概念 (三角形) とオブジェクト概念を含むフレーズ概念 (点) を選択して提示しました。 図では明らかな階層的特徴が見られます。オブジェクトレベルの概念がクラスターの中心にあり、関連するフレーズレベルの概念がその周囲に分布しています。さまざまなシーンに登場する男性と車は広く分布しており、猫/犬/鳥はすべて動物であり、非常に密接して分布しています。 フレーズ参照の視覚化MVPTR によって学習されたフレーズレベルの概念のアラインメントを明示的に示すために、この研究では WPG のフレーズ領域の類似性を使用し、各フレーズの意味的類似性が最も高い領域を表示しました。以下は、MSCOCO テスト セットからの例です。 |
<<: ディープマインドの創業者はAIの弟子を育て、「訓練」ではなく「教育」によってAIに宝探しを教えた
>>: 5秒間のモバイル猫動画でも猫の3Dモデルを再構築できる。Metaは変形した物体をモデリングするための新しいアルゴリズムを提案
プロンプトは、中国語ではプロンプトワードと翻訳でき、大規模なモデルが特定のコンテンツを生成するように...
過去2年間、「優れた計算能力を活用して奇跡を起こす」大規模モデルは、人工知能分野のほとんどの研究者の...
興味深い質問です。Siri、Cortana、Alexa など、ほとんどの AI ロボットや音声アシス...
このセクションでは、一般的でよく使用されるデータ構造であるテーブルについて説明します。テーブルとは何...
人工知能(AI)については多くの報道や解説がなされてきました。奇跡を起こすことができると言う人もいれ...
昨年のNVIDIAのGTCで「Virtual Huang」はどのようにして作られたのでしょうか? ブ...
スタックは、特別な順序付けがされたテーブルです。挿入および削除操作はスタックの先頭で実行され、先入れ...
[[226434]]まずは自己紹介をさせてください。私は機械学習の経験が4年以上あり、主な業務内容と...
[[355638]]プログラマーとして、Google や Stackoverflow 向けにプログラ...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...