マルチモダリティの最新の動向をご存知ですか?中国科学院自動化研究所は、視覚言語事前訓練に関する最初のレビューを発表した。

機械が人間と同じように反応するようにすることは、AI 研究の永遠の目標でした。機械が知覚し、考える能力を持つようにするために、研究者は顔認識、読解、人間とコンピュータの対話など、一連の関連研究を実施し、特定の側面における機械の知能を訓練し、評価してきました。一般的に、ドメインの専門家は標準データセットを手動で構築し、それらのデータセットで関連モデルをトレーニングおよび評価します。ただし、関連技術の制限により、より優れた強力なモデルを取得するには、モデルのトレーニングに大量のラベル付きデータが必要になることがよくあります。

Transformer アーキテクチャに基づく事前トレーニング済みモデルはこの問題を軽減します。まず、自己教師あり学習によって事前トレーニングされ、大規模なラベルなしデータからモデルをトレーニングして一般的な表現を学習します。少量の手動でラベル付けされたデータのみを使用して微調整することで、下流のタスクで驚くべき結果を達成します。 BERT が NLP タスクに適用されて以来、Vision Transformer (ViT) や Wave2Vec など、ユニモーダル分野ではさまざまな事前トレーニング済みモデルが急速に開発されてきました。多数の研究により、これらは下流の単一モードタスクに役立ち、新しいモデルをゼロからトレーニングする必要がなくなることが示されています。

ユニモーダル分野と同様に、マルチモーダル分野にも、注釈付きデータの品質が低いという問題があります。上記の事前トレーニング方法はマルチモーダルタスクに適用できるのだろうかと疑問に思わざるを得ません。研究者たちはこの疑問を研究し、大きな進歩を遂げました。

この論文では、中国科学院自動化研究所と中国科学院大学の研究者が、画像テキスト事前トレーニングやビデオテキスト事前トレーニングを含む視覚言語事前トレーニング（VLP）の最新の進歩と新しい分野を調査しました。 VLP は、大規模なデータで事前トレーニングすることにより、さまざまなモダリティ間の意味的対応を学習します。たとえば、画像とテキストの事前トレーニングでは、研究者はモデルがテキスト内の犬と画像内の犬の外観を関連付けることを期待します。ビデオテキストの事前トレーニングでは、研究者はモデルがテキスト内のオブジェクト/アクションをビデオ内のオブジェクト/アクションにマッピングすることを期待しています。

論文アドレス: https://arxiv.org/pdf/2202.09061.pdf

この目標を達成するには、研究者は VLP オブジェクトとモデルアーキテクチャを巧みに設計し、モデルが異なるモダリティ間の関連性をマイニングできるようにする必要があります。

読者が VLP をよりよく理解できるようにするために、この研究ではまず、特徴抽出、モデルアーキテクチャ、事前トレーニングの目的、事前トレーニングデータセット、下流タスクという 5 つの側面における最近の進歩についてレビューします。次に、この記事では特定の VLP モデルについて詳しくまとめています。最後に、この記事では VLP の新しい領域について説明します。私たちの知る限り、これは VLP 分野における初の調査です。研究者たちは、この調査がVLP分野における将来の研究に洞察をもたらすことを期待しています。

VLPの概要

VLP の 5 つの側面と最近の進歩についてのレビュー

特徴処理の観点では、この論文では主に、VLP モデルが画像、ビデオ、テキストを前処理して表現し、対応する特徴を取得する方法について紹介しています。

ユニモーダルな事前トレーニング済みモデルを最大限に活用するために、VLP は標準のトランスフォーマーエンコーダーをランダムに初期化し、視覚的またはテキスト表現を生成します。視覚的な観点から見ると、VLP は事前にトレーニングされた視覚トランスフォーマー (ViT や DeiT など) を活用して ViT-PF をエンコードします。テキストに関しては、VLP は事前トレーニング済みのテキストトランスフォーマー (BERT など) を使用してテキスト機能をエンコードします。簡潔にするために、この研究ではこれらのトランスフォーマーを Xformer と名付けました。

モデルアーキテクチャの観点から: この論文では、VLP モデルアーキテクチャを 2 つの異なる観点から紹介しています。(1) マルチモーダル融合の観点からシングルストリームアーキテクチャとデュアルストリームアーキテクチャを観察し、(2) 全体的なアーキテクチャ設計の観点からエンコーダとエンコーダ/デコーダを比較します。

シングルストリームアーキテクチャでは、テキスト機能と視覚機能を組み合わせて、単一のトランスフォーマーブロックに入力します (下の図 1 (a) を参照)。シングルストリームアーキテクチャは、注意を組み込むことによってマルチモーダル入力を融合します。両方のモードで同じパラメータセットが使用されるため、シングルストリームアーキテクチャの方がパラメータ効率が高くなります。

2 ストリームアーキテクチャとは、テキスト機能と視覚機能が結合されるのではなく、図 1 (b) に示すように、2 つの異なるトランスフォーマーブロックに個別に供給されることを意味します。 2 つのトランスフォーマーブロックはパラメーターを共有しません。より高いパフォーマンスを実現するために、クロスアテンション（図 1 (b) の点線で表示）を使用してクロスモーダルインタラクションを実現します。より高い効率を実現するために、ビジュアルトランスフォーマーブロックとテキストトランスフォーマーブロック間のクロスアテンションも省略できます。

多くの VLP モデルは、さまざまなモダリティの表現が出力層に直接入力されるエンコーダーアーキテクチャのみを採用しています。対照的に、他の VLP モデルでは、さまざまなモダリティ表現が最初にデコーダーに入力され、次に出力層に入力される、トランスフォーマーエンコーダー/デコーダーアーキテクチャの使用が推奨されています。

事前トレーニングの目的に関して: この論文では、さまざまな事前トレーニングの目的を使用して VLP モデルを事前トレーニングし、事前トレーニングの目的を完了、マッチング、時間、特定のタイプの 4 つのカテゴリにまとめています。

完了とは、マスクされていない部分を使用してマスクされた要素を再構築することを指します。マスク言語モデリング (MLM) を例に挙げてみましょう。これは Taylor によって最初に提案され、BERT が事前トレーニングタスクとして使用したことで広く知られるようになりました。 VLP モデルの MLM は、事前トレーニング済み言語モデル (PLM) の MLM に似ており、マスクされたテキストトークンを残りのテキストトークンだけでなく、ビジュアルトークンからも予測できます。経験的に、BERT に従う VLP モデルは、各テキスト入力トークンを 15% のマスキング率でランダムにマスクし、80% の確率でマスクされたテキストを特別なトークン [MASK] に置き換え、10% の確率でランダムなテキストトークンに置き換え、残りの 10% の確率で元のトークンに置き換えます。しかし、プリンストン大学の Danqi Chen 氏らによる論文「マスク言語モデリングで 15% をマスクする必要がありますか?」では、効果的な事前トレーニングスキームでは、入力テキストの 40～50% をマスクして、デフォルトの 15% よりも優れたダウンストリームパフォーマンスを実現できることが発見されました。

マスク視覚モデリング (MVM) では、MLM と同様に、MVM は視覚 (画像またはビデオ) 領域またはパッチをサンプリングし、その視覚的特徴を通常 15% の確率でマスクします。 VLP モデルは、残りの視覚的特徴とすべてのテキスト特徴を考慮して、マスクの視覚的特徴を再構築する必要があります。

視覚言語マッチング (VLM) は、視覚と言語を一致させるための最も一般的に使用される事前トレーニング目標です。シングルストリーム VLP モデルでは、研究者は 2 つのモダリティの融合表現として特別なトークン [CLS] 表現を使用します。 2 ストリーム VLP モデルでは、研究者は、特殊な視覚トークン [CLSV] の視覚表現と特殊なテキストトークン [CLST] のテキスト表現を、2 つのモダリティの融合表現として接続しました。 VLP モデルは、2 つのモダリティの融合表現を FC レイヤーとシグモイド関数に送り、0 から 1 の間のスコアを予測します。0 は視覚と言語が一致しないことを示し、1 は視覚と言語が一致することを示します。トレーニング中、VLP モデルは各ステップでデータセットから正または負のペアをサンプリングします。

事前トレーニングデータセットに関して: VLP のデータセットのほとんどは、マルチモーダルタスク全体の公開データセットを組み合わせて構築されます。ここで、いくつかの主流コーパスとその詳細情報を表 1 に示します。

下流のタスクに関して: さまざまなタスクで視覚知識と言語知識の融合が必要になります。このセクションでは、このようなタスクの基本的な詳細と目的を紹介し、分類、回帰、検索、生成、その他のタスクの 5 つのカテゴリに分類します。このうち、分類、回帰、検索タスクは理解タスクとも呼ばれます。

分類タスクには、視覚的質問応答 (VQA)、視覚的推論と合成質問応答 (GQA)、視覚言語推論 (VLI)、自然言語視覚推論 (NLVR)、視覚常識推論 (VCR) などが含まれます。 VQA では、画像またはビデオの視覚入力が与えられると、通常は分類タスクと見なされ、モデルは選択肢の中から最も適切な回答を予測します。GQA では、GQA は VQA のアップグレード版と見なすことができ、自然なシーンでの視覚的推論の研究を進めることを目的としています。VLI では、キャプションが揃えられたビデオクリップが前提として与えられ、ビデオコンテンツに基づく自然言語仮説とペアになっている場合、モデルは仮説が与えられたビデオクリップと矛盾するかどうかを推論する必要があります。

回帰タスクの中で、マルチモーダル感情分析 (MSA) は、マルチモーダル信号 (視覚、言語など) を使用してビデオ内の感情を検出することを目的としています。これは、談話の感情的な方向性を予測するための連続的な強度変数として使用されます。

検索タスクでは、視覚言語検索 (VLR) が適切なマッチング戦略を通じて視覚 (画像またはビデオ) と言語を理解します。このマッチング戦略には、視覚からテキストへの検索とテキストから視覚への検索という 2 つのサブタスクが含まれます。視覚からテキストへの検索は、視覚に基づいて、より大きな説明プールから最も関連性の高いテキスト説明を取得することであり、その逆も同様です。

生成タスクの中で、ビジュアルキャプション (VC) は、与えられた視覚 (画像またはビデオ) 入力に対して意味的かつ文法的に適切なテキストの説明を生成することを目的としています。さらに、この論文では、マルチモーダル機械翻訳 (MMT)、視覚言語ナビゲーション (VLN)、光学式文字認識 (OCR) などの他のダウンストリームタスクについても紹介しています。

SOTA VLP モデル

画像テキスト VLP モデル。 VisualBERT は、Faster R-CNN を使用して視覚的特徴を抽出し、その視覚的特徴をテキスト埋め込みと連結し、連結された特徴を BERT によって初期化された単一のトランスフォーマーに入力する、最初の画像テキスト事前トレーニング済みモデルとして知られています。多くの VLP モデルは、事前トレーニングの目標と事前トレーニングデータセットを適応させながら、VisualBERT と同様の特徴抽出とアーキテクチャに従います。最近、VLMO[21]は画像パッチ埋め込みとテキスト単語埋め込みを活用し、組み合わせた埋め込みをモダリティ専門家とともに単一のトランスフォーマーに入力し、優れたパフォーマンスを達成しました。 METER は、シングルモーダルの事前トレーニング済みモデルの使用方法を調査し、マルチモーダル融合を処理するための 2 ストリームアーキテクチャモデルを提案し、多くのダウンストリームタスクで SOTA パフォーマンスを実現します。

ビデオテキスト VLP モデル。 VideoBERT は、BERT モデルを拡張してビデオとテキストを同時に処理できる、最初のビデオテキスト事前トレーニング済みモデルとして知られています。 VideoBERT は、事前トレーニング済みの ConvNet と S3D を使用してビデオの特徴を抽出し、それをテキストの単語埋め込みと連結して、BERT で初期化されたトランスフォーマーに送り込みます。 VideoBERT をトレーニングする場合、ConvNet と S3D はフリーズされます。これは、メソッドがエンドツーエンドではないことを示します。最近、ViT に触発されて、Frozen と Region-Learner は、まずビデオクリップをフレームに処理し、ViT が各フレームを処理する方法に従ってパッチ埋め込みを取得します。 Frozen と Region-Learner はエンドツーエンドで最適化され、SOTA パフォーマンスを実現します。

以下の表 2 は、既存の主流の VLP モデルをまとめたものです。

今後、研究者たちは既存の研究に基づいて、VLP が以下の面でさらに発展することを期待しています。

これまでのマルチモーダル事前トレーニング研究では、音響情報と組み合わせて、主に言語と視覚の共同モデリングを重視し、音声に隠された情報は無視していました。
知識の学習と認知、既存の VLP モデルは優れたパフォーマンスを達成していますが、本質的には大規模なマルチモーダルデータセットに適合しているため、VLP モデルをより知識豊富なものにすることが将来の VLP にとって重要です。
プロンプトの最適化、離散的または連続的なプロンプトを設計し、特定の下流タスクに MLM を使用することで、これらのモデルは多数のパラメータを微調整するための計算コストを削減し、事前トレーニングと微調整の間のギャップを埋めることができます。

<<: 携帯電話のAI分析で貧困削減を狙う：バークレーの研究がネイチャー誌に掲載

>>: 機械学習とディープラーニングの違いは何ですか?