視覚と言語の多粒度の調整を学習しますか? Byte は、新しいマルチモーダル事前トレーニング方法 X-VLM を提案しました。コードがオープンソース化されました。

前面に書かれた

視覚言語の事前トレーニングにより、多くの視覚言語タスクのパフォーマンスが向上します。しかし、既存の事前トレーニング方法のほとんどは、オブジェクト検出器に依存してオブジェクトベースの視覚的特徴を抽出し、オブジェクトレベルなどでのきめ細かい視覚と言語の調整を学習します。しかし、このアプローチには、視覚的概念の認識が限られている、画像にエンコードされたコンテキスト情報が失われる、計算効率が低いなどの問題があります。

この記事では、バイトダンスAIラボが提案する X-VLM は、オブジェクト検出方法に依存せず、画像レベルまたはオブジェクトレベルのアライメントの学習に限定されず、統一された方法で多粒度の視覚と言語のアライメントを学習します。この方法は、画像テキスト検索、視覚的質問応答 (VQA)、視覚的推論 (NLVR)、視覚的グラウンディング、画像キャプション作成など、幅広い視覚言語タスクで最先端の結果を実現します。

論文タイトル:

マルチグレインビジョン言語事前トレーニング: テキストと視覚概念の整合

論文リンク:

https://arxiv.org/abs/2111.08276

コードリンク:

https://github.com/zengyan-97/X-VLM

背景

▲ 図1: 既存の2つの方法 (a、b) と X-VLM (c)

既存のマルチモーダル事前トレーニングモデルは、おおまかに 2 つのカテゴリに分けられます。1) 図 1 (a) に示すように、オブジェクト検出器を使用してオブジェクトベースの視覚特徴を抽出し、きめ細かい視覚と言語の調整を学習します。これらの方法は、事前トレーニング済みのオブジェクト検出器を直接使用するか、オブジェクト検出プロセスをマルチモーダル事前トレーニングに組み込みます。2) CNN またはビジュアル Transformer を使用して画像全体をエンコードし、図 1 (b) に示すように、テキストと画像の特徴間の粗いアライメントを直接学習します。

どちらのアプローチにも問題があります。まず、オブジェクト検出ベースの方法は、画像内のすべての可能なオブジェクトを識別しますが、その中には、ペアになっているテキストとは無関係なものもあります。さらに、この方法で抽出されたオブジェクトベースの視覚的特徴は、オブジェクト間の情報（コンテキスト情報と見なすことができる）が失われる可能性があります。さらに、認識する必要があるオブジェクトの種類を事前に定義することは困難です。 2 番目の方法では、オブジェクトレベルのアライメントなど、きめ細かい視覚と言語のアライメントを学習するのがより困難です。このきめ細かいアライメント関係は、視覚的推論や視覚的グラウンディングのタスクに役立つことが以前の研究で示されています。

実際、マルチモーダル事前トレーニングでは、モデルトレーニングに次の公開データが利用可能です: 1) 画像と画像キャプション、2) 領域注釈。たとえば、図 1 の「道路を横断する男性」というテキストは、画像内の特定の領域に関連付けられています。ただし、これまでの研究では、領域注釈が画像全体と大まかに一致しています。3) これまでの研究でオブジェクト検出器をトレーニングするために使用されている「バックパック」などのオブジェクトラベル。

これまでの実践とは異なり、本論文では、上記のデータを使用して、オブジェクト検出方法に依存せず、画像レベルまたはオブジェクトレベルのアライメントの学習に限定されず、多粒度の視覚と言語のアライメントを統一的に学習する X-VLM を提案しています。著者らは、図 1(c) に示すように、多粒度の視覚と言語の整合を学習するための鍵は、1) テキストが与えられたら、画像内の視覚概念を特定し、境界ボックス回帰損失と結合損失に対する交差損失で最適化すること、2) テキストと対応する視覚概念を同時に整合し、一般的に使用される対照学習損失、マッチング損失、および MLM 損失で最適化することであると提案しています。実験により、X-VLM は、事前トレーニング中に学習した多粒度の視覚および言語の調整を下流のタスクで効果的に活用し、さまざまな視覚および言語タスクで優れたパフォーマンスを達成できることが示されました。

方法

図2: X-VLMフレームワーク

X-VLM は、画像エンコーダー、テキストエンコーダー、クロスモーダルエンコーダーで構成されています。

図 2 の左側は、視覚概念 V (オブジェクト/領域/画像) のエンコードプロセスを示しています。画像エンコーダーは、視覚トランスフォーマーを使用して、入力画像をエンコード用のパッチに分割します。次に、任意の境界ボックスが与えられた場合、ボックス内のすべてのパッチの表現の平均を取るだけで、領域のグローバル表現が得られます。

次に、グローバル表現と元のボックス内のすべてのパッチ表現が、境界ボックスに対応する視覚概念の表現として元の順序でシーケンスにソートされます。画像自体はこのようにして得られる（ ) と絵で表現された視覚的概念 ( 、、、 ) エンコーディング。画像のタイトル、領域の説明、オブジェクトのラベルなど、視覚的な概念に対応するテキストは、テキストエンコーダーを通じて 1 つずつエンコードされます。

X-VLM は共通のモデル構造を使用しますが、違いは事前トレーニング方法にあります。著者は、次の 2 種類の損失を通じて最適化を行います。

まず、次のようなテキストが与えられます。（文章）、（テキスト 1）、（テキスト2）、 (テキスト3)、予測画像対応する視覚概念の境界ボックス:

位置[CLS]におけるクロスモーダルエンコーダの出力ベクトルです。標準化にはシグモイド関数が使用されます。グラウンドトゥルース（に対応） )、それぞれ標準化された中心の水平座標、中心の垂直座標、幅、高さです。最終的に、損失は GIoU 損失と境界ボックスの L1 損失の合計になります。著者は、同じ画像に異なる単語を与え、対応する視覚的概念を予測するようにモデルに要求することで、モデルが多粒度の視覚言語の調整をより効果的に学習できるようになると考えています。この損失は、マルチモーダル事前トレーニングでも初めて使用されます。

次に、モデルは、オブジェクト/領域/画像とテキストの配置を含め、テキストと対応する視覚概念を揃えるように最適化されています。著者は、マルチモーダル事前トレーニングで 3 つの一般的な損失最適化を次の順序で使用します。

1) 対照学習損失:

、は真の類似度であり、対角線上では 1、それ以外では 0 になります。、テキストエンコーダーの出力と画像エンコーダーの出力に基づいてモデルによって計算された類似度です。

2) マッチング損失:

クロスモーダルエンコーダに基づいて計算され、与えられた（ ) が一致するかどうか (つまり、0/1 の分類) を判定します。それぞれの正例のペアに対して、著者らは負例のペアをサンプリングします。

3) マスク言語モデリング損失:

いくつかの単語はランダムに[MASK]に置き換えられています。言葉のクロスモーダルエンコーダー位置の出力ベクトルは、計算された語彙の確率分布です。

実験

著者は、マルチモーダル事前トレーニングで一般的に使用される 4M 画像データセットを実験に使用し、次の表に示すように、16M データセットでのモデル効果も検証しました。

▲ 表1: 2つの事前学習データセット

このうち、アノテーション（#Ann）は、領域アノテーションとオブジェクトラベルの総称です。 Visual Genome など一部のデータセットには画像キャプションがなく、CC-3M/12M など一部のデータセットには画像注釈がないことがわかります。

▲ 表2: 画像テキスト検索タスクの実験結果

表 2 は、画像テキスト検索タスク (MSCOCO および Flickr30K) のパフォーマンスを示しています。 4M 画像データセットでトレーニングされた X-VLM が従来の方法を上回っていることがわかります。

▲ 表3: さまざまな下流視覚言語タスクに関する実験結果

表 3 は、視覚的推論 (VQA2.0 および NLVR2)、視覚的位置特定 (RefCOCO+)、および画像説明生成 (COCO Captio) におけるモデルのパフォーマンスを示しています。表 2 と表 3 を組み合わせると、以前の方法と比較して、X-VLM はより多くの種類のダウンストリームタスクをサポートし、これらの一般的な視覚言語タスクで最先端のパフォーマンスを実現していることがわかります。

要約する

本論文では、オブジェクト検出方法に依存せず、画像レベルまたはオブジェクトレベルのアライメントの学習に限定されない、統一された方法でマルチ粒度の視覚と言語のアライメントを学習する X-VLM を提案します。この事前トレーニング方法は、幅広い下流タスクに適用できます。視覚的推論に加えて、画像テキスト検索、視覚的ローカリゼーション、画像説明生成タスクでも最先端のパフォーマンスを実現します。すべてのコードはオープンソースなので、下の QR コードをスキャンして体験できます。

<<: チューリング賞受賞者のヤン・ルカン氏：今後数十年間の AI 研究の最大の課題は「予測世界モデル」

>>: 学者がインテリジェンス、モデルとデータAI、デジタルトランスフォーメーションについて語る。このAIイベントには技術的な内容が含まれている。