AI画像認識は無関係？ Google AI: 段階的なトレーニングセットで画像の説明精度を向上

絵を千語で説明できるとしたら、絵の中に描写できる詳細や物体間の関係性は実に多くあります。犬の毛の質感、追いかけられているフリスビーのロゴ、フリスビーを投げたばかりの人の表情などを表現できます。

現在、テキスト記述とそれに対応する画像記述 (MS-COCO や Flickr30k など) を含むデータセットは、位置合わせされた画像とテキストの表現を学習し、記述モデルを構築するために広く使用されています。

ただし、これらのデータセットではクロスモーダル相関が限られています。つまり、画像は他の画像と一致しておらず、説明は同じ画像の他の説明とのみ一致しており、画像と説明の一致は存在しますが、一致としてラベル付けされておらず、画像と説明の間に不一致がある場合に示すラベルはありません。

この評価ギャップを埋めるために、私たちは「Cross-Description: MS-COCO の拡張されたイントラモーダルおよびモーダル意味的類似性判断」を提案します。

Criss-Cross Captioning (CxC) データセットは、画像とテキスト、テキストとテキスト、画像と画像のペアの意味的類似性評価により、MS-COCO の開発およびテストの範囲を拡張します。

評価基準は、短いテキストのペア間の意味的関連性を測る尺度として広く使用されている「意味的テキスト類似性」に基づいており、これを画像の判断にも拡張しています。 CxC のスコアリングと、CxC を既存の MS-COCO データとマージするためのコードをリリースしました。

CxCデータセットの作成

CxC データセットは、モダリティ内およびモダリティ間の段階的な類似性の関連付けによって MS-COCO 評価分割を拡張します。ランダムに選択された画像と説明の一致の類似性が低いことを考慮して、人間による評価を通じて類似性が高い新しい一致を生成するアイテムを選択する方法を提案します。選択された一致と、それらを見つけるために使用されたモデルとの依存性を減らすために、異なるエンコーディングを使用して画像と説明をエンコードし、同じモダリティの一致間の類似性を計算して類似性マトリックスを生成する間接サンプリング方式を導入します。画像は Graph-RISE 埋め込みを使用してエンコードされ、説明は GloVe 埋め込みに基づく Universal Sentence Encoder (USE) と Average Bag of Words (BoW) の 2 つの方法を使用してエンコードされます。

各 MS-COCO の例には 5 つの補助キャプションがあるため、各補助キャプションのエンコーディングを平均して各例の単一の表現を作成し、すべてのキャプションペアを画像にマッピングできるようにします。

上部: 平均補助記述エンコーディングを使用して構築されたテキスト類似性マトリックス (各セルは類似性スコアに対応)。各テキストエントリは 1 つの画像に対応します。下部: データセット内の各画像の画像類似性マトリックス。

テキスト類似度マトリックスから計算された類似度の高い 2 つの説明を選択し、それぞれの画像を取得して、外観は異なりますが説明によると類似している新しい画像のペアを生成します。

例えば、「恥ずかしそうに横を向いている犬」と「そよ風を楽しむように上を見上げている黒い犬」はモデルの類似度がかなり高いため、下図の 2 匹の犬の対応する画像は、画像の類似度レベルを選択できます。このステップは、計算された類似度が高い 2 つの画像から開始して、新しい説明のペアを生成することもできます。

上部: 説明の類似性に基づいて画像の一致を選択します。下部: 説明画像の類似性に基づいて説明の一致を選択します。

これは、既存の画像とキャプションのペアを使用してモーダル間をリンクすることによって行われます。たとえば、人間がサンプル ij に一致する説明を非常に類似していると評価した場合、サンプル i から画像を選択し、サンプル j から説明を選択して、人間による評価のための新しいモダリティ内一致を取得します。次に、最も類似度の高いモダリティ内ペアを使用してサンプリングします。これには、類似度の高い新しい一致が含まれる場合があります。

さまざまな類似度レベルでのセマンティックイメージ類似度 (SIS) とセマンティックイメージテキスト類似度 (SITS) の例。5 が最も類似しており、0 はまったく類似していないことを示します。

評価する

MS-COCO でのマッチングは不完全です。ある画像の説明が別の画像にも当てはまることがあるためです。ただし、これらの関連付けはデータセットに記録されません。 CxC は、新しい前方一致によってこれらの既存の検索タスクを強化し、新しい画像間検索タスクもサポートします。

CxC は類似性評価の判断を通じて、モデルと人間の評価の相関関係を測定することもできます。さらに、CxC の関連性スコアでは、スコアの低い項目 (一致しない項目) も含め、類似性の相対的な順序も考慮されます。

CxC 評価の有用性を実証するために、一連の実験を実施します。この目的のために、BERT ベースのテキストエンコーダーと、画像エンコーダーとしての EfficientNet-B4 を使用して、3 つのデュアルエンコーダー (DE) モデルを構築します。

1. テキストからテキストへの (DE_T2T) モデル。両者が共有テキストエンコーダーを使用します。

2. 上記のテキストエンコーダーと画像エンコーダーを使用し、テキストエンコーダーの上に画像エンコーダーの出力に一致するレイヤーを備えた画像からテキストへのモデル (DE_I2T)。

3. テキスト-テキストタスクと画像-テキストタスクの加重組み合わせでトレーニングされたマルチタスクモデル (DE_I2T+T2T)。

テキストからテキスト (T2T)、画像からテキスト (I2T)、およびマルチタスク (I2T+T2T) デュアルエンコーダーモデルの CxC 検索結果

検索タスクの結果から、画像テキスト検索タスクとテキスト画像検索タスクでは、DE_I2T+T2T (黄色のバー) が DE_I2T (赤色のバー) よりも優れたパフォーマンスを発揮することがわかります。したがって、モダリティ内（テキスト-テキスト）トレーニングタスクを追加すると、モダリティ間（画像-テキスト、テキスト-画像）のパフォーマンスが向上します。

同じモデルのCxC相関結果

関連付けタスクの場合、DE_I2T は SIS 上で最高のパフォーマンスを発揮しますが、DE_I2T+T2T は全体的に最高のパフォーマンスを発揮します。相関スコアは、DE_I2T が画像に対してのみ優れたパフォーマンスを発揮することも示しています。SIS は最も高いものの、STS は低下しています。

DE_I2T トレーニングにテキスト-テキスト損失を追加すると (DE_I2T+T2T)、全体的なパフォーマンスのバランスがより良くなります。

<<: 人工知能は医療に変革をもたらす力

>>: 中国人の「専門用語」データセット、AI：あなたはDBQさえ理解していない