絵を千語で説明できるとしたら、絵の中に描写できる詳細や物体間の関係性は実に多くあります。犬の毛の質感、追いかけられているフリスビーのロゴ、フリスビーを投げたばかりの人の表情などを表現できます。 現在、テキスト記述とそれに対応する画像記述 (MS-COCO や Flickr30k など) を含むデータセットは、位置合わせされた画像とテキストの表現を学習し、記述モデルを構築するために広く使用されています。 ただし、これらのデータセットではクロスモーダル相関が限られています。つまり、画像は他の画像と一致しておらず、説明は同じ画像の他の説明とのみ一致しており、画像と説明の一致は存在しますが、一致としてラベル付けされておらず、画像と説明の間に不一致がある場合に示すラベルはありません。 この評価ギャップを埋めるために、私たちは「Cross-Description: MS-COCO の拡張されたイントラモーダルおよびモーダル意味的類似性判断」を提案します。 Criss-Cross Captioning (CxC) データセットは、画像とテキスト、テキストとテキスト、画像と画像のペアの意味的類似性評価により、MS-COCO の開発およびテストの範囲を拡張します。 評価基準は、短いテキストのペア間の意味的関連性を測る尺度として広く使用されている「意味的テキスト類似性」に基づいており、これを画像の判断にも拡張しています。 CxC のスコアリングと、CxC を既存の MS-COCO データとマージするためのコードをリリースしました。 CxCデータセットの作成CxC データセットは、モダリティ内およびモダリティ間の段階的な類似性の関連付けによって MS-COCO 評価分割を拡張します。ランダムに選択された画像と説明の一致の類似性が低いことを考慮して、人間による評価を通じて類似性が高い新しい一致を生成するアイテムを選択する方法を提案します。選択された一致と、それらを見つけるために使用されたモデルとの依存性を減らすために、異なるエンコーディングを使用して画像と説明をエンコードし、同じモダリティの一致間の類似性を計算して類似性マトリックスを生成する間接サンプリング方式を導入します。画像は Graph-RISE 埋め込みを使用してエンコードされ、説明は GloVe 埋め込みに基づく Universal Sentence Encoder (USE) と Average Bag of Words (BoW) の 2 つの方法を使用してエンコードされます。 各 MS-COCO の例には 5 つの補助キャプションがあるため、各補助キャプションのエンコーディングを平均して各例の単一の表現を作成し、すべてのキャプション ペアを画像にマッピングできるようにします。 上部: 平均補助記述エンコーディングを使用して構築されたテキスト類似性マトリックス (各セルは類似性スコアに対応)。各テキスト エントリは 1 つの画像に対応します。下部: データセット内の各画像の画像類似性マトリックス。 テキスト類似度マトリックスから計算された類似度の高い 2 つの説明を選択し、それぞれの画像を取得して、外観は異なりますが説明によると類似している新しい画像のペアを生成します。 例えば、「恥ずかしそうに横を向いている犬」と「そよ風を楽しむように上を見上げている黒い犬」はモデルの類似度がかなり高いため、下図の 2 匹の犬の対応する画像は、画像の類似度レベルを選択できます。このステップは、計算された類似度が高い 2 つの画像から開始して、新しい説明のペアを生成することもできます。 上部: 説明の類似性に基づいて画像の一致を選択します。下部: 説明画像の類似性に基づいて説明の一致を選択します。 これは、既存の画像とキャプションのペアを使用してモーダル間をリンクすることによって行われます。たとえば、人間がサンプル ij に一致する説明を非常に類似していると評価した場合、サンプル i から画像を選択し、サンプル j から説明を選択して、人間による評価のための新しいモダリティ内一致を取得します。次に、最も類似度の高いモダリティ内ペアを使用してサンプリングします。これには、類似度の高い新しい一致が含まれる場合があります。 さまざまな類似度レベルでのセマンティック イメージ類似度 (SIS) とセマンティック イメージ テキスト類似度 (SITS) の例。5 が最も類似しており、0 はまったく類似していないことを示します。 評価するMS-COCO でのマッチングは不完全です。ある画像の説明が別の画像にも当てはまることがあるためです。ただし、これらの関連付けはデータセットに記録されません。 CxC は、新しい前方一致によってこれらの既存の検索タスクを強化し、新しい画像間検索タスクもサポートします。 CxC は類似性評価の判断を通じて、モデルと人間の評価の相関関係を測定することもできます。さらに、CxC の関連性スコアでは、スコアの低い項目 (一致しない項目) も含め、類似性の相対的な順序も考慮されます。 CxC 評価の有用性を実証するために、一連の実験を実施します。この目的のために、BERT ベースのテキスト エンコーダーと、画像エンコーダーとしての EfficientNet-B4 を使用して、3 つのデュアル エンコーダー (DE) モデルを構築します。 1. テキストからテキストへの (DE_T2T) モデル。両者が共有テキスト エンコーダーを使用します。 2. 上記のテキスト エンコーダーと画像エンコーダーを使用し、テキスト エンコーダーの上に画像エンコーダーの出力に一致するレイヤーを備えた画像からテキストへのモデル (DE_I2T)。 3. テキスト-テキストタスクと画像-テキストタスクの加重組み合わせでトレーニングされたマルチタスクモデル (DE_I2T+T2T)。 テキストからテキスト (T2T)、画像からテキスト (I2T)、およびマルチタスク (I2T+T2T) デュアル エンコーダー モデルの CxC 検索結果 検索タスクの結果から、画像テキスト検索タスクとテキスト画像検索タスクでは、DE_I2T+T2T (黄色のバー) が DE_I2T (赤色のバー) よりも優れたパフォーマンスを発揮することがわかります。したがって、モダリティ内(テキスト-テキスト)トレーニング タスクを追加すると、モダリティ間(画像-テキスト、テキスト-画像)のパフォーマンスが向上します。 同じモデルのCxC相関結果 関連付けタスクの場合、DE_I2T は SIS 上で最高のパフォーマンスを発揮しますが、DE_I2T+T2T は全体的に最高のパフォーマンスを発揮します。相関スコアは、DE_I2T が画像に対してのみ優れたパフォーマンスを発揮することも示しています。SIS は最も高いものの、STS は低下しています。 DE_I2T トレーニングにテキスト-テキスト損失を追加すると (DE_I2T+T2T)、全体的なパフォーマンスのバランスがより良くなります。 |
>>: 中国人の「専門用語」データセット、AI:あなたはDBQさえ理解していない
人工知能は最近話題になっていますが、現実には人間のように考えることができるコンピューターの実現にはま...
[[208848]]人工知能は世界を席巻しており、AIの重要な分野の1つであるコンピュータービジョン...
ニューラル ネットワークは、これまでに発明された最も美しいプログラミング パラダイムの 1 つです。...
人工知能技術の急速な発展は、私たちの日常生活のあらゆる側面に変革的な影響を及ぼしています。 最も注目...
機械学習の力を活用して日常のさまざまなタスクを処理するテクノロジーである人工知能は、すでに私たちの仕...
2019年10月26日、Testinが主催する第2回NCTS中国クラウドテスト業界サミットが北京で開...
ACM ゴードン・ベル賞は 1987 年に設立され、計算機協会によって授与されます。スーパーコンピュ...
携帯電話のバスアプリでバス路線 112 の残りの停留所の数を確認するとき、バスに GPS をインスト...
1. クラスタリングの基本概念1.1 定義クラスタリングはデータマイニングにおける概念であり、特定の...
序文: 2020年、データセンター建設は中央政府による新インフラ戦略に正式に組み込まれ、新インフラの...
この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...
多くの人が人工知能に非常に興味を持っていますが、どこから始めればよいか分かりません。次に紹介する 1...
機械学習により、人間が設計した固定されたプログラムでは解決が難しい問題を解決できるようになります。科...