AI画像認識は無関係? Google AI: 段階的なトレーニング セットで画像の説明精度を向上

AI画像認識は無関係? Google AI: 段階的なトレーニング セットで画像の説明精度を向上

絵を千語で説明できるとしたら、絵の中に描写できる詳細や物体間の関係性は実に多くあります。犬の毛の質感、追いかけられているフリスビーのロゴ、フリスビーを投げたばかりの人の表情などを表現できます。

[[398584]]

現在、テキスト記述とそれに対応する画像記述 (MS-COCO や Flickr30k など) を含むデータセットは、位置合わせされた画像とテキストの表現を学習し、記述モデルを構築するために広く使用されています。

ただし、これらのデータセットではクロスモーダル相関が限られています。つまり、画像は他の画像と一致しておらず、説明は同じ画像の他の説明とのみ一致しており、画像と説明の一致は存在しますが、一致としてラベル付けされておらず、画像と説明の間に不一致がある場合に示すラベルはありません。

この評価ギャップを埋めるために、私たちは「Cross-Description: MS-COCO の拡張されたイントラモーダルおよびモーダル意味的類似性判断」を提案します。

Criss-Cross Captioning (CxC) データセットは、画像とテキスト、テキストとテキスト、画像と画像のペアの意味的類似性評価により、MS-COCO の開発およびテストの範囲を拡張します。

評価基準は、短いテキストのペア間の意味的関連性を測る尺度として広く使用されている「意味的テキスト類似性」に基づいており、これを画像の判断にも拡張しています。 CxC のスコアリングと、CxC を既存の MS-COCO データとマージするためのコードをリリースしました。

CxCデータセットの作成

CxC データセットは、モダリティ内およびモダリティ間の段階的な類似性の関連付けによって MS-COCO 評価分割を拡張します。ランダムに選択された画像と説明の一致の類似性が低いことを考慮して、人間による評価を通じて類似性が高い新しい一致を生成するアイテムを選択する方法を提案します。選択された一致と、それらを見つけるために使用されたモデルとの依存性を減らすために、異なるエンコーディングを使用して画像と説明をエンコードし、同じモダリティの一致間の類似性を計算して類似性マトリックスを生成する間接サンプリング方式を導入します。画像は Graph-RISE 埋め込みを使用してエンコードされ、説明は GloVe 埋め込みに基づく Universal Sentence Encoder (USE) と Average Bag of Words (BoW) の 2 つの方法を使用してエンコードされます。

各 MS-COCO の例には 5 つの補助キャプションがあるため、各補助キャプションのエンコーディングを平均して各例の単一の表現を作成し、すべてのキャプション ペアを画像にマッピングできるようにします。

上部: 平均補助記述エンコーディングを使用して構築されたテキスト類似性マトリックス (各セルは類似性スコアに対応)。各テキスト エントリは 1 つの画像に対応します。下部: データセット内の各画像の画像類似性マトリックス。

テキスト類似度マトリックスから計算された類似度の高い 2 つの説明を選択し、それぞれの画像を取得して、外観は異なりますが説明によると類似している新しい画像のペアを生成します。

例えば、「恥ずかしそうに横を向いている犬」と「そよ風を楽しむように上を見上げている黒い犬」はモデルの類似度がかなり高いため、下図の 2 匹の犬の対応する画像は、画像の類似度レベルを選択できます。このステップは、計算された類似度が高い 2 つの画像から開始して、新しい説明のペアを生成することもできます。

上部: 説明の類似性に基づいて画像の一致を選択します。下部: 説明画像の類似性に基づいて説明の一致を選択します。

これは、既存の画像とキャプションのペアを使用してモーダル間をリンクすることによって行われます。たとえば、人間がサンプル ij に一致する説明を非常に類似していると評価した場合、サンプル i から画像を選択し、サンプル j から説明を選択して、人間による評価のための新しいモダリティ内一致を取得します。次に、最も類似度の高いモダリティ内ペアを使用してサンプリングします。これには、類似度の高い新しい一致が含まれる場合があります。

さまざまな類似度レベルでのセマンティック イメージ類似度 (SIS) とセマンティック イメージ テキスト類似度 (SITS) の例。5 が最も類似しており、0 はまったく類似していないことを示します。

評価する

MS-COCO でのマッチングは不完全です。ある画像の説明が別の画像にも当てはまることがあるためです。ただし、これらの関連付けはデータセットに記録されません。 CxC は、新しい前方一致によってこれらの既存の検索タスクを強化し、新しい画像間検索タスクもサポートします。

CxC は類似性評価の判断を通じて、モデルと人間の評価の相関関係を測定することもできます。さらに、CxC の関連性スコアでは、スコアの低い項目 (一致しない項目) も含め、類似性の相対的な順序も考慮されます。

CxC 評価の有用性を実証するために、一連の実験を実施します。この目的のために、BERT ベースのテキスト エンコーダーと、画像エンコーダーとしての EfficientNet-B4 を使用して、3 つのデュアル エンコーダー (DE) モデルを構築します。

1. テキストからテキストへの (DE_T2T) モデル。両者が共有テキスト エンコーダーを使用します。

2. 上記のテキスト エンコーダーと画像エンコーダーを使用し、テキスト エンコーダーの上に画像エンコーダーの出力に一致するレイヤーを備えた画像からテキストへのモデル (DE_I2T)。

3. テキスト-テキストタスクと画像-テキストタスクの加重組み合わせでトレーニングされたマルチタスクモデル (DE_I2T+T2T)。

テキストからテキスト (T2T)、画像からテキスト (I2T)、およびマルチタスク (I2T+T2T) デュアル エンコーダー モデルの CxC 検索結果

検索タスクの結果から、画像テキスト検索タスクとテキスト画像検索タスクでは、DE_I2T+T2T (黄色のバー) が DE_I2T (赤色のバー) よりも優れたパフォーマンスを発揮することがわかります。したがって、モダリティ内(テキスト-テキスト)トレーニング タスクを追加すると、モダリティ間(画像-テキスト、テキスト-画像)のパフォーマンスが向上します。

同じモデルのCxC相関結果

関連付けタスクの場合、DE_I2T は SIS 上で最高のパフォーマンスを発揮しますが、DE_I2T+T2T は全体的に最高のパフォーマンスを発揮します。相関スコアは、DE_I2T が画像に対してのみ優れたパフォーマンスを発揮することも示しています。SIS は最も高いものの、STS は低下しています。

DE_I2T トレーニングにテキスト-テキスト損失を追加すると (DE_I2T+T2T)、全体的なパフォーマンスのバランスがより良くなります。

<<:  人工知能は医療に変革をもたらす力

>>:  中国人の「専門用語」データセット、AI:あなたはDBQさえ理解していない

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

AIが顧客体験を変革する10の方法

今日、消費者はオンライン小売業者に対して非常に高い期待を抱いています。多くの場合、顧客のショッピング...

Amazon AWSが新しいAIチップをリリース、Nvidia H200も提供

11月29日、米国時間火曜日に開催されたReinventカンファレンスにおいて、アマゾンのクラウドコ...

テスラは最初にこの問題の矢面に立たされ、自動運転の安全性の問題が再び話題となっている。

今日、自動運転は自動車産業の発展と変革の重要な方向性の一つとなっています。自動運転技術が成熟するにつ...

科学者が警告:AIが生成したコンテンツでAIを訓練すると、数世代以内に「ゴミ」が生成され始める

6月20日のニュースによると、人工知能分野の専門家は、AIが生成したコンテンツがオンラインに投稿され...

機械学習がゲームにおける物理シミュレーションに革命をもたらす

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

...

適切な機械学習アルゴリズムを簡単に選択

著者: ヨギータ・キナブガッティが編集企画丨孫淑娊適切な機械学習アルゴリズムを選択するにはどうすれば...

ジャック・マー氏:中国のAIは必ず米国のAIを上回る。ゲイツ氏は米国がボスだと反論した。

周知のとおり、AI はテクノロジー業界の次のトレンドとなっており、このトレンドは世界規模です。そこで...

...

人間は形を見るが、AIは質感を見る:コンピュータービジョン分類の失敗についての議論

[[270985]]研究者たちは、ディープラーニングの視覚アルゴリズムが、主に形状ではなくテクスチャ...

...

科学者らが磁場を使ってバイオニックロボットの動きを制御する新たな解決策を発表

科学者は長い間ロボット工学の分野に興味を持っており、最近のバイオニックソフトロボットはロボット工学の...

最も偽のGANモデル! Facebook、史上最強の移行機能を備えたIC-GANをリリース

[[425904]] GAN モデルは優れていますが、トレーニング データに対する要件が高すぎるため...

...