AI画像認識は無関係? Google AI: 段階的なトレーニング セットで画像の説明精度を向上

AI画像認識は無関係? Google AI: 段階的なトレーニング セットで画像の説明精度を向上

絵を千語で説明できるとしたら、絵の中に描写できる詳細や物体間の関係性は実に多くあります。犬の毛の質感、追いかけられているフリスビーのロゴ、フリスビーを投げたばかりの人の表情などを表現できます。

[[398584]]

現在、テキスト記述とそれに対応する画像記述 (MS-COCO や Flickr30k など) を含むデータセットは、位置合わせされた画像とテキストの表現を学習し、記述モデルを構築するために広く使用されています。

ただし、これらのデータセットではクロスモーダル相関が限られています。つまり、画像は他の画像と一致しておらず、説明は同じ画像の他の説明とのみ一致しており、画像と説明の一致は存在しますが、一致としてラベル付けされておらず、画像と説明の間に不一致がある場合に示すラベルはありません。

この評価ギャップを埋めるために、私たちは「Cross-Description: MS-COCO の拡張されたイントラモーダルおよびモーダル意味的類似性判断」を提案します。

Criss-Cross Captioning (CxC) データセットは、画像とテキスト、テキストとテキスト、画像と画像のペアの意味的類似性評価により、MS-COCO の開発およびテストの範囲を拡張します。

評価基準は、短いテキストのペア間の意味的関連性を測る尺度として広く使用されている「意味的テキスト類似性」に基づいており、これを画像の判断にも拡張しています。 CxC のスコアリングと、CxC を既存の MS-COCO データとマージするためのコードをリリースしました。

CxCデータセットの作成

CxC データセットは、モダリティ内およびモダリティ間の段階的な類似性の関連付けによって MS-COCO 評価分割を拡張します。ランダムに選択された画像と説明の一致の類似性が低いことを考慮して、人間による評価を通じて類似性が高い新しい一致を生成するアイテムを選択する方法を提案します。選択された一致と、それらを見つけるために使用されたモデルとの依存性を減らすために、異なるエンコーディングを使用して画像と説明をエンコードし、同じモダリティの一致間の類似性を計算して類似性マトリックスを生成する間接サンプリング方式を導入します。画像は Graph-RISE 埋め込みを使用してエンコードされ、説明は GloVe 埋め込みに基づく Universal Sentence Encoder (USE) と Average Bag of Words (BoW) の 2 つの方法を使用してエンコードされます。

各 MS-COCO の例には 5 つの補助キャプションがあるため、各補助キャプションのエンコーディングを平均して各例の単一の表現を作成し、すべてのキャプション ペアを画像にマッピングできるようにします。

上部: 平均補助記述エンコーディングを使用して構築されたテキスト類似性マトリックス (各セルは類似性スコアに対応)。各テキスト エントリは 1 つの画像に対応します。下部: データセット内の各画像の画像類似性マトリックス。

テキスト類似度マトリックスから計算された類似度の高い 2 つの説明を選択し、それぞれの画像を取得して、外観は異なりますが説明によると類似している新しい画像のペアを生成します。

例えば、「恥ずかしそうに横を向いている犬」と「そよ風を楽しむように上を見上げている黒い犬」はモデルの類似度がかなり高いため、下図の 2 匹の犬の対応する画像は、画像の類似度レベルを選択できます。このステップは、計算された類似度が高い 2 つの画像から開始して、新しい説明のペアを生成することもできます。

上部: 説明の類似性に基づいて画像の一致を選択します。下部: 説明画像の類似性に基づいて説明の一致を選択します。

これは、既存の画像とキャプションのペアを使用してモーダル間をリンクすることによって行われます。たとえば、人間がサンプル ij に一致する説明を非常に類似していると評価した場合、サンプル i から画像を選択し、サンプル j から説明を選択して、人間による評価のための新しいモダリティ内一致を取得します。次に、最も類似度の高いモダリティ内ペアを使用してサンプリングします。これには、類似度の高い新しい一致が含まれる場合があります。

さまざまな類似度レベルでのセマンティック イメージ類似度 (SIS) とセマンティック イメージ テキスト類似度 (SITS) の例。5 が最も類似しており、0 はまったく類似していないことを示します。

評価する

MS-COCO でのマッチングは不完全です。ある画像の説明が別の画像にも当てはまることがあるためです。ただし、これらの関連付けはデータセットに記録されません。 CxC は、新しい前方一致によってこれらの既存の検索タスクを強化し、新しい画像間検索タスクもサポートします。

CxC は類似性評価の判断を通じて、モデルと人間の評価の相関関係を測定することもできます。さらに、CxC の関連性スコアでは、スコアの低い項目 (一致しない項目) も含め、類似性の相対的な順序も考慮されます。

CxC 評価の有用性を実証するために、一連の実験を実施します。この目的のために、BERT ベースのテキスト エンコーダーと、画像エンコーダーとしての EfficientNet-B4 を使用して、3 つのデュアル エンコーダー (DE) モデルを構築します。

1. テキストからテキストへの (DE_T2T) モデル。両者が共有テキスト エンコーダーを使用します。

2. 上記のテキスト エンコーダーと画像エンコーダーを使用し、テキスト エンコーダーの上に画像エンコーダーの出力に一致するレイヤーを備えた画像からテキストへのモデル (DE_I2T)。

3. テキスト-テキストタスクと画像-テキストタスクの加重組み合わせでトレーニングされたマルチタスクモデル (DE_I2T+T2T)。

テキストからテキスト (T2T)、画像からテキスト (I2T)、およびマルチタスク (I2T+T2T) デュアル エンコーダー モデルの CxC 検索結果

検索タスクの結果から、画像テキスト検索タスクとテキスト画像検索タスクでは、DE_I2T+T2T (黄色のバー) が DE_I2T (赤色のバー) よりも優れたパフォーマンスを発揮することがわかります。したがって、モダリティ内(テキスト-テキスト)トレーニング タスクを追加すると、モダリティ間(画像-テキスト、テキスト-画像)のパフォーマンスが向上します。

同じモデルのCxC相関結果

関連付けタスクの場合、DE_I2T は SIS 上で最高のパフォーマンスを発揮しますが、DE_I2T+T2T は全体的に最高のパフォーマンスを発揮します。相関スコアは、DE_I2T が画像に対してのみ優れたパフォーマンスを発揮することも示しています。SIS は最も高いものの、STS は低下しています。

DE_I2T トレーニングにテキスト-テキスト損失を追加すると (DE_I2T+T2T)、全体的なパフォーマンスのバランスがより良くなります。

<<:  人工知能は医療に変革をもたらす力

>>:  中国人の「専門用語」データセット、AI:あなたはDBQさえ理解していない

ブログ    
ブログ    
ブログ    

推薦する

自動運転の倫理的ジレンマを解決する: 道徳規範を数式に変換する

暴走列車が線路を走っています。5人が線路に縛られており、列車に轢かれそうになっています。この時点で、...

25年間の素晴らしい実績! MITの科学者はコンピューターに創造性を与え、ロボットの形状を自動設計させる

階段を登れるロボットが必要になったとしたら、このロボットはどのような形状であるべきでしょうか?人間の...

...

Go 言語 - データ構造とアルゴリズム プロジェクト

[[404457]]この記事はWeChatの公開アカウント「roseduanの執筆場所」から転載した...

研究によると、2027年までにAIの電力消費量は一部の国の電力消費量と同等になると予想されている。

10月17日のニュースによると、人工知能はプログラマーのプログラミング速度を上げ、ドライバーの安全...

...

...

LangChain をベースに LLM アプリケーションを構築する方法

皆さんこんにちは、Lugaです。今日も引き続き、人工知能(AI)エコシステムに関連する技術であるLa...

スマート街灯は明るく光るが、スマート街灯柱には隠された秘密があることが判明

[51CTO.comよりオリジナル記事] 近年、都市化の急速な発展に伴い、中国の都市の街灯の数はます...

VAE から拡散モデルへ: テキストを使用して画像を作成する新しいパラダイム

1 はじめにDALL·E のリリースから 15 か月後、OpenAI は今春、続編の DALL·E ...

人工知能が新たな領域を切り開く:バーチャルクリエイターの背後にある戦い

2011 年に Apple が Siri を発表して以来、世界最大のテクノロジー企業は現実世界の仮想...

西側メディア:将来の兵士はロボットの「羊飼い」になる

Reference News Networkは1月4日、スペインの新聞Vanguardiaが2020...

Pythonを使用して独自のTwitterボットを構築する方法を学びます

Twitter を使用すると、ユーザーはブログの投稿や記事を世界と共有できます。 Python と ...

なぜAIは東京オリンピックでバレーボールの試合を無料で観戦できるのか?

[[416801]]ビッグデータダイジェスト制作出典: Wired 8月8日の夜、第32回夏季オリ...

機械学習に必要なエンジニアリングの量は将来大幅に削減されるだろう

将来的には、ML 製品の構築がより楽しくなり、これらのシステムはより良く機能するようになります。 M...