ディープラーニングに新たな落とし穴が!シドニー大学は、テキストを使用して画像のマット化をガイドする新しいクロスモーダルタスクを提案しています

ディープラーニングに新たな落とし穴が!シドニー大学は、テキストを使用して画像のマット化をガイドする新しいクロスモーダルタスクを提案しています

画像マッティングとは、画像内の正確な前景を抽出することを指します。現在の自動方法では、画像内のすべての目立つオブジェクトを無差別に抽出する傾向があります。この論文では、著者らは、与えられた自然言語記述に最も一致する特定のオブジェクトの詳細なアルファマットを抽出することを指す、Referring Image Matting (RIM) と呼ばれる新しいタスクを提案しています。 しかし、一般的なビジュアル グラウンディング手法は、おそらく高品質の RIM データセットが不足しているため、セグメンテーション レベルに限定されています。このギャップを埋めるために、私たちは、柔軟なロジックと再ラベル付けのための多様な属性を備えた、現在公開されている高品質のマッティングランドスケープに基づいて合成画像を生成する包括的な画像合成および表現生成エンジンを設計し、初の大規模で挑戦的なデータセット RefMatte を確立しました。

RefMatte は、230 個のオブジェクト カテゴリ、47,500 個の画像、118,749 個の表現領域エンティティ、および 474,996 個の表現で構成されており、将来的にさらに簡単に拡張できます。さらに、著者らは 100 枚の自然画像からなる現実世界のテスト セットを構築し、人工的に生成されたフレーズ注釈を使用して、RIM モデルの一般化能力をさらに評価しました。まず、プロンプトベースと表現ベースの 2 つのコンテキストにおける RIM タスクが定義されます。次に、いくつかの一般的な画像マット化方法と特定のモデル設計がテストされます。これらの結果は、既存の方法の限界と可能な解決策に関する経験的な洞察を提供します。新しいタスク RIM と新しいデータセット RefMatte により、この分野で新たな研究の方向性が開かれ、将来の研究が促進されると信じています。

論文タイトル: 参照画像マッティング

論文アドレス: https://arxiv.org/abs/2206.0514 9

コードアドレス: https://github.com/JizhiziLi/RI M

1. 動機

画像マッティングとは、自然な画像の前景を抽出するソフト AHPH マッティングのことを指し、ビデオ会議、広告制作、電子商取引のプロモーションなど、さまざまな下流アプリケーションに役立ちます。一般的な切り抜き方法は、1) トライマップなどの補助入力ベースの方法と、2) 人間の介入なしに前景を抽出する自動切り抜き方法の 2 つのグループに分けられます。ただし、前者は自動アプリケーション シナリオには適しておらず、後者は通常、人間、動物、またはすべての顕著なオブジェクトなどの特定のオブジェクト カテゴリに制限されます。任意のオブジェクトの制御可能な画像マッティングを実行する方法、つまり、与えられた自然言語記述に最も一致する特定のオブジェクトのアルファマッティングを抽出する方法は、未解決の問題のままです。

参照表現セグメンテーション (RES)、参照画像セグメンテーション (RIS)、視覚的質問応答 (VQA)、参照表現理解 (REC) などの言語駆動型タスクは、広く研究されてきました。 ReferIt、Google RefExp、RefCOCO、VGPhraseCut、Cops-Ref などの多くのデータセットに基づいて、これらの分野で大きな進歩が遂げられています。たとえば、RES メソッドは、自然言語記述によって示される任意のオブジェクトをセグメント化することを目的としています。ただし、データセット内の画像の解像度が低く、マスクの注釈が粗いため、取得されたマスクは細かい詳細のないセグメンテーション レベルに制限されます。したがって、前景オブジェクトの詳細なアルファ キーイングを必要とするシーンでは使用できません。

このギャップを埋めるために、著者らは本論文で「Referring Image Matting (RIM)」という新しいタスクを提案しています。 RIM とは、画像内の特定の前景オブジェクトを、詳細で高品質なアルファマットとともに、与えられた自然言語の説明に最も一致するように抽出することを指します。上記の 2 つの画像切り抜き方法によって解決されるタスクとは異なり、RIM は、言語記述によって示された画像内の任意のオブジェクトの制御可能な画像切り抜きを実行することを目的としています。これは産業応用の分野で実用的な意義を持ち、学術界に新たな研究の方向性を開拓しました。

RIM の研究を促進するために、著者らは RefMatte という最初のデータセットを作成しました。このデータセットは、230 個のオブジェクト カテゴリ、47,500 個の画像、および対応する高品質のアルファ マットと 474,996 個の表情を持つ 118,749 個の表情領域エンティティで構成されています。

具体的には、このデータセットを構築するために、著者らはまず、AM-2k、P3M-10k、AIM-500、SIM などの多くの一般的な公開マッティング データセットを再検討し、各オブジェクトに手動でラベルを付けて慎重に検査しました。著者らはまた、さまざまなディープラーニングベースの事前トレーニング済みモデルを使用して、人間の性別、年齢、衣服の種類など、各エンティティのさまざまな属性を生成しました。次に、他の前景オブジェクトを考慮して、妥当な絶対位置と相対位置を持つ合成画像を生成するための包括的な構成および表現生成エンジンを設計します。最後に、著者らは、豊富な視覚属性を使用してさまざまな言語記述を生成するためのいくつかの表現ロジック形式を提案しました。さらに、著者らは、RIM 法の一般化能力を評価するために、さまざまなオブジェクトと人間の注釈付き表現を含む 100 枚の画像を含む実際のテスト セット RefMatte-RW100 を提案しました。上の画像にいくつかの例を示します。

関連タスクにおける最先端の手法を公平かつ包括的に評価するために、言語記述の形式に応じて、ヒントベースの設定と表現ベースの設定という 2 つの異なる設定で RefMatte でベンチマークします。代表的な方法はセグメンテーションタスク用に特別に設計されているため、RIM タスクに直接適用するとまだギャップが残ります。

この問題に対処するために、著者らは RIM 用にカスタマイズする 2 つの戦略を提案しています。つまり、1) CLIPmat という軽量のマッティング ヘッドを CLIPSeg の上に慎重に設計して、エンドツーエンドのトレーニング可能なパイプラインを維持しながら高品質のアルファ マッティング結果を生成します。2) セグメンテーション/マッティング結果をさらに改善するために、いくつかの個別の粗い画像ベースのマッティング メソッドをポスト リファイナーとして提供します。広範な実験結果により、1) RIM タスクの研究における提案された RefMatte データセットの価値が実証され、2) 言語記述形式の重要な役割が確認され、3) 提案されたカスタマイズ戦略の有効性が検証されました。

この研究の主な貢献は3つあります。 1) 与えられた自然言語記述に最もよく一致する特定の前景オブジェクトのアルファマットを識別して抽出することを目的とした、RIM という新しいタスクを定義します。2) 高品質のアルファマットと豊富な表現を含む、47,500 枚の画像と 118,749 個の表現領域エンティティで構成される最初の大規模データセット RefMatte を確立します。3) 2 つの異なる設定で RefMatte 用の 2 つの RIM 調整戦略を使用して代表的な最先端の方法をベンチマークし、いくつかの有用な洞察を得ます。

2. 方法

このセクションでは、RefMatte を構築するためのパイプライン (セクション 3.1 および 3.2) と、タスクの設定 (セクション 3.3)、およびデータセットの統計 (セクション 3.5) について説明します。 上の画像は、RefMatte のいくつかの例を示しています。さらに、著者らは、手動でラベル付けされた豊富な言語記述で注釈を付けた 100 枚の自然画像で構成される実際のテスト セットを構築しました (セクション 3.4)。

2.1 マットエンティティの準備

RefMatte データセットの構築に役立つ十分な高品質のマッティング エンティティを準備するために、著者らは現在利用可能なマッティング データセットを再検討し、要件を満たす前景を除外しました。次に、すべての候補エンティティのカテゴリに手動でラベルが付けられ、複数のディープラーニングベースの事前トレーニング済みモデルを使用してその属性に注釈が付けられます。

前処理とフィルタリング

画像マッティングタスクの性質上、すべての候補エンティティは、アルファマッティングで鮮明で細かいディテールを備えた高解像度である必要があります。さらに、将来の研究を容易にするために、データはオープンライセンスを通じて公開され、プライバシーの問題がないようにする必要があります。これらの要件を満たすために、著者は AM-2k、P3M-10k、AIM-500 のすべての前景画像を使用しました。具体的には、P3M-10k の場合、各エンティティが 1 つのフォアグラウンド インスタンスのみに関連付けられるように、2 つ以上のスティッキー フォアグラウンド インスタンスを持つイメージをフィルター処理します。 SIM、DIM、HATT などの他の利用可能なデータセットについては、著者らは人間のインスタンスの中から認識可能な顔がある前景画像を除外します。著者らは、解像度が低い、またはアルファマットの品質が低い前景画像も除外します。最終的なエンティティの総数は 13,187 でした。以降の合成ステップで使用する背景画像には、BG-20k 内のすべての画像を選択します。

エンティティのカテゴリ名に注釈を付ける

従来の自動マット処理方法では、画像から目立つ前景オブジェクトをすべて抽出する傾向があるため、各エンティティに特定の (カテゴリ) 名は提供されません。ただし、RIM タスクの場合は、それを記述するためのエンティティ名が必要です。著者らは、各エンティティに、特定のエンティティに対して人々が最も一般的に使用する名前を表すエントリレベルのカテゴリ名を付けました。ここでは、半自動戦略が採用されています。具体的には、著者らは ResNet-50-FPN バックボーンを備えた Mask RCNN 検出器を使用して、各フォアグラウンド インスタンスのカテゴリ名を自動的に検出してラベル付けし、手動で確認して修正します。 RefMatte には合計 230 のカテゴリがあります。さらに、著者らは多様性を高めるために、WordNet を採用して各カテゴリ名の同義語を生成しました。著者らは同義語を手作業で確認し、そのいくつかをより適切なものに置き換えました。

エンティティの属性に注釈を付ける

豊かな表現の形成をサポートするために、すべてのエンティティが豊富な視覚属性を持つようにするために、著者は、色、人間のエンティティの性別、年齢、衣服の種類など、複数の属性ですべてのエンティティに注釈を付けました。著者らは、このようなプロパティを生成するために半自動戦略も採用しています。色を生成するために、著者らは前景画像のすべてのピクセル値をクラスタ化し、最も一般的な値を見つけて、それを Web カラーの特定の色と一致させました。性別と年齢については、著者は事前にトレーニングされたモデルを使用します。常識に従って、予測年齢に基づいて年齢グループを定義します。衣服の種類については、著者は事前にトレーニングされたモデルを使用します。さらに、前景分類にヒントを得て、すべてのエンティティに顕著または目立たない属性と透明または不透明属性を追加します。これらの属性は、画像マッティング タスクでも重要です。最終的に、すべてのエンティティには少なくとも 3 つの属性があり、人間のエンティティには少なくとも 6 つの属性があります。

2.2 画像の構成と表現の生成

前のセクションで収集されたマッティングエンティティに基づいて、著者らは、RefMatte データセットを構築するための画像合成エンジンと表現生成エンジンを提案しました。さまざまなエンティティをどのように配置して合理的な合成画像を形成し、同時にこれらの合成画像内のエンティティを説明するために意味的に明確で文法的に正しく、豊かで凝った表現を生成するかが、RefMatte を構築する上で重要かつ難しい点です。この目的のために、著者らは、合成画像内のさまざまなエンティティを配置するための 6 つの位置関係を定義し、さまざまな論理形式を利用して適切な表現を生成します。

画像合成エンジン

エンティティを合理的な位置関係で配置しながら高解像度を維持するために、合成画像ごとに 2 つまたは 3 つのエンティティを使用します。著者は、左、右、上、下、前、後ろの 6 つの位置関係を定義しています。各関係について、最初に前景画像が生成され、アルファ ブレンディングによって BG-20k の背景画像と合成されます。具体的には、左、右、上、下の関係については、詳細を保持するために前景インスタンスに遮蔽がないことを確認します。前景と背景の関係については、前景インスタンス間の遮蔽は、それらの相対位置を調整することによってシミュレートされます。著者らは、それぞれの関係を表す候補となる単語のバッグを準備します。

表現生成エンジン

合成画像内のエンティティに豊富な表現を提供するために、著者は、異なる論理定義形式の観点から、各エンティティに対して3つの表現を定義します。ここで、は属性を表し、はカテゴリ名を表し、は参照エンティティと関連エンティティの関係を表します。3つの表現の例を上記の図(a)、(b)、(c)に示します。

2.3 データセットの分割とタスク設定

データセットの分割

データセットには合計 13,187 個のカットアウト エンティティが含まれており、そのうち 11,799 個はトレーニング セットの構築に使用され、1,388 個はテスト セットに使用されます。ただし、ほとんどのエンティティが人間または動物のカテゴリに属しているため、トレーニング セットとテスト セットのクラスはバランスが取れていません。具体的には、トレーニング セット内の 11,799 個のエンティティのうち、人間が 9,186 個、動物が 1,800 個、オブジェクトが 813 個あります。 1,388 個のエンティティのテスト セットには、977 個の人間、200 個の動物、211 個のオブジェクトが含まれています。カテゴリのバランスをとるために、人間:動物:オブジェクトの比率が 5:1:1 になるようにエンティティを複製しました。したがって、トレーニング セットには 10,550 人の人間、2,110 匹の動物、2,110 個のオブジェクトが含まれ、テスト セットには 1,055 人の人間、211 匹の動物、211 個のオブジェクトが含まれます。

RefMatte 用の画像を生成するには、トレーニングまたはテストの分割から 5 人の人間、1 匹の動物、および 1 つのオブジェクトのグループを選択し、それらを画像合成エンジンに入力します。トレーニングまたはテスト分割の各グループに対して、トレーニング セットを形成するための 20 枚の画像と、テスト セットを形成するための 10 枚の画像を生成します。左右:上下:前後の関係の比率は 7:2:1 に設定されています。各画像内のエンティティの数は 2 または 3 に設定されました。コンテキスト関係では、各エンティティの高解像度を維持するために、常に 2 つのエンティティを選択します。このプロセスの後、42,200 枚のトレーニング画像と 2,110 枚のテスト画像が作成されます。エンティティの組み合わせの多様性をさらに高めるために、すべての候補からエンティティと関係をランダムに選択して、さらに 2,800 枚のトレーニング イメージと 390 枚のテスト イメージを作成します。最後に、トレーニング セットには 45,000 枚の合成画像があり、テスト セットには 2,500 枚の画像があります。

タスク設定

さまざまな形式の言語記述を前提とした RIM アプローチをベンチマークするために、著者らは RefMatte で 2 つの設定を設定しました。

プロンプトベースの設定: この設定のテキスト説明はプロンプトであり、エンティティのエントリレベルのカテゴリ名です。たとえば、上の図のプロンプトは、花、人、アルパカです。

式ベースの設定: この設定のテキスト説明は、前のセクションで生成された式です。基本式、絶対位置式、相対位置式から選択します。いくつかの例は上の画像にも示されています。

2.4 実際のテストセット

RefMatte は合成画像に基づいて構築されているため、合成画像と現実世界の画像の間にドメインギャップが生じる可能性があります。 RIM モデルの実世界の画像への一般化能力を研究するために、著者らはさらに、RefMatte-RW100 と呼ばれる実世界のテスト セットを作成しました。これは、各画像に 2 ~ 3 個のエンティティが含まれる 100 枚の実世界の高解像度画像で構成されています。次に、セクション 3.2 と同じ 3 つの設定に従って、それらの表現に注釈を付けます。さらに、著者はコメントで自由な表現を加えました。高品質のアルファ カットアウト タグについては、著者は Adob​​e Photoshop や GIMP などの画像編集ソフトウェアを使用してタグを生成しました。 RefMatte-RW100 のいくつかの例を上に示します。

2.5 RefMatteデータセットとRefMatte-RW100テストセットの統計

著者らは、上記の表に示すように、RefMatte データセットと RefMatte-RW100 テスト セットの統計を計算しました。ヒントベースの設定では、テキストの説明がエントリーレベルのカテゴリ名であるため、曖昧な推論を避けるために、同じカテゴリに属する​​複数のエンティティを含む画像を削除します。したがって、この設定では、トレーニング セットには 30,391 枚の画像があり、テスト セットには 1,602 枚の画像があります。アルファカットアウトの数、テキストの説明、カテゴリ、属性、関係は、それぞれ上記の表に示されています。ヒントベースの設定では、カテゴリごとに単語が 1 つしかないため、平均テキスト長は約 1 ですが、表現ベースの設定では平均テキスト長がはるかに大きくなり、RefMatte では約 16.8、RefMatte-RW100 では約 12 になります。

著者は、上の図で、RefMatte 内の手がかり、属性、関係性のワード クラウドも生成しました。画像マット処理タスクでは非常に一般的なので、データセットには人間と動物が大部分含まれていることがわかります。 RefMatte で最も一般的な属性は、男性的、灰色、透明、重要であり、関係用語はよりバランスが取れています。

3. 実験

RIM と RIS/RES のタスクの違いにより、RIS/RES メソッドを RIM に直接適用した結果は楽観的ではありません。この問題に対処するために、著者らは RIM 用にカスタマイズするための 2 つの戦略を提案しています。

1) マッティング ヘッドの追加: エンドツーエンドのトレーニング可能なパイプラインを維持しながら、高品質のアルファ マッティングを生成するために、既存のモデルの上に軽量のマッティング ヘッドを設計します。具体的には、著者らは CLIPSeg をベースにした CLIPMat と呼ばれる軽量のカットアウト デコーダーを設計しました。

2) マッティング リファイナーの使用: 著者らは、上記の方法のセグメンテーション/マッティング結果をさらに改善するために、ポスト リファイナーとして別の粗い画像ベースのマッティング方法を採用しています。具体的には、著者らは入力画像と粗い画像をマッティング リファイナーとして使用して、GFM と P3M をトレーニングします。

著者らは、RefMatte テスト セットのヒントベースの設定で MDETR、CLIPSeg、および CLIPMat を評価し、上記の表に定量的な結果を示しています。カットアウト リファイナーの使用の有無にかかわらず、CLIPMat は MDETR および CLIPSeg と比較して最高のパフォーマンスを発揮し、カットアウト ヘッドを追加して CLIPSeg を RIM タスク用にカスタマイズすることの有効性を検証していることがわかります。さらに、2 つのカットアウト リファイナーのいずれかを使用すると、3 つの方法のパフォーマンスをさらに向上させることができます。

著者らはまた、RefMatte テスト セットと RefMatte-RW100 の表現ベースの設定で 3 つの方法を評価し、上記の表に定量的な結果を示しています。 CLIPMat は、RefMatte テスト セットでより多くの詳細を保持する優れた能力を再び示しています。 RefMatte-RW100 でテストしたところ、CLIPSeg や CLIPMat などの 1 段階方式は、2 段階方式、つまり MDETR よりも遅れをとっていました。これは、MDETR の検出器がクロスモーダル セマンティクスを理解する能力に優れているためと考えられます。

プロンプト入力フォームの影響を調査するために、著者らはさまざまなプロンプト テンプレートのパフォーマンスを評価しました。従来のテンプレートに加えて、著者は、<エンティティ名> の前景/マスク/アルファ マットなど、画像マット処理タスク専用に設計されたテンプレートも追加しました。結果は上の表に示されています。 CLIPmat のパフォーマンスはプロンプトによって大きく異なることがわかります。

この論文ではタスク内でさまざまな種類の表現を紹介しているので、それぞれの種類が切り抜きパフォーマンスに与える影響を見ることができます。上記の表に示すように、最高のパフォーマンスを示したモデル CLIPMat は RefMatte テスト セットでテストされ、モデル MDETR は RefMatte-RW100 でテストされました。

4. 結論

本稿では、Reference Image Matting (RIM) という新しいタスクを提案し、大規模なデータセット RefMatte を構築します。著者らは、RIM の関連タスクに関する既存の代表的な方法をカスタマイズし、RefMatte での広範な実験を通じてそのパフォーマンスを測定します。私たちの実験結果は、モデル設計、テキスト記述の影響、合成画像と実際の画像間のドメインギャップに関する有用な洞察を提供します。 RIM の研究は、インタラクティブな画像編集や人間とコンピュータの相互作用など、多くの実用的なアプリケーションに役立ちます。 RefMatte はこの分野の研究を促進することができます。ただし、合成領域と現実領域のギャップにより、現実世界の画像への一般化が制限される可能性があります。

<<:  機械学習を攻撃に利用する9つの方法

>>:  研究により機械学習のバックドア問題が発見される

ブログ    

推薦する

...

AIは自分が生成したものを理解できるのか?GPT-4とMidjourneyを試した後、誰かがこの問題を解決した

ChatGPTからGPT4、DALL・E 2/3からMidjourneyまで、生成AIはこれまでにな...

ジェネレーティブ AI: 誇大宣伝以上の価値を生み出す 3 つの重要な要素

最近、ガートナーは、生成型人工知能 (GenAI) を新興技術の誇大宣伝サイクルにおける「過大な期待...

求職者がAI面接に遭遇したとき

自分が非常に興味を持っている職種に応募していると想像してください。企業から、あなたの履歴書は人工知能...

AIサークルが爆発した!マイクロソフトがトランスフォーマーのブロックを解除、シーケンスの長さが10億以上に拡大

ビッグデータダイジェスト制作AIサークルが爆発した! Microsoft が立ち上げた LONGNE...

2020年のトレンドの方向性: 産業用インターネットの人工知能アプリケーションが基礎となる

年末が近づくにつれ、多くの研究機関が2020年のトレンド予測を発表しています。これらの予測の多くは、...

...

2つのセッションでは人工知能技術が注目を集めました。AI技術はこれらの業界で導入されています

近年、人工知能がブームを迎えており、人々は合理的な分析と思考を通じて、人工知能の波をどのように利用し...

OpenAIの「月面着陸プロジェクト」はスーパーAIを目指す!ルカンはAGIへの道の7つの段階を提案し、世界モデルの構築が最初の段階である。

汎用 AGI はもうすぐ実現するかもしれません。 OpenAIの次なる「月面着陸計画」は、待望のスー...

...

...

...

DAMOアカデミーAIが中国科学技術博物館に展示され、AIが認識した初のCOVID-19 CTスキャンが科学技術による防疫努力の歴史的証人となる

5月29日、全国科学技術労働者の日が近づく中、アリババDAMOアカデミーのAIによって識別されラベル...

人工知能は人類にユートピアをもたらすのか、それともディストピアをもたらすのか?

[[187202]]ロボットはユートピアをもたらすのか、それともディストピアをもたらすのか?作家ピ...

大型モデルでも「ドリフト」現象は発生しますか? AIアプリケーション開発者は注意が必要

データセンターでの機械学習プロジェクトの開発に精通している読者は、データドリフトとコンセプトドリフト...