オクルージョンは、コンピューター ビジョンにおける最も基本的な問題ですが、未だに解決されていない問題の 1 つです。オクルージョンは視覚情報の欠如を意味しますが、マシン ビジョン システムは視覚情報に依存して認識と理解を行っており、現実世界では、オブジェクト間の相互オクルージョンは至る所で発生しています。オックスフォード大学 VGG ラボの Andrew Zisserman 氏のチームによる最新の研究では、任意のオブジェクトの遮蔽完了の問題を体系的に解決し、この問題に対する新しい、より正確な評価データセットを提案しています。この研究は、X プラットフォーム上の MPI リーダー Michael Black、CVPR 公式アカウント、南カリフォルニア大学コンピューターサイエンス学部の公式アカウントによって賞賛されました。以下は論文「Amodal Ground Truth and Completion in the Wild」の主な内容です。
アモーダルセグメンテーションは、オブジェクトの遮蔽された部分を完成させること、つまり、オブジェクトの可視部分と不可視部分の形状マスクを与えることを目的としています。このタスクは、オブジェクト認識、ターゲット検出、インスタンスのセグメンテーション、画像編集、3D 再構築、ビデオ オブジェクトのセグメンテーション、オブジェクト間の関係性推論のサポート、ロボットの操作とナビゲーションなど、多くの下流タスクに役立ちます。これは、遮蔽されたオブジェクトの完全な形状を知ることがこれらのタスクに役立つためです。 しかし、現実世界でアモーダルセグメンテーションのモデルのパフォーマンスをどのように評価するかは難しい問題です。多くの写真に遮蔽されたオブジェクトが多数あるにもかかわらず、これらのオブジェクトの完全な形状の参照標準またはアモーダルマスクをどのように取得するのでしょうか。これまでの研究では、非モーダルマスクに手動で注釈を付けていましたが、このような注釈付きの参照標準では人為的エラーの発生は避けられません。他の研究では、遮蔽されたオブジェクトの完全な形状を取得するために、別のオブジェクトを完全なオブジェクトに直接貼り付けるなど、合成データセットを作成しましたが、この方法で取得した画像は実際の画像シーンではありません。そのため、本研究では、複数のオブジェクトカテゴリをカバーし、アモーダルセグメンテーションのパフォーマンスを正確に評価するためのアモーダルマスクを提供する大規模な実画像データセット(MP3D-アモーダル)を構築するための3Dモデル投影法を提案します。さまざまなデータ セットの比較を以下に示します。 具体的には、MatterPort3D データセットを例にとると、実際の写真とシーンの 3 次元構造を含む任意のデータセットに対して、シーン内のすべてのオブジェクトの 3 次元形状を同時にカメラに投影して、各オブジェクトのモーダル マスク (オブジェクトが互いに遮蔽されているため、目に見える形状) を取得し、次にシーン内の各オブジェクトの 3 次元形状を個別にカメラに投影して、オブジェクトの非モーダル マスク、つまり完全な形状を取得できます。モーダルマスクとアモーダルマスクを比較することで、遮蔽されたオブジェクトを抽出できます。 データセットの統計は次のとおりです。 以下はデータセットのサンプルです。 さらに、任意のオブジェクトの完全な形状を再構築するという課題を解決するために、著者は、安定拡散モデルの特徴からオブジェクトの完全な形状に関する事前知識を抽出し、遮蔽された任意のオブジェクトに対して非モーダルセグメンテーションを実行します。具体的なアーキテクチャは次のとおりです (SDAmodal): Stable Diffusion 特徴の使用を提案する動機は、Stable Diffusion には画像を補完する機能があるため、ある程度、オブジェクトに関するすべての情報が含まれている可能性があり、また、Stable Diffusion は大量の画像でトレーニングされているため、その特徴にはあらゆる環境のあらゆるオブジェクトを処理する機能があると期待できることです。以前の 2 段階フレームワークとは異なり、SDAmodal は入力としてラベル付けされたオクルージョン マスクを必要としません。SDAmodal はシンプルなアーキテクチャですが、強力なゼロ ショット一般化機能を備えています (下の表の設定 F と H を比較してください。これらは COCOA でのみトレーニングされていますが、異なるドメインとカテゴリの別のデータセットで改善できます)。オクルージョンに関する注釈がなくても、SDAmodal は、さまざまなオクルージョン オブジェクトをカバーする既存の COCOA データセットと、新しく提案された MP3D-Amodal データセットで SOTA パフォーマンス (設定 H) を達成しています。 定量的実験に加えて、定性的な比較でも SDAmodal モデルの利点が反映されています。下の図 (すべてのモデルは COCOA のみでトレーニングされています) でわかるように、COCOA または別の MP3D-Amodal のどちらからでも、さまざまな種類の遮蔽オブジェクトに対して、SDAmodal はアモーダル セグメンテーションの効果を大幅に向上させ、予測されたアモーダル マスクは現実に近くなります。 詳細については、原著論文をお読みください。 |
<<: 世界の AI 人材レポートが発表されました: 清華大学が 3 位、北京大学が 6 位にランクイン!シリコンバレーが40万人を解雇、プログラマーの面接は12回
>>: Tian Yuandong らの新しい研究: メモリのボトルネックを突破し、4090 で 7B の大規模モデルを事前トレーニング可能に
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
理由はよく分かりませんが、WORD ファイル内のすべての日付が変更されました。WORD マクロ ウイ...
新薬の継続的な登場により、人間の生活の質と平均寿命はある程度向上しました。医薬品設計の分野では、薬物...
この記事では、一般的に使用されているいくつかの圧縮アルゴリズムのパフォーマンスを比較します。結果は、...
最近、マスク氏がOpenAIを訴えたというニュースがテクノロジー界に再び波紋を巻き起こしている。 1...
米国特許商標庁(USPTO)が10月27日に発表した新しい報告書によると、2018年のすべての新しい...
人工知能の活発な発展は大きな論争を引き起こしています。発展の一般的な傾向からすると、これはデメリット...
ドライバーが毎回信号を直進できるように旅行を計画できたらどうなるでしょうか?これは、特に幸運な状況下...
統合と国境を越えた発展が進む今日の世界において、教育が象牙の塔に留まり、自己満足に浸っているだけでは...