「AI Perspective Eyes」では、マー賞を3度受賞したアンドリューが、任意のオブジェクトの遮蔽補完の問題を解決するチームを率いた。

「AI Perspective Eyes」では、マー賞を3度受賞したアンドリューが、任意のオブジェクトの遮蔽補完の問題を解決するチームを率いた。

オクルージョンは、コンピューター ビジョンにおける最も基本的な問題ですが、未だに解決されていない問題の 1 つです。オクルージョンは視覚情報の欠如を意味しますが、マシン ビジョン システムは視覚情報に依存して認識と理解を行っており、現実世界では、オブジェクト間の相互オクルージョンは至る所で発生しています。オックスフォード大学 VGG ラボの Andrew Zisserman 氏のチームによる最新の研究では、任意のオブジェクトの遮蔽完了の問題を体系的に解決し、この問題に対する新しい、より正確な評価データセットを提案しています。この研究は、X プラットフォーム上の MPI リーダー Michael Black、CVPR 公式アカウント、南カリフォルニア大学コンピューターサイエンス学部の公式アカウントによって賞賛されました。以下は論文「Amodal Ground Truth and Completion in the Wild」の主な内容です。


  • 論文リンク: https://arxiv.org/pdf/2312.17247.pdf
  • プロジェクトのホームページ: https://www.robots.ox.ac.uk/~vgg/research/amodal/
  • コードアドレス: https://github.com/Championchess/Amodal-Completion-in-the-Wild

アモーダルセグメンテーションは、オブジェクトの遮蔽された部分を完成させること、つまり、オブジェクトの可視部分と不可視部分の形状マスクを与えることを目的としています。このタスクは、オブジェクト認識、ターゲット検出、インスタンスのセグメンテーション、画像編集、3D 再構築、ビデオ オブジェクトのセグメンテーション、オブジェクト間の関係性推論のサポート、ロボットの操作とナビゲーションなど、多くの下流タスクに役立ちます。これは、遮蔽されたオブジェクトの完全な形状を知ることがこれらのタスクに役立つためです。

しかし、現実世界でアモーダルセグメンテーションのモデルのパフォーマンスをどのように評価するかは難しい問題です。多くの写真に遮蔽されたオブジェクトが多数あるにもかかわらず、これらのオブジェクトの完全な形状の参照標準またはアモーダルマスクをどのように取得するのでしょうか。これまでの研究では、非モーダルマスクに手動で注釈を付けていましたが、このような注釈付きの参照標準では人為的エラーの発生は避けられません。他の研究では、遮蔽されたオブジェクトの完全な形状を取得するために、別のオブジェクトを完全なオブジェクトに直接貼り付けるなど、合成データセットを作成しましたが、この方法で取得した画像は実際の画像シーンではありません。そのため、本研究では、複数のオブジェクトカテゴリをカバーし、アモーダルセグメンテーションのパフォーマンスを正確に評価するためのアモーダルマスクを提供する大規模な実画像データセット(MP3D-アモーダル)を構築するための3Dモデル投影法を提案します。さまざまなデータ セットの比較を以下に示します。

具体的には、MatterPort3D データセットを例にとると、実際の写真とシーンの 3 次元構造を含む任意のデータセットに対して、シーン内のすべてのオブジェクトの 3 次元形状を同時にカメラに投影して、各オブジェクトのモーダル マスク (オブジェクトが互いに遮蔽されているため、目に見える形状) を取得し、次にシーン内の各オブジェクトの 3 次元形状を個別にカメラに投影して、オブジェクトの非モーダル マスク、つまり完全な形状を取得できます。モーダルマスクとアモーダルマスクを比較することで、遮蔽されたオブジェクトを抽出できます。

データセットの統計は次のとおりです。

以下はデータセットのサンプルです。

さらに、任意のオブジェクトの完全な形状を再構築するという課題を解決するために、著者は、安定拡散モデルの特徴からオブジェクトの完全な形状に関する事前知識を抽出し、遮蔽された任意のオブジェクトに対して非モーダルセグメンテーションを実行します。具体的なアーキテクチャは次のとおりです (SDAmodal):

Stable Diffusion 特徴の使用を提案する動機は、Stable Diffusion には画像を補完する機能があるため、ある程度、オブジェクトに関するすべての情報が含まれている可能性があり、また、Stable Diffusion は大量の画像でトレーニングされているため、その特徴にはあらゆる環境のあらゆるオブジェクトを処理する機能があると期待できることです。以前の 2 段階フレームワークとは異なり、SDAmodal は入力としてラベル付けされたオクルージョン マスクを必要としません。SDAmodal はシンプルなアーキテクチャですが、強力なゼロ ショット一般化機能を備えています (下の表の設定 F と H を比較してください。これらは COCOA でのみトレーニングされていますが、異なるドメインとカテゴリの別のデータセットで改善できます)。オクルージョンに関する注釈がなくても、SDAmodal は、さまざまなオクルージョン オブジェクトをカバーする既存の COCOA データセットと、新しく提案された MP3D-Amodal データセットで SOTA パフォーマンス (設定 H) を達成しています。

定量的実験に加えて、定性的な比較でも SDAmodal モデルの利点が反映されています。下の図 (すべてのモデルは COCOA のみでトレーニングされています) でわかるように、COCOA または別の MP3D-Amodal のどちらからでも、さまざまな種類の遮蔽オブジェクトに対して、SDAmodal はアモーダル セグメンテーションの効果を大幅に向上させ、予測されたアモーダル マスクは現実に近くなります。

詳細については、原著論文をお読みください。

<<:  世界の AI 人材レポートが発表されました: 清華大学が 3 位、北京大学が 6 位にランクイン!シリコンバレーが40万人を解雇、プログラマーの面接は12回

>>:  Tian Yuandong らの新しい研究: メモリのボトルネックを突破し、4090 で 7B の大規模モデルを事前トレーニング可能に

ブログ    
ブログ    
ブログ    

推薦する

人工知能の分野に早く参入したいJavaプログラマーですか?準備はできたか?

導入今日は、Java プログラマーとして人工知能の分野に素早く参入する方法について説明します。現在、...

...

機械学習情報工場になるためには、企業はリーン製造からこれらの6つの基本を学ぶ必要がある

【51CTO.com クイック翻訳】調査機関Forrester Researchが最近発表した調査レ...

DiDiのグローバルDi-Techアルゴリズムコンテストが終了し、中国のプレイヤーが10万ドルの優勝賞金を獲得した。

7月20日、滴滴出行の第一回グローバルDi-Techアルゴリズムコンテストが本日正式に終了しました...

機械学習を独学で学んだら、どうやって仕事を見つければいいのでしょうか?少なくともトップ10の地雷原は避ける

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

人工知能はモノのインターネットにおける次のブレークスルーとなるでしょうか?

AIoT は、モノのインターネットとそれに接続されたデバイスのネットワークをクラウドから解放し、イ...

分散コンセンサスアルゴリズム EPaxos について 1 つの記事で学ぶ

分散システムにおける中心的な問題はデータの一貫性です。 Paxos アルゴリズムは分散一貫性における...

仕事とAIの未来

[[340645]] [51CTO.com クイック翻訳] 人工知能が雇用に与える影響は、現在、さま...

IntelがBigDLディープラーニングフレームワークをリリース、CPUを使ってGPUを攻撃する予定

[51CTO.com クイック翻訳] 先週、Intel は分散型ディープラーニング用のオープンソース...

...

ハッカーたちは猫娘を作成する代わりに、一流の原子力研究所から何十万ものデータを盗んだ...

米国にある世界トップクラスの原子力研究所の一つが最近、大きな問題に直面している。データベースがハッキ...

人工知能が将来経験する7つの段階

2030年までに、人工知能のおかげで世界のGDPは15.7兆ドル増加するでしょう。企業の 84% は...

...

物流の新たな勢いを刺激するGewutaiは、Anjiのインテリジェントマシンビジョンのスマート化を支援します

[[417396]]上海にある新エネルギー車を製造する全自動立体倉庫では、受注から製品出荷までの時間...