「AI Perspective Eyes」では、マー賞を3度受賞したアンドリューが、任意のオブジェクトの遮蔽補完の問題を解決するチームを率いた。

「AI Perspective Eyes」では、マー賞を3度受賞したアンドリューが、任意のオブジェクトの遮蔽補完の問題を解決するチームを率いた。

オクルージョンは、コンピューター ビジョンにおける最も基本的な問題ですが、未だに解決されていない問題の 1 つです。オクルージョンは視覚情報の欠如を意味しますが、マシン ビジョン システムは視覚情報に依存して認識と理解を行っており、現実世界では、オブジェクト間の相互オクルージョンは至る所で発生しています。オックスフォード大学 VGG ラボの Andrew Zisserman 氏のチームによる最新の研究では、任意のオブジェクトの遮蔽完了の問題を体系的に解決し、この問題に対する新しい、より正確な評価データセットを提案しています。この研究は、X プラットフォーム上の MPI リーダー Michael Black、CVPR 公式アカウント、南カリフォルニア大学コンピューターサイエンス学部の公式アカウントによって賞賛されました。以下は論文「Amodal Ground Truth and Completion in the Wild」の主な内容です。


  • 論文リンク: https://arxiv.org/pdf/2312.17247.pdf
  • プロジェクトのホームページ: https://www.robots.ox.ac.uk/~vgg/research/amodal/
  • コードアドレス: https://github.com/Championchess/Amodal-Completion-in-the-Wild

アモーダルセグメンテーションは、オブジェクトの遮蔽された部分を完成させること、つまり、オブジェクトの可視部分と不可視部分の形状マスクを与えることを目的としています。このタスクは、オブジェクト認識、ターゲット検出、インスタンスのセグメンテーション、画像編集、3D 再構築、ビデオ オブジェクトのセグメンテーション、オブジェクト間の関係性推論のサポート、ロボットの操作とナビゲーションなど、多くの下流タスクに役立ちます。これは、遮蔽されたオブジェクトの完全な形状を知ることがこれらのタスクに役立つためです。

しかし、現実世界でアモーダルセグメンテーションのモデルのパフォーマンスをどのように評価するかは難しい問題です。多くの写真に遮蔽されたオブジェクトが多数あるにもかかわらず、これらのオブジェクトの完全な形状の参照標準またはアモーダルマスクをどのように取得するのでしょうか。これまでの研究では、非モーダルマスクに手動で注釈を付けていましたが、このような注釈付きの参照標準では人為的エラーの発生は避けられません。他の研究では、遮蔽されたオブジェクトの完全な形状を取得するために、別のオブジェクトを完全なオブジェクトに直接貼り付けるなど、合成データセットを作成しましたが、この方法で取得した画像は実際の画像シーンではありません。そのため、本研究では、複数のオブジェクトカテゴリをカバーし、アモーダルセグメンテーションのパフォーマンスを正確に評価するためのアモーダルマスクを提供する大規模な実画像データセット(MP3D-アモーダル)を構築するための3Dモデル投影法を提案します。さまざまなデータ セットの比較を以下に示します。

具体的には、MatterPort3D データセットを例にとると、実際の写真とシーンの 3 次元構造を含む任意のデータセットに対して、シーン内のすべてのオブジェクトの 3 次元形状を同時にカメラに投影して、各オブジェクトのモーダル マスク (オブジェクトが互いに遮蔽されているため、目に見える形状) を取得し、次にシーン内の各オブジェクトの 3 次元形状を個別にカメラに投影して、オブジェクトの非モーダル マスク、つまり完全な形状を取得できます。モーダルマスクとアモーダルマスクを比較することで、遮蔽されたオブジェクトを抽出できます。

データセットの統計は次のとおりです。

以下はデータセットのサンプルです。

さらに、任意のオブジェクトの完全な形状を再構築するという課題を解決するために、著者は、安定拡散モデルの特徴からオブジェクトの完全な形状に関する事前知識を抽出し、遮蔽された任意のオブジェクトに対して非モーダルセグメンテーションを実行します。具体的なアーキテクチャは次のとおりです (SDAmodal):

Stable Diffusion 特徴の使用を提案する動機は、Stable Diffusion には画像を補完する機能があるため、ある程度、オブジェクトに関するすべての情報が含まれている可能性があり、また、Stable Diffusion は大量の画像でトレーニングされているため、その特徴にはあらゆる環境のあらゆるオブジェクトを処理する機能があると期待できることです。以前の 2 段階フレームワークとは異なり、SDAmodal は入力としてラベル付けされたオクルージョン マスクを必要としません。SDAmodal はシンプルなアーキテクチャですが、強力なゼロ ショット一般化機能を備えています (下の表の設定 F と H を比較してください。これらは COCOA でのみトレーニングされていますが、異なるドメインとカテゴリの別のデータセットで改善できます)。オクルージョンに関する注釈がなくても、SDAmodal は、さまざまなオクルージョン オブジェクトをカバーする既存の COCOA データセットと、新しく提案された MP3D-Amodal データセットで SOTA パフォーマンス (設定 H) を達成しています。

定量的実験に加えて、定性的な比較でも SDAmodal モデルの利点が反映されています。下の図 (すべてのモデルは COCOA のみでトレーニングされています) でわかるように、COCOA または別の MP3D-Amodal のどちらからでも、さまざまな種類の遮蔽オブジェクトに対して、SDAmodal はアモーダル セグメンテーションの効果を大幅に向上させ、予測されたアモーダル マスクは現実に近くなります。

詳細については、原著論文をお読みください。

<<:  世界の AI 人材レポートが発表されました: 清華大学が 3 位、北京大学が 6 位にランクイン!シリコンバレーが40万人を解雇、プログラマーの面接は12回

>>:  Tian Yuandong らの新しい研究: メモリのボトルネックを突破し、4090 で 7B の大規模モデルを事前トレーニング可能に

ブログ    
ブログ    
ブログ    

推薦する

テキスト生成画像は非常に人気があり、これらの技術の進化を理解する必要があります

OpenAIは最近、AIコミュニティに「地震」を引き起こしたDALL・E 2システムをリリースしま...

業界に革命を起こすスマートパッケージング技術トップ10

ほとんどの人がサプライチェーン技術について考えるとき、パッケージングは​​おそらく最初に思い浮かぶも...

GNNに大量のデータを与えると重力の法則が発見される

機械学習 (ML) は、大規模なデータセット内の特徴を学習し、さまざまなオブジェクトを分類し、パラメ...

...

人工知能はすべての未来でしょうか?

画期的なテクノロジーの年である 2023 年が終わりを迎えるにあたり、AI、特に生成 AI は変革の...

高性能かつ低消費時間!新しい 3D Occupancy Network SGN を試してみませんか?オープンソース

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

AIとMLに対する5つの潜在的な致命的な脅威とその解決方法

[[267669]] [51CTO.com 速訳] 人工知能(AI)と機械学習(ML)は、この時代の...

...

3D生成の中核理論の再構築:VAST、香港大学、清華大学が「ゼロ」のトレーニングデータで3Dモデルを生成

トレーニング データは必要ありません。「宿題をしているバナナマン」などの文をモデルに説明するだけです...

...

こんなに高い給料がもらえる機械学習の職種の面接を受けるにはどうしたらいいのでしょうか?

[[199809]]まず第一に、この質問は非常に広範囲にわたります。機械学習にはさまざまな方向性が...

人工知能が医療をどのように改善できるか

人工知能は医療と医療の分野で大きな力を発揮することが証明されている 人工知能は、特に医療分野において...

テンセントは顔認識技術を使って未成年者への薬物依存防止規制を強化

米国のメディアによると、子供や十代の若者はビデオゲームに関するほぼすべての制限に対処する方法を見つけ...

...