清華大学は、2D拡散モデルを使用して不完全な3Dオブジェクトを補完する3D再構築の新しい方法、O²-Reconを提案しました。

清華大学は、2D拡散モデルを使用して不完全な3Dオブジェクトを補完する3D再構築の新しい方法、O²-Reconを提案しました。

コンピューター ビジョンでは、オブジェクト レベルの 3D サーフェス再構築テクノロジは多くの課題に直面しています。シーンレベルの再構築技術とは異なり、オブジェクトレベルの 3D 再構築では、きめ細かいシーンのモデリングと理解をサポートするために、シーン内の各オブジェクトに対して独立した 3D 表現が必要です。これは、AR/VR/MR やロボット関連のアプリケーションにとって非常に重要です。

既存の多くの方法では、3D 生成モデルの潜在空間を使用して、オブジェクト レベルの 3D 再構築を完了します。これらの方法では、潜在空間のエンコード ベクトルを使用してオブジェクトの形状を表し、再構築タスクをオブジェクトのポーズと形状エンコードの共同推定としてモデル化します。これらの方法は、生成モデルの潜在空間の優れた特性を利用して、オブジェクトの完全な形状を再構築できますが、テーブルや椅子などの特定のカテゴリのオブジェクトの 3D 再構築に限定されます。これらのカテゴリ内でも、このような方法で最適化された形状エンコーディングは、実際のオブジェクトの 3D 形状と正確に一致しないことがよくあります。他の方法では、データベースから適切な CAD モデルを取得し、オブジェクトのポーズ推定を使用して 3D 再構築を完了します。これらの方法も同様の問題に直面しています。スケーラビリティが制限され、再構築の精度が低く、オブジェクトの実際の 3D 表面構造に適合させることが困難です。

NeRFやNeuSなどの技術の発展により、imapやvMapなどの技術は微分可能なレンダリングを使用してオブジェクトの幾何学的構造を最適化できるようになりました。これらの方法は、実際のオブジェクトの表面とより一致するメッシュモデルを再構築できるだけでなく、複数のカテゴリのオブジェクトを再構築して、単一のオブジェクトカテゴリの制限を打ち破ることもできます。しかし、シーン内の撮影角度の制約により、壁に近いオブジェクトや、オブジェクト同士が遮蔽されるなど、多くのオブジェクトが遮蔽されます。オブジェクトが遮蔽されている場合、これらの方法で再構築されたオブジェクトは、次の図に示すように不完全になることがよくあります。これらの不完全な 3D モデルは、大きな角度の回転や広範囲の移動をサポートできないため、さまざまな下流のタスクで使用することが困難になります。

閉塞下での再建結果

清華大学の劉永金教授のチームは、物体の3D再構築のための新しい方法であるO²-Reconを提案しました。これは、既存の2D拡散モデルを使用して物体画像内の遮蔽された領域を補完し、次にニューラル暗黙的表面場を使用して、完成した画像から完全な3D物体を再構築します。本論文では、再投影メカニズムを使用して塗りつぶされた領域の3次元の一貫性を維持し、CLIP損失関数を追加して、暗黙的な再構築プロセスで目に見えない角度の意味情報を監視します。最終的に、完全で合理的​​な3次元オブジェクトモデルが再構築され、大きな角度の回転と変換をサポートし、さまざまな下流タスクに使用できます。現在、この論文は人工知能のトップカンファレンスの一つであるAAAI 2024に採択されています。

論文リンク: https://arxiv.org/abs/2308.09591

O²-Reconについて

方法の紹介

画像補完タスクにおける 2D 拡散モデルの優れたパフォーマンスにヒントを得て、研究者らは、事前トレーニング済みの拡散モデルを使用して画像内のオブジェクトの遮蔽された領域を補完することを目的とした O²-Recon メソッドを設計しました。既存の拡散モデルは画像補完において優れたパフォーマンスを示していますが、オブジェクトを補完する領域を示す正確なマスクがなければ、拡散モデルは正しい領域を超えた構造や誤った形状など、誤った画像コンテンツを生成する可能性があります。 O²-Recon 法では、研究者は 2D 完成と 3D 再構築の品質を確保するために、正確なマスクを構築するために少量の手作業を導入しました。

オブジェクト マスク付きの RGB-D ビデオ シーケンスが与えられた場合、ユーザーは 1 ~ 3 フレームの画像を選択し、これらの 1 ~ 3 フレームの画像内のオブジェクトの遮蔽領域を推測し、遮蔽領域のマスクを描画する必要があります。研究者らは、拡散モデルによって完成した深度情報を組み合わせて、これらの視点でのマスクを他のすべての視点に投影し、他の視点での遮蔽領域のマスクを取得しました。研究者たちは、人間とコンピューターの相互作用を少し加えることで、マスクの品質を確保しました。同時に、これらのマスクは再投影によって取得されるため、さまざまな視点から見ても幾何学的な一貫性があり、2D拡散モデルをガイドして、遮蔽された領域を適切で一貫性のある画像コンテンツで埋めることができます。

3D 再構築段階では、研究者らは NeuS に類似したニューラル暗黙的表面フィールドを使用して表面再構築を完了し、ボリューム レンダリングを使用して最適化のための損失関数を構築しました。完成した画像がまだ矛盾している可能性があることを考慮すると、この暗黙的な表現は、マルチビュー最適化プロセス中に徐々に合理的な 3 次元構造を学習できます。一方、研究者らは、完全に見えない領域の再構築効果を2つの観点から改善しました。第1に、研究者らはCLIP機能を使用して、新しい観点からのレンダリング結果とオブジェクトカテゴリテキストの一貫性を監視しました。第2に、研究者らは、表面の全体的な滑らかさを確保するための浅いMLP +低周波位置エンコーディングと、SDFの残差を予測するためのより深いMLPブランチ+高周波PE位置エンコーディングを含む、暗黙的な表面フィールドをエンコードするためのカスケードネットワーク構造を設計しました。この構造により、物体の可視領域の表面の柔軟性と不可視領域の滑らかさの両方が確保されます。

実験結果

オブジェクトの3D再構築

主な実験結果

他のオブジェクトレベルの 3D 再構築方法と比較して、O²-Recon は、上図に示すように、より正確で完全な 3D 構造を再構築できます。このうち、FroDOは潜在空間形状コーディングに基づく手法、Scan2CADはデータベース検索に基づく手法、vMapは表面再構成にNeRFを使用する手法、MonoSDFはシーンレベルの3D再構成手法です。

GIF比較

GIF比較

GIF比較

再構築されたオブジェクトの位置編集

O²-Recon によって再構築されたオブジェクトは比較的完全なので、大幅に回転または移動できます。位置を編集した後、新しい角度から観察すると、下図に示すように、表面の品質は依然として良好です。

編集する前、これらのオブジェクトは元のシーンに配置されていました。

複数オブジェクトの動的画像比較

編集後、これらのオブジェクトは新しい位置にあります。

複数オブジェクトの動的画像比較

要約する

この論文では、事前にトレーニングされた 2D 拡散モデルを使用して、シーン内の遮蔽されたオブジェクトの完全な 3D ジオメトリを再構築する O²-Recon 法を提案します。研究者らは拡散モデルを使用して、マルチビュー 2D 画像内の遮蔽された部分を補完し、ニューラル暗黙的表面を使用して、補完された画像から 3D オブジェクトを再構築しました。マスクの不一致を防ぐために、研究者は人間とコンピューターの共同戦略を採用し、少量の人間とコンピューターの相互作用を通じて高品質のマルチアングルマスクを生成し、2D画像完成プロセスを効果的に導きました。ニューラル暗黙表面の最適化プロセスでは、研究者らは SDF の滑らかさを確保するためにカスケード ネットワーク アーキテクチャを設計し、事前トレーニング済みの CLIP モデルを使用して、意味的一貫性の損失を通じて新しい視点を監視しました。 ScanNet データセットでの実験では、O²-Recon があらゆるカテゴリの遮蔽されたオブジェクトの正確かつ完全な 3D サーフェスを再構築できることが示されています。これらの再構築された完全な 3D オブジェクトは、大規模な回転や移動などのさらなる編集操作をサポートします。

<<:  スマートロボットについて知っておくべきことすべて

>>:  ByteDance の新しい具現化された知能の成果: 大規模なビデオデータでトレーニングされた GR-1 は、複雑なタスクを簡単に処理します

ブログ    
ブログ    

推薦する

人工知能について知っておくべき基礎知識はすべてここにあります

21 世紀に革命をもたらした技術を 1 つ挙げるとすれば、それは人工知能でしょう。人工知能は私たちの...

イスラエルの科学者がロボットにイナゴの耳を装備させ、バイオセンサーで画期的な進歩を遂げる

[[387788]]簡単に言えば、ロボットに「聞く」機能を持たせるには、音声信号を電気信号に変換し、...

スマートビルディングにおけるAIの活用

[[428910]]人工知能は、スマートビルディングパズルの最も重要なピースの 1 つです。これがな...

...

機械学習が近い将来教育を変える5つの方法

テクノロジーは私たちの生活、仕事、遊び方を変えており、教育も例外ではありません。機械学習は他の分野を...

ChatGPTが新たな著作権紛争に巻き込まれる: ホラー小説作家2人が、訓練のために作品を盗んだとしてOpenAIを訴えた

7月6日、AIモデルのトレーニングデータソースの著作権は常に話題となっていた。以前、マイクロソフトは...

2019 年の AI 統計と重要な事実

[[280183]] [51CTO.com クイック翻訳] 人工知能(AI)は日々驚異的なスピードで...

...

飲食店がセルフオーダー機や配達ロボットを導入すれば「無人飲食店」になるのでしょうか?

ケータリング業界における人件費は、事業者を悩ませる大きな問題です。レストランなどのケータリングのシナ...

人工知能はどうすれば大衆に届くのでしょうか?最も価値のある AI テクノロジーは何ですか?

顔認識、音声認識、自動運転などが注目されるようになり、人工知能(AI)と社会や人間の生活の融合が急速...

ディープラーニングを使って心臓病を診断する方法

[[204301]]概要: この論文では、心臓磁気共鳴画像 (MRI) データセットからの画像内の右...

若者は人工知能とうまく付き合うことを学ぶべきだ

人工知能技術と他の技術の最大の違いは、人間の頭脳労働の一部を代替できるだけでなく、一部の分野では人間...

機械分野では人材不足が起きているのでしょうか?人工知能の時代はあなたが思っているよりもずっと早く来ています!

人工知能の時代が来るとよく言われます。20年後に私たちの子供たちが社会に出たとき、彼らはおそらくロボ...

Google と OpenAI の新しい研究: ダーウィンの進化論を人工知能アルゴリズムの設計にどのように活用するか?

現代の機械知能は自然を模倣することに基づいています。この分野の主な目標は、人間が生物学的に持つ強力な...

チームメイトが機械の場合: CISO が AI について尋ねるべき 8 つの質問

AI は、私たちが行うほぼすべての方法を変えています。私たちが行くところすべてで、かつては人間が行っ...