清華大学は、2D拡散モデルを使用して不完全な3Dオブジェクトを補完する3D再構築の新しい方法、O²-Reconを提案しました。

コンピュータービジョンでは、オブジェクトレベルの 3D サーフェス再構築テクノロジは多くの課題に直面しています。シーンレベルの再構築技術とは異なり、オブジェクトレベルの 3D 再構築では、きめ細かいシーンのモデリングと理解をサポートするために、シーン内の各オブジェクトに対して独立した 3D 表現が必要です。これは、AR/VR/MR やロボット関連のアプリケーションにとって非常に重要です。

既存の多くの方法では、3D 生成モデルの潜在空間を使用して、オブジェクトレベルの 3D 再構築を完了します。これらの方法では、潜在空間のエンコードベクトルを使用してオブジェクトの形状を表し、再構築タスクをオブジェクトのポーズと形状エンコードの共同推定としてモデル化します。これらの方法は、生成モデルの潜在空間の優れた特性を利用して、オブジェクトの完全な形状を再構築できますが、テーブルや椅子などの特定のカテゴリのオブジェクトの 3D 再構築に限定されます。これらのカテゴリ内でも、このような方法で最適化された形状エンコーディングは、実際のオブジェクトの 3D 形状と正確に一致しないことがよくあります。他の方法では、データベースから適切な CAD モデルを取得し、オブジェクトのポーズ推定を使用して 3D 再構築を完了します。これらの方法も同様の問題に直面しています。スケーラビリティが制限され、再構築の精度が低く、オブジェクトの実際の 3D 表面構造に適合させることが困難です。

NeRFやNeuSなどの技術の発展により、imapやvMapなどの技術は微分可能なレンダリングを使用してオブジェクトの幾何学的構造を最適化できるようになりました。これらの方法は、実際のオブジェクトの表面とより一致するメッシュモデルを再構築できるだけでなく、複数のカテゴリのオブジェクトを再構築して、単一のオブジェクトカテゴリの制限を打ち破ることもできます。しかし、シーン内の撮影角度の制約により、壁に近いオブジェクトや、オブジェクト同士が遮蔽されるなど、多くのオブジェクトが遮蔽されます。オブジェクトが遮蔽されている場合、これらの方法で再構築されたオブジェクトは、次の図に示すように不完全になることがよくあります。これらの不完全な 3D モデルは、大きな角度の回転や広範囲の移動をサポートできないため、さまざまな下流のタスクで使用することが困難になります。

閉塞下での再建結果

清華大学の劉永金教授のチームは、物体の3D再構築のための新しい方法であるO²-Reconを提案しました。これは、既存の2D拡散モデルを使用して物体画像内の遮蔽された領域を補完し、次にニューラル暗黙的表面場を使用して、完成した画像から完全な3D物体を再構築します。本論文では、再投影メカニズムを使用して塗りつぶされた領域の3次元の一貫性を維持し、CLIP損失関数を追加して、暗黙的な再構築プロセスで目に見えない角度の意味情報を監視します。最終的に、完全で合理的な3次元オブジェクトモデルが再構築され、大きな角度の回転と変換をサポートし、さまざまな下流タスクに使用できます。現在、この論文は人工知能のトップカンファレンスの一つであるAAAI 2024に採択されています。

論文リンク: https://arxiv.org/abs/2308.09591

O²-Reconについて

方法の紹介

画像補完タスクにおける 2D 拡散モデルの優れたパフォーマンスにヒントを得て、研究者らは、事前トレーニング済みの拡散モデルを使用して画像内のオブジェクトの遮蔽された領域を補完することを目的とした O²-Recon メソッドを設計しました。既存の拡散モデルは画像補完において優れたパフォーマンスを示していますが、オブジェクトを補完する領域を示す正確なマスクがなければ、拡散モデルは正しい領域を超えた構造や誤った形状など、誤った画像コンテンツを生成する可能性があります。 O²-Recon 法では、研究者は 2D 完成と 3D 再構築の品質を確保するために、正確なマスクを構築するために少量の手作業を導入しました。

オブジェクトマスク付きの RGB-D ビデオシーケンスが与えられた場合、ユーザーは 1 ～ 3 フレームの画像を選択し、これらの 1 ～ 3 フレームの画像内のオブジェクトの遮蔽領域を推測し、遮蔽領域のマスクを描画する必要があります。研究者らは、拡散モデルによって完成した深度情報を組み合わせて、これらの視点でのマスクを他のすべての視点に投影し、他の視点での遮蔽領域のマスクを取得しました。研究者たちは、人間とコンピューターの相互作用を少し加えることで、マスクの品質を確保しました。同時に、これらのマスクは再投影によって取得されるため、さまざまな視点から見ても幾何学的な一貫性があり、2D拡散モデルをガイドして、遮蔽された領域を適切で一貫性のある画像コンテンツで埋めることができます。

3D 再構築段階では、研究者らは NeuS に類似したニューラル暗黙的表面フィールドを使用して表面再構築を完了し、ボリュームレンダリングを使用して最適化のための損失関数を構築しました。完成した画像がまだ矛盾している可能性があることを考慮すると、この暗黙的な表現は、マルチビュー最適化プロセス中に徐々に合理的な 3 次元構造を学習できます。一方、研究者らは、完全に見えない領域の再構築効果を2つの観点から改善しました。第1に、研究者らはCLIP機能を使用して、新しい観点からのレンダリング結果とオブジェクトカテゴリテキストの一貫性を監視しました。第2に、研究者らは、表面の全体的な滑らかさを確保するための浅いMLP +低周波位置エンコーディングと、SDFの残差を予測するためのより深いMLPブランチ+高周波PE位置エンコーディングを含む、暗黙的な表面フィールドをエンコードするためのカスケードネットワーク構造を設計しました。この構造により、物体の可視領域の表面の柔軟性と不可視領域の滑らかさの両方が確保されます。

実験結果

オブジェクトの3D再構築

主な実験結果

他のオブジェクトレベルの 3D 再構築方法と比較して、O²-Recon は、上図に示すように、より正確で完全な 3D 構造を再構築できます。このうち、FroDOは潜在空間形状コーディングに基づく手法、Scan2CADはデータベース検索に基づく手法、vMapは表面再構成にNeRFを使用する手法、MonoSDFはシーンレベルの3D再構成手法です。

GIF比較

再構築されたオブジェクトの位置編集

O²-Recon によって再構築されたオブジェクトは比較的完全なので、大幅に回転または移動できます。位置を編集した後、新しい角度から観察すると、下図に示すように、表面の品質は依然として良好です。

編集する前、これらのオブジェクトは元のシーンに配置されていました。

複数オブジェクトの動的画像比較

編集後、これらのオブジェクトは新しい位置にあります。

複数オブジェクトの動的画像比較

要約する

この論文では、事前にトレーニングされた 2D 拡散モデルを使用して、シーン内の遮蔽されたオブジェクトの完全な 3D ジオメトリを再構築する O²-Recon 法を提案します。研究者らは拡散モデルを使用して、マルチビュー 2D 画像内の遮蔽された部分を補完し、ニューラル暗黙的表面を使用して、補完された画像から 3D オブジェクトを再構築しました。マスクの不一致を防ぐために、研究者は人間とコンピューターの共同戦略を採用し、少量の人間とコンピューターの相互作用を通じて高品質のマルチアングルマスクを生成し、2D画像完成プロセスを効果的に導きました。ニューラル暗黙表面の最適化プロセスでは、研究者らは SDF の滑らかさを確保するためにカスケードネットワークアーキテクチャを設計し、事前トレーニング済みの CLIP モデルを使用して、意味的一貫性の損失を通じて新しい視点を監視しました。 ScanNet データセットでの実験では、O²-Recon があらゆるカテゴリの遮蔽されたオブジェクトの正確かつ完全な 3D サーフェスを再構築できることが示されています。これらの再構築された完全な 3D オブジェクトは、大規模な回転や移動などのさらなる編集操作をサポートします。

<<: スマートロボットについて知っておくべきことすべて

>>: ByteDance の新しい具現化された知能の成果: 大規模なビデオデータでトレーニングされた GR-1 は、複雑なタスクを簡単に処理します

旅の途中で「おもしろさ」が爆発！絵文字ジェネレーター、マスクがプリンセスに変身 | チュートリアル付き

清華大学は、2D拡散モデルを使用して不完全な3Dオブジェクトを補完する3D再構築の新しい方法、O²-Reconを提案しました。

O²-Reconについて

実験結果

要約する

旅の途中で「おもしろさ」が爆発！絵文字ジェネレーター、マスクがプリンセスに変身 | チュートリアル付き

「深く」「鮮明に」見る - 画像の超高精細化におけるディープラーニングの応用

Google、Facebook、Baiduはディープラーニングのフレームワークをめぐって競争している

人工知能専攻では主に何を学ぶのですか？キャリアの方向性と展望は何ですか?

金メダルレベルの数学スキル：DeepMindの幾何学的推論モデルがNatureに掲載され、コードはオープンソースで、フィールズ賞受賞者が賞賛

あなたはまだ顔認識精度指標に騙されていませんか?

物流でGenAIを効果的に活用するための鍵は、ユースケースを理解することです。

どのようなタイプのスマートビルが AI の導入をリードするのでしょうか?

推薦する

URLベースのクライアント監視と分析における機械学習の最適化と実践

コードを超高速で変更！ GPT-3に編集機能とテキスト挿入機能が追加され、AIがあなたに代わって詩を書くことができる

GoogleはGoogleアシスタントを生成AIでアップデートする予定

ガートナーは未来を変える5つのテクノロジーを特定

マイクロソフトリサーチアジア、ウェイ・フル氏：人工知能における基礎イノベーションの第2次成長曲線

GPT-4 ワイルドスポークスマン Terence Tao: 新しい文学ツールは、それがなければ崩壊してしまいます! 11ページの「超短編」新作がオンラインになりました

Didiは最初の試みで惨敗した。自動運転は本当に良い市場なのか？

ビッグモデルの要約は信頼できるでしょうか? GPT-4を使用すると、人間の筆記よりも滑らかで、幻覚も少なくなります

多くの銀行は顔認識の安全性を確保する方法について警告を発している。

将来、仮想現実、人工知能、そして人体はどのように融合するのでしょうか?

自己教師学習の効率限界を突破！ Ma Yi と LeCun が共同で EMP-SSL をリリース: 特別なトリックは不要、30 エポックで SOTA を達成可能