清華大学は、2D拡散モデルを使用して不完全な3Dオブジェクトを補完する3D再構築の新しい方法、O²-Reconを提案しました。

清華大学は、2D拡散モデルを使用して不完全な3Dオブジェクトを補完する3D再構築の新しい方法、O²-Reconを提案しました。

コンピューター ビジョンでは、オブジェクト レベルの 3D サーフェス再構築テクノロジは多くの課題に直面しています。シーンレベルの再構築技術とは異なり、オブジェクトレベルの 3D 再構築では、きめ細かいシーンのモデリングと理解をサポートするために、シーン内の各オブジェクトに対して独立した 3D 表現が必要です。これは、AR/VR/MR やロボット関連のアプリケーションにとって非常に重要です。

既存の多くの方法では、3D 生成モデルの潜在空間を使用して、オブジェクト レベルの 3D 再構築を完了します。これらの方法では、潜在空間のエンコード ベクトルを使用してオブジェクトの形状を表し、再構築タスクをオブジェクトのポーズと形状エンコードの共同推定としてモデル化します。これらの方法は、生成モデルの潜在空間の優れた特性を利用して、オブジェクトの完全な形状を再構築できますが、テーブルや椅子などの特定のカテゴリのオブジェクトの 3D 再構築に限定されます。これらのカテゴリ内でも、このような方法で最適化された形状エンコーディングは、実際のオブジェクトの 3D 形状と正確に一致しないことがよくあります。他の方法では、データベースから適切な CAD モデルを取得し、オブジェクトのポーズ推定を使用して 3D 再構築を完了します。これらの方法も同様の問題に直面しています。スケーラビリティが制限され、再構築の精度が低く、オブジェクトの実際の 3D 表面構造に適合させることが困難です。

NeRFやNeuSなどの技術の発展により、imapやvMapなどの技術は微分可能なレンダリングを使用してオブジェクトの幾何学的構造を最適化できるようになりました。これらの方法は、実際のオブジェクトの表面とより一致するメッシュモデルを再構築できるだけでなく、複数のカテゴリのオブジェクトを再構築して、単一のオブジェクトカテゴリの制限を打ち破ることもできます。しかし、シーン内の撮影角度の制約により、壁に近いオブジェクトや、オブジェクト同士が遮蔽されるなど、多くのオブジェクトが遮蔽されます。オブジェクトが遮蔽されている場合、これらの方法で再構築されたオブジェクトは、次の図に示すように不完全になることがよくあります。これらの不完全な 3D モデルは、大きな角度の回転や広範囲の移動をサポートできないため、さまざまな下流のタスクで使用することが困難になります。

閉塞下での再建結果

清華大学の劉永金教授のチームは、物体の3D再構築のための新しい方法であるO²-Reconを提案しました。これは、既存の2D拡散モデルを使用して物体画像内の遮蔽された領域を補完し、次にニューラル暗黙的表面場を使用して、完成した画像から完全な3D物体を再構築します。本論文では、再投影メカニズムを使用して塗りつぶされた領域の3次元の一貫性を維持し、CLIP損失関数を追加して、暗黙的な再構築プロセスで目に見えない角度の意味情報を監視します。最終的に、完全で合理的​​な3次元オブジェクトモデルが再構築され、大きな角度の回転と変換をサポートし、さまざまな下流タスクに使用できます。現在、この論文は人工知能のトップカンファレンスの一つであるAAAI 2024に採択されています。

論文リンク: https://arxiv.org/abs/2308.09591

O²-Reconについて

方法の紹介

画像補完タスクにおける 2D 拡散モデルの優れたパフォーマンスにヒントを得て、研究者らは、事前トレーニング済みの拡散モデルを使用して画像内のオブジェクトの遮蔽された領域を補完することを目的とした O²-Recon メソッドを設計しました。既存の拡散モデルは画像補完において優れたパフォーマンスを示していますが、オブジェクトを補完する領域を示す正確なマスクがなければ、拡散モデルは正しい領域を超えた構造や誤った形状など、誤った画像コンテンツを生成する可能性があります。 O²-Recon 法では、研究者は 2D 完成と 3D 再構築の品質を確保するために、正確なマスクを構築するために少量の手作業を導入しました。

オブジェクト マスク付きの RGB-D ビデオ シーケンスが与えられた場合、ユーザーは 1 ~ 3 フレームの画像を選択し、これらの 1 ~ 3 フレームの画像内のオブジェクトの遮蔽領域を推測し、遮蔽領域のマスクを描画する必要があります。研究者らは、拡散モデルによって完成した深度情報を組み合わせて、これらの視点でのマスクを他のすべての視点に投影し、他の視点での遮蔽領域のマスクを取得しました。研究者たちは、人間とコンピューターの相互作用を少し加えることで、マスクの品質を確保しました。同時に、これらのマスクは再投影によって取得されるため、さまざまな視点から見ても幾何学的な一貫性があり、2D拡散モデルをガイドして、遮蔽された領域を適切で一貫性のある画像コンテンツで埋めることができます。

3D 再構築段階では、研究者らは NeuS に類似したニューラル暗黙的表面フィールドを使用して表面再構築を完了し、ボリューム レンダリングを使用して最適化のための損失関数を構築しました。完成した画像がまだ矛盾している可能性があることを考慮すると、この暗黙的な表現は、マルチビュー最適化プロセス中に徐々に合理的な 3 次元構造を学習できます。一方、研究者らは、完全に見えない領域の再構築効果を2つの観点から改善しました。第1に、研究者らはCLIP機能を使用して、新しい観点からのレンダリング結果とオブジェクトカテゴリテキストの一貫性を監視しました。第2に、研究者らは、表面の全体的な滑らかさを確保するための浅いMLP +低周波位置エンコーディングと、SDFの残差を予測するためのより深いMLPブランチ+高周波PE位置エンコーディングを含む、暗黙的な表面フィールドをエンコードするためのカスケードネットワーク構造を設計しました。この構造により、物体の可視領域の表面の柔軟性と不可視領域の滑らかさの両方が確保されます。

実験結果

オブジェクトの3D再構築

主な実験結果

他のオブジェクトレベルの 3D 再構築方法と比較して、O²-Recon は、上図に示すように、より正確で完全な 3D 構造を再構築できます。このうち、FroDOは潜在空間形状コーディングに基づく手法、Scan2CADはデータベース検索に基づく手法、vMapは表面再構成にNeRFを使用する手法、MonoSDFはシーンレベルの3D再構成手法です。

GIF比較

GIF比較

GIF比較

再構築されたオブジェクトの位置編集

O²-Recon によって再構築されたオブジェクトは比較的完全なので、大幅に回転または移動できます。位置を編集した後、新しい角度から観察すると、下図に示すように、表面の品質は依然として良好です。

編集する前、これらのオブジェクトは元のシーンに配置されていました。

複数オブジェクトの動的画像比較

編集後、これらのオブジェクトは新しい位置にあります。

複数オブジェクトの動的画像比較

要約する

この論文では、事前にトレーニングされた 2D 拡散モデルを使用して、シーン内の遮蔽されたオブジェクトの完全な 3D ジオメトリを再構築する O²-Recon 法を提案します。研究者らは拡散モデルを使用して、マルチビュー 2D 画像内の遮蔽された部分を補完し、ニューラル暗黙的表面を使用して、補完された画像から 3D オブジェクトを再構築しました。マスクの不一致を防ぐために、研究者は人間とコンピューターの共同戦略を採用し、少量の人間とコンピューターの相互作用を通じて高品質のマルチアングルマスクを生成し、2D画像完成プロセスを効果的に導きました。ニューラル暗黙表面の最適化プロセスでは、研究者らは SDF の滑らかさを確保するためにカスケード ネットワーク アーキテクチャを設計し、事前トレーニング済みの CLIP モデルを使用して、意味的一貫性の損失を通じて新しい視点を監視しました。 ScanNet データセットでの実験では、O²-Recon があらゆるカテゴリの遮蔽されたオブジェクトの正確かつ完全な 3D サーフェスを再構築できることが示されています。これらの再構築された完全な 3D オブジェクトは、大規模な回転や移動などのさらなる編集操作をサポートします。

<<:  スマートロボットについて知っておくべきことすべて

>>:  ByteDance の新しい具現化された知能の成果: 大規模なビデオデータでトレーニングされた GR-1 は、複雑なタスクを簡単に処理します

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

1 行のコードで AI モデルの推論速度が 10 倍に向上します。 Reddit の技術共有は「恥知らずな自己宣伝」として揶揄される

Reddit フォーラムでは、さまざまな AI テクノロジーについて頻繁に議論されています。最近、あ...

Python 自然言語処理 (NLP) を使用して要約を作成する方法

たくさんのレポートを読まなければならないときに、それぞれのレポートを簡単に要約したいという状況に遭遇...

企業チームのスキルは AI 導入の障壁となるのでしょうか?

人工知能は驚くべきことを実現できますが、いくつかの障害にも直面しています。 2021年に3,500人...

AIは5Gネットワ​​ークの管理にどのように活用されるのか

AI は、モノのインターネットやプライベート 5G ネットワークなど、複数の用途をサポートするために...

糖尿病網膜症のスクリーニングの改善におけるAIの役割

糖尿病は網膜症を引き起こす可能性があり、これは失明につながる合併症です。しかし、良いニュースとしては...

人工知能の進歩:ロボットの台頭

人工知能の革新により、よりスマートなロボットが開発されました。ロボットはコンピューターによってプログ...

低速自動運転と高速自動運転に関する議論

前回の記事「自動運転車に「道路を認識」させる方法」では、主に自動運転車における高精度地図の重要性につ...

...

データに最適な埋め込みモデルの選択: OpenAI とオープンソースの多言語埋め込みの比較テスト

OpenAI は最近、次世代の埋め込みモデルである埋め込み v3 をリリースしました。同社では、この...

...

マスク氏とクック氏は秘密協定を結んだのか?アップルは「アップル税」でテスラに数百万ドルの節約をもたらす

ビッグデータダイジェスト制作著者: カレブ周知のとおり、Apple の App Store のポリシ...

2019年人工知能サバイバルガイド

「資本の冬は業界のマシュー効果と適者生存を加速させており、AI分野も例外ではありません。」Infer...

人工知能の波で私たちは職を失うのでしょうか?

[[200388]]概要: 私たちの仕事が機械に置き換えられるのはいつでしょうか? 最も危険な仕事...

拡散モデルを使用してビデオを生成することもでき、その結果は非常に印象的です。新しいSOTAが達成されました。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...