この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。 論文: ICCV 2023 https://arxiv.org/pdf/2308.12967.pdf 最近の暗黙的なニューラル表現は、新しいビューを合成する上で有望な結果を達成しています。しかし、既存の方法では、多数の視点からのコストのかかるシーン最適化が必要ですが、現実世界の関心対象や背景はごく少数の視点からしか観察されないため、これらの方法を現実世界の境界のない都市環境に適用することは制限されます。この課題を克服するために、本稿では、屋外シーンのニューラルフィールド表現のスパース視点合成のための NeO 360 と呼ばれる新しい方法を紹介します。 NeO 360 は、単一または少数のポーズをとった RGB 画像から 360° シーンを再構築する一般的な方法です。私たちのアプローチの本質は、世界のあらゆる地点からクエリできるハイブリッド画像条件付き三平面表現を使用して、複雑な現実世界の屋外 3D シーンの分布をキャプチャすることです。私たちの表現は、ボクセルベースと鳥瞰図 (BEV) 表現の利点を組み合わせたもので、どちらのアプローチよりも効率的で表現力に優れています。 NeO 360 表現により、単一の画像からでも推論中に新しい視点やシーンに一般化しながら、無制限の 3D シーンの大規模なセットから学習することが可能になります。私たちは、提案された挑戦的な 360° 無制限データセットである NeRDS 360 でアプローチを実証し、NeO 360 が新しいビュー合成において既存の汎用方法よりも優れていること、また編集機能と合成機能も提供していることを示します。プロジェクトのホームページ: zubair-irshad.github.io/projects/neo360.html 主な貢献は何ですか?この論文の方法は、NeRF++ を拡張して一般化できるようにします。この方法の核となるのは、3 平面形式で表現される局所的な特徴です。この表現は、3 つの直交する平面として構築され、各平面は 1 つの視点から 3D 環境をモデル化し、それらをマージすることで 3D シーンの包括的な記述を実現できます。 NeO 360 の画像調整された三平面表現は、画像レベルの特徴からの情報を効率的にエンコードすると同時に、あらゆる世界のポイントに対してコンパクトでクエリ可能な表現を提供します。これらの特徴を残りのローカル画像レベルの特徴と組み合わせて、多数の画像から複数の無制限の 3D シーンを最適化します。 NeO 360 の 3D シーン表現は、完全な 3D シーンの強力な事前条件を構築し、わずか数枚のポーズをとった RGB 画像から屋外シーンの 360° 斬新なビューを効率的に合成することを可能にします。新しい大規模な 360° 無制限データセットには、3 つの異なるマップ上の 70 を超えるシーンが含まれています。私たちは、この困難なマルチビューの無制限データセットで、少数ショットの新しいビュー合成と事前ベースのサンプリングタスクにおけるアプローチの有効性を実証します。私たちのアプローチでは、完全なシーンの堅牢な 3D 表現を学習するだけでなく、3D グラウンド トゥルース境界ボックスを使用して推論時に光線を剪定できるため、複数の入力ビューから組み合わせたシーン合成が可能になります。要約すると、この論文は次のような貢献をします。
NeRDS 360 マルチビュー データセット:このデータセットを構築する理由は何ですか?
データセットはどのようになっていますか?これらの課題に対処するために、本論文では 3D 都市シーン理解のための大規模データセットを提案します。既存のデータセットと比較すると、私たちのデータセットは、さまざまな背景を持つ 75 の屋外都市シーンで構成されており、15,000 枚を超える画像が含まれています。これらのシーンは 360° の半球ビューを提供し、さまざまな照明条件で照らされたさまざまな前景オブジェクトをキャプチャします。さらに、私たちのデータセットには前方走行ビューに限定されないシーンが含まれており、カメラビュー間の重複やカバレッジの制限など、以前のデータセットの制限に対処しています。一般化評価に最も近い既存のデータセットは DTU (80 シーン) ですが、これには主に屋内オブジェクトが含まれており、複数の前景オブジェクトや背景シーンは提供されていません。 データセットはどのように生成されましたか?この記事では、Parallel Domain を使用して、高忠実度の 360° シーンをレンダリングするための合成データを生成します。この論文では、SF 6thAndMission、SF GrantAndCalifornia、SF VanNessAveAndTurkSt という 3 つの異なるマップを選択し、この論文の背景として 3 つのマップすべてで 75 の異なるシーンをサンプリングします (3 つのマップ上の 75 シーンはすべて、都市の異なる視点で撮影された、互いに大きく異なる道路シーンです)。トレーニング用に 50 種類のテクスチャを持つ 20 種類の車を選択し、各シーンで 1 ~ 4 台の車をランダムにサンプリングしてレンダリングします。この論文では、このデータセットを「NeRDS 360: 360° 屋外シーンの再構築、分解、シーン合成のためのNe RF」と呼んでいます。トレーニング セット: この論文では合計 15,000 個のレンダリングが生成されます。これは、車の中心から一定の距離にある半球形のドーム内の 200 台のカメラをサンプリングすることによって行われます。テスト セット: この論文では、トレーニングで使用されたカメラの分布とは異なり、上半球に均等に分散された 100 台のカメラを含む、4 台の異なる車と異なる背景を含む 5 つのシーンをテスト用に提供しています。 さまざまな検証カメラ分布を使用して、トレーニング中に見られなかった視点や見たことのないシーンにこのメソッドを一般化する能力をテストします。私たちのデータセットとそれに対応するタスクは、オクルージョン、背景の多様性、さまざまな照明と影のあるレンダリングされたオブジェクトのために、非常に困難です。私たちのタスクでは、図 5 の赤いカメラで示されているように、少数の観測値 (1 ~ 5) を使用して、シーン全体の 360° 半球ビューを再構築する必要があります。代わりに、図 5 の緑色のカメラで示されているように、100 個の半球ビューすべてが評価に使用されます。したがって、私たちのタスクでは、屋外シーンの新しいビューを合成するための強力な事前知識が必要です。 方法:新しいシーンの複数のビューの RGB 画像が与えられると、NeO 360 は新しいビュー合成を実行し、360 度シーンの 3D シーン表現をレンダリングします。この目標を達成するために、私たちは、世界のあらゆるポイントに対してクエリを実行できる 3 平面表現で構成されるハイブリッドなローカルおよびグローバル特徴表現を採用しています。正式には、図 1 に示すように、入力画像、複雑なシーン (n=1 ~ 5)、および対応するカメラ位置 ( γγγ 、 γ )が与えられると、NeO 360 は近い背景と遠い背景の密度と放射輝度フィールドを推測します (NeRF++ と同様)。主な違いは、NeO 360 では、従来の NeRF 定式化で使用される位置と視線方向のみを使用するのではなく、ローカル機能とグローバル機能の組み合わせを使用して放射輝度フィールド デコーダーを調整することです。 画像条件付き三面表現NeRF は高忠実度のシーン合成を実現できますが、新しいシーンに一般化することは困難です。シーンの事前確率を効果的に使用し、大量の無制限の 360° データから学習するために、私たちは、(2D または BEV ベースの表現のように) どの次元も無視することなく、(ボクセルベースの表現のように) 立方体の複雑さを回避することなく、完全な表現力で 3D シーンを大規模にモデル化できる、画像条件付き 3 平面表現を提案します。 3 平面表現は、3 つの軸に沿った直交平面で構成されます。 は空間解像度であり、各平面には次元機能があります。入力画像から特徴 3 平面を構築する方法は次のとおりです。
深層残差局所特徴次の放射フィールドのデコード段階では、レンダリング MLP の残差接続として特徴も使用します。カメラパラメータγを使用して投影されたワールドポイントからソースビューを取得し、双線形補間によって投影されたピクセル位置の特徴を抽出します。ローカルおよびグローバルの特徴抽出パスは同じ重みθとエンコーダを共有することに注意してください。この論文では、複雑な都市の境界のないシーンでは、ローカルな特徴のみを使用すると、オクルージョンや遠方の 360 度のビューでパフォーマンスが低下することがわかりました。一方、全体的な特徴のみを使用すると幻覚を引き起こす可能性があります。私たちのアプローチは、ローカルとグローバルの特徴表現を効果的に組み合わせ、無限のシーンの最小限の単一ビューからより正確な 360 度ビュー合成を実現します。 放射フィールドのデコード放射輝度フィールドデコーダーは、3つの平面と残差特徴から任意の3D位置と任意の視線方向の色と密度σ を予測するために使用されます。この記事では、レンダリング MLP のモジュール実装を使用します。 MLP は次のように表されます。 その中で、直交投影点は各平面に入り、双線形サンプリングを実行し、3つの双線形サンプリングベクトルによって接続されて形成されます。 。入力画像のビュー空間を使用して座標系を確立し、この特定の座標系で位置とカメラ光線を表示します。近距離および遠距離デコード MLP はNeRF++ に似ています。この論文では、色と密度の情報をデコードするための 2 つのレンダリング MLP を次のように定義しています。 この論文では、元の NeRF++ に似た座標再マッピング関数 (M) を定義して、単位球の外側の 3D ポイントを縮小し、MLP のレンダリングでより多くのオブジェクトの解像度を低くできるようにします。クエリ フェーズの 3 平面表現では、表現が球ではなく平面であるため、実際の座標で非縮約座標を使用します。この論文では、レンダリングのために、MLP を調整するためにそれぞれのスケール座標を使用します。少数ショットの新規ビュー合成のための放射輝度フィールドの最適化 ソースビューのローカルおよびグローバルな特徴を考慮して、ボリューム レンダリングと近距離背景と遠距離背景の合成後、近距離背景と遠距離背景専用のデコーダーを使用して色と強度をデコードします。 : ターゲット イメージ内のサンプリングされたピクセル位置: 近い MLP と遠い MLP のレンダリング出力から取得された合成色。 シーン編集と分解検出器から取得した 3D 境界ボックスがあれば、オブジェクトの 3D 境界ボックス内の光線をサンプリングし、3 平面の特徴グリッド内の特定の位置で特徴を双線形補間するだけで、個々のオブジェクトと背景の放射輝度を取得できるため、個々のオブジェクトの編集と再レンダリングが簡単になります。この論文では、オブジェクトの 3D 境界ボックス内の特徴を考慮して前景 MLP をレンダリングすることにより、正確なオブジェクトの再レンダリングを実行します。本質的に、この論文では、編集可能なシーンのレンダリング式を組み合わせて、レンダリング オブジェクト、近くの背景、遠くの背景に分割します。 実験:ベースライン:
結論は:本稿では、無制限の 360° シナリオ向けの NeRF アプローチのスケーラブルな拡張である NeO 360 を提案します。私たちのアプローチは、小規模な新しいビュー合成のために、画像条件付き三平面表現に依存しています。無制限のシーンに対する強力な事前確率を構築するために、360 度設定でのビューの合成、再構築、分解を研究するための大規模データセット NERDS 360 を提案します。私たちのアプローチは、他の一般化可能な NeRF バリアントよりも大幅に優れており、新しいシーンでテストすると、より高いパフォーマンスを実現します。今後の研究では、提案された方法を使用して、推論中に 3D 境界ボックスなどのラベル付きデータにあまり依存せず、ラベル付きデータがない場合に効果的なシーン分解のためにモーション キューに依存する事前確率を構築する方法を検討します。 オリジナルリンク: https://mp.weixin.qq.com/s/rjJlJbbb_oFah5nZoSYQwA |
この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...
[[386401]] Python は安定性とメンテナンスのしやすさから、常に優れたパフォーマンス...
フロントエンド開発者にとって、機械学習を理解するのは難しい場合があります。私は機械学習を勉強し始めて...
米国のコンピューターサイエンス分野の博士課程学生の 64% 以上と修士課程学生の 70% 近くが留学...
いつの間にか、2019年は完全に私たちの前から去ってしまいました。過去1年を振り返ると、人工知能は間...
OpenAI は最近、次世代の埋め込みモデルである埋め込み v3 をリリースしました。同社では、この...
2017年8月5日、ペガサスが主催する「FMI人工知能&ビッグデータサミットフォーラム」が北京国家会...
[[248236]]皆さんは、イ・セドルと柯潔を破った Google の「Alpha Go」をまだ覚...