NeO 360: 屋外シーンのスパースビュー合成のためのニューラルフィールド

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

論文: ICCV 2023 https://arxiv.org/pdf/2308.12967.pdf
著者所属: ジョージア工科大学、トヨタ・リサーチ・インスティテュート

最近の暗黙的なニューラル表現は、新しいビューを合成する上で有望な結果を達成しています。しかし、既存の方法では、多数の視点からのコストのかかるシーン最適化が必要ですが、現実世界の関心対象や背景はごく少数の視点からしか観察されないため、これらの方法を現実世界の境界のない都市環境に適用することは制限されます。この課題を克服するために、本稿では、屋外シーンのニューラルフィールド表現のスパース視点合成のための NeO 360 と呼ばれる新しい方法を紹介します。 NeO 360 は、単一または少数のポーズをとった RGB 画像から 360° シーンを再構築する一般的な方法です。私たちのアプローチの本質は、世界のあらゆる地点からクエリできるハイブリッド画像条件付き三平面表現を使用して、複雑な現実世界の屋外 3D シーンの分布をキャプチャすることです。私たちの表現は、ボクセルベースと鳥瞰図 (BEV) 表現の利点を組み合わせたもので、どちらのアプローチよりも効率的で表現力に優れています。 NeO 360 表現により、単一の画像からでも推論中に新しい視点やシーンに一般化しながら、無制限の 3D シーンの大規模なセットから学習することが可能になります。私たちは、提案された挑戦的な 360° 無制限データセットである NeRDS 360 でアプローチを実証し、NeO 360 が新しいビュー合成において既存の汎用方法よりも優れていること、また編集機能と合成機能も提供していることを示します。プロジェクトのホームページ: zubair-irshad.github.io/projects/neo360.html

主な貢献は何ですか?

この論文の方法は、NeRF++ を拡張して一般化できるようにします。この方法の核となるのは、3 平面形式で表現される局所的な特徴です。この表現は、3 つの直交する平面として構築され、各平面は 1 つの視点から 3D 環境をモデル化し、それらをマージすることで 3D シーンの包括的な記述を実現できます。 NeO 360 の画像調整された三平面表現は、画像レベルの特徴からの情報を効率的にエンコードすると同時に、あらゆる世界のポイントに対してコンパクトでクエリ可能な表現を提供します。これらの特徴を残りのローカル画像レベルの特徴と組み合わせて、多数の画像から複数の無制限の 3D シーンを最適化します。 NeO 360 の 3D シーン表現は、完全な 3D シーンの強力な事前条件を構築し、わずか数枚のポーズをとった RGB 画像から屋外シーンの 360° 斬新なビューを効率的に合成することを可能にします。新しい大規模な 360° 無制限データセットには、3 つの異なるマップ上の 70 を超えるシーンが含まれています。私たちは、この困難なマルチビューの無制限データセットで、少数ショットの新しいビュー合成と事前ベースのサンプリングタスクにおけるアプローチの有効性を実証します。私たちのアプローチでは、完全なシーンの堅牢な 3D 表現を学習するだけでなく、3D グラウンドトゥルース境界ボックスを使用して推論時に光線を剪定できるため、複数の入力ビューから組み合わせたシーン合成が可能になります。要約すると、この論文は次のような貢献をします。

屋外シーン向けの一般的な NeRF アーキテクチャは、3 平面表現に基づく NeRF 定式化を拡張し、360° の無制限の環境に対して効率的な少数ショットの新しいビュー合成を可能にします。
3D 都市シーンを理解するための NeRDS 360 と呼ばれる大規模な合成 360° データセットには、複数のオブジェクトが含まれており、高密度のカメラ視点注釈を使用して忠実度の高い屋外シーンをキャプチャします。
我々が提案した方法は、NeRDS 360 データセットの少数ショットの新規ビュー合成タスクにおいてすべてのベースラインを大幅に上回り、3 ビューの新規ビュー合成タスクでは PNSR が 1.89、SSIM が 0.11 の絶対改善を示しました。

NeRDS 360 マルチビューデータセット:

このデータセットを構築する理由は何ですか?

より高密度の視点注釈、3D 境界ボックス、セマンティックマップおよびインスタンスマップなどの正確な地上真実の 3D および 2D 情報を取得することは困難であり、そのためトレーニングとテストに利用できる屋外シーンは非常に限られています。
これまでのアプローチは、主に、自車両キャリアに搭載されたカメラで撮影されたパノラマビューである屋外シーンの既存のデータセットを使用した再構築に重点を置いていました。隣接するカメラビュー間の重複はほとんどなく、これは NeRF およびマルチビュー再構成法のトレーニングに役立つことが示されています。自車が高速で移動し、関心のあるオブジェクトが少数のビュー（通常は 5 未満）でのみ観察されるため、これらのシナリオに対してオブジェクトベースのニューラル放射モデルを最適化することはより困難になります。

データセットはどのようになっていますか?

これらの課題に対処するために、本論文では 3D 都市シーン理解のための大規模データセットを提案します。既存のデータセットと比較すると、私たちのデータセットは、さまざまな背景を持つ 75 の屋外都市シーンで構成されており、15,000 枚を超える画像が含まれています。これらのシーンは 360° の半球ビューを提供し、さまざまな照明条件で照らされたさまざまな前景オブジェクトをキャプチャします。さらに、私たちのデータセットには前方走行ビューに限定されないシーンが含まれており、カメラビュー間の重複やカバレッジの制限など、以前のデータセットの制限に対処しています。一般化評価に最も近い既存のデータセットは DTU (80 シーン) ですが、これには主に屋内オブジェクトが含まれており、複数の前景オブジェクトや背景シーンは提供されていません。

データセットはどのように生成されましたか?

この記事では、Parallel Domain を使用して、高忠実度の 360° シーンをレンダリングするための合成データを生成します。この論文では、SF 6thAndMission、SF GrantAndCalifornia、SF VanNessAveAndTurkSt という 3 つの異なるマップを選択し、この論文の背景として 3 つのマップすべてで 75 の異なるシーンをサンプリングします (3 つのマップ上の 75 シーンはすべて、都市の異なる視点で撮影された、互いに大きく異なる道路シーンです)。トレーニング用に 50 種類のテクスチャを持つ 20 種類の車を選択し、各シーンで 1 ～ 4 台の車をランダムにサンプリングしてレンダリングします。この論文では、このデータセットを「NeRDS 360: 360° 屋外シーンの再構築、分解、シーン合成のためのNe RF」と呼んでいます。トレーニングセット: この論文では合計 15,000 個のレンダリングが生成されます。これは、車の中心から一定の距離にある半球形のドーム内の 200 台のカメラをサンプリングすることによって行われます。テストセット: この論文では、トレーニングで使用されたカメラの分布とは異なり、上半球に均等に分散された 100 台のカメラを含む、4 台の異なる車と異なる背景を含む 5 つのシーンをテスト用に提供しています。

さまざまな検証カメラ分布を使用して、トレーニング中に見られなかった視点や見たことのないシーンにこのメソッドを一般化する能力をテストします。私たちのデータセットとそれに対応するタスクは、オクルージョン、背景の多様性、さまざまな照明と影のあるレンダリングされたオブジェクトのために、非常に困難です。私たちのタスクでは、図 5 の赤いカメラで示されているように、少数の観測値 (1 ～ 5) を使用して、シーン全体の 360° 半球ビューを再構築する必要があります。代わりに、図 5 の緑色のカメラで示されているように、100 個の半球ビューすべてが評価に使用されます。したがって、私たちのタスクでは、屋外シーンの新しいビューを合成するための強力な事前知識が必要です。

方法：

新しいシーンの複数のビューの RGB 画像が与えられると、NeO 360 は新しいビュー合成を実行し、360 度シーンの 3D シーン表現をレンダリングします。この目標を達成するために、私たちは、世界のあらゆるポイントに対してクエリを実行できる 3 平面表現で構成されるハイブリッドなローカルおよびグローバル特徴表現を採用しています。正式には、図 1 に示すように、入力画像、複雑なシーン (n=1 ～ 5)、および対応するカメラ位置 ( γγγ 、 γ )が与えられると、NeO 360 は近い背景と遠い背景の密度と放射輝度フィールドを推測します (NeRF++ と同様)。主な違いは、NeO 360 では、従来の NeRF 定式化で使用される位置と視線方向のみを使用するのではなく、ローカル機能とグローバル機能の組み合わせを使用して放射輝度フィールドデコーダーを調整することです。

画像条件付き三面表現

NeRF は高忠実度のシーン合成を実現できますが、新しいシーンに一般化することは困難です。シーンの事前確率を効果的に使用し、大量の無制限の 360° データから学習するために、私たちは、(2D または BEV ベースの表現のように) どの次元も無視することなく、(ボクセルベースの表現のように) 立方体の複雑さを回避することなく、完全な表現力で 3D シーンを大規模にモデル化できる、画像条件付き 3 平面表現を提案します。 3 平面表現は、3 つの軸に沿った直交平面で構成されます。は空間解像度であり、各平面には次元機能があります。入力画像から特徴 3 平面を構築する方法は次のとおりです。

この論文では、まず、ImageNet で事前トレーニングされた ConvNet バックボーンEを使用して低解像度の空間特徴表現を抽出し、元の入力画像を長さと幅が 1/2 の特徴マップに変換します。次に、カメラのポーズと内部パラメータに従って、各レイが 3D 特徴ボリュームデータに逆投影されます。。
カメラ光線に沿ったすべての特徴はグリッド内で同じであるため、追加の MLP を通じて各特徴の深度をさらに学習します。グリッド内の入力ボリュームデータの特徴とカメラ座標系のグリッド位置を組み合わせたものおよび世界座標におけるグリッドの方向連結接続を使用してカメラ座標に変換し、深度エンコーディング機能を出力します。。次に、独立したボリューム特徴次元に学習可能な重みを使用して、3次元特徴を取得します。その中でMLPの特徴集約を表す。代表者次元累積後のソフトマックススコア。特徴を平面に投影する動機の1つは、3D CNNの計算上の3次複雑性を避けながら、BEVや2D特徴表現よりも表現力豊かにすることである。しかし、このような方法はボクセルベースの表現よりも計算効率が高いが、軸が表現力を損なうことになります。代わりに、この論文では2D畳み込みを利用して、構築された画像条件付き三面体を新しい画像に変換します。チャネル出力、ここで平面の空間次元をアップサンプリングしながら画像特徴空間へ。学習された畳み込みは、欠落している特徴を埋めるための修復ネットワークとして機能します。私たちの 3 平面表現は、直感的に、さまざまな角度から検査したときに複雑なシーンをより適切に表現できるため、グローバルな特徴表現として機能します。これは、それぞれがシーンをより効果的に理解するのに役立つ補完的な情報を提供できるためです。

深層残差局所特徴

次の放射フィールドのデコード段階では、レンダリング MLP の残差接続として特徴も使用します。カメラパラメータγを使用して投影されたワールドポイントからソースビューを取得し、双線形補間によって投影されたピクセル位置の特徴を抽出します。ローカルおよびグローバルの特徴抽出パスは同じ重みθとエンコーダを共有することに注意してください。この論文では、複雑な都市の境界のないシーンでは、ローカルな特徴のみを使用すると、オクルージョンや遠方の 360 度のビューでパフォーマンスが低下することがわかりました。一方、全体的な特徴のみを使用すると幻覚を引き起こす可能性があります。私たちのアプローチは、ローカルとグローバルの特徴表現を効果的に組み合わせ、無限のシーンの最小限の単一ビューからより正確な 360 度ビュー合成を実現します。

放射フィールドのデコード

放射輝度フィールドデコーダーは、3つの平面と残差特徴から任意の3D位置と任意の視線方向の色と密度σ を予測するために使用されます。この記事では、レンダリング MLP のモジュール実装を使用します。 MLP は次のように表されます。

その中で、直交投影点は各平面に入り、双線形サンプリングを実行し、3つの双線形サンプリングベクトルによって接続されて形成されます。

。入力画像のビュー空間を使用して座標系を確立し、この特定の座標系で位置とカメラ光線を表示します。近距離および遠距離デコード MLP はNeRF++ に似ています。この論文では、色と密度の情報をデコードするための 2 つのレンダリング MLP を次のように定義しています。

この論文では、元の NeRF++ に似た座標再マッピング関数 (M) を定義して、単位球の外側の 3D ポイントを縮小し、MLP のレンダリングでより多くのオブジェクトの解像度を低くできるようにします。クエリフェーズの 3 平面表現では、表現が球ではなく平面であるため、実際の座標で非縮約座標を使用します。この論文では、レンダリングのために、MLP を調整するためにそれぞれのスケール座標を使用します。少数ショットの新規ビュー合成のための放射輝度フィールドの最適化ソースビューのローカルおよびグローバルな特徴を考慮して、ボリュームレンダリングと近距離背景と遠距離背景の合成後、近距離背景と遠距離背景専用のデコーダーを使用して色と強度をデコードします。

: ターゲットイメージ内のサンプリングされたピクセル位置: 近い MLP と遠い MLP のレンダリング出力から取得された合成色。

シーン編集と分解

検出器から取得した 3D 境界ボックスがあれば、オブジェクトの 3D 境界ボックス内の光線をサンプリングし、3 平面の特徴グリッド内の特定の位置で特徴を双線形補間するだけで、個々のオブジェクトと背景の放射輝度を取得できるため、個々のオブジェクトの編集と再レンダリングが簡単になります。この論文では、オブジェクトの 3D 境界ボックス内の特徴を考慮して前景 MLP をレンダリングすることにより、正確なオブジェクトの再レンダリングを実行します。本質的に、この論文では、編集可能なシーンのレンダリング式を組み合わせて、レンダリングオブジェクト、近くの背景、遠くの背景に分割します。

実験：

ベースライン:

NeRF: バニラ NeRF メソッドは、RGB 画像を与えられたシーンにオーバーフィットします
PixelNeRF 局所的な画像特徴を利用して少数ショットの新しいビュー合成を行う、一般化可能な NeRF バリアント
MVSNeRF: ソース画像のコストボリュームからローカル特徴を構築することで、少数ビュー合成用に NeRF を拡張する
NeO 360: 提案されたアーキテクチャは、一般的なシーン表現学習のためにローカル機能とグローバル機能を組み合わせます。

結論は：

本稿では、無制限の 360° シナリオ向けの NeRF アプローチのスケーラブルな拡張である NeO 360 を提案します。私たちのアプローチは、小規模な新しいビュー合成のために、画像条件付き三平面表現に依存しています。無制限のシーンに対する強力な事前確率を構築するために、360 度設定でのビューの合成、再構築、分解を研究するための大規模データセット NERDS 360 を提案します。私たちのアプローチは、他の一般化可能な NeRF バリアントよりも大幅に優れており、新しいシーンでテストすると、より高いパフォーマンスを実現します。今後の研究では、提案された方法を使用して、推論中に 3D 境界ボックスなどのラベル付きデータにあまり依存せず、ラベル付きデータがない場合に効果的なシーン分解のためにモーションキューに依存する事前確率を構築する方法を検討します。

オリジナルリンク: https://mp.weixin.qq.com/s/rjJlJbbb_oFah5nZoSYQwA

<<:

>>: