Google は NeRF を使用して、自動運転用の仮想世界でサンフランシスコを再現します

自動運転システムのトレーニングには、高精度のマップ、膨大な量のデータ、仮想環境が必要です。この方向で取り組んでいる各テクノロジー企業は、独自の方法を持っています。Waymo は独自の自動運転タクシー車両を保有しており、NVIDIA は大規模なトレーニング用の仮想環境である NVIDIA DRIVE Sim プラットフォームを開発しました。最近、Google AIとGoogleの自動運転会社Waymoの研究者が新しいアイデアを実践しました。彼らは、280万枚のストリートビュー写真を使用して、サンフランシスコ市全体の3D環境を再構築しようとしました。

Google の研究者は、多数のストリートビュー画像を使用して Block-NeRF グリッドを構築し、これまでで最大のニューラルネットワークシーン表現を完成させ、サンフランシスコのストリートシーンをレンダリングしました。

この研究がarXivに提出された後、ジェフ・ディーンはすぐにその紹介文をリツイートした。

Block-NeRF は、大規模な環境を特徴付けることができる Neural Radiance Fields のバリエーションです。具体的には、この研究では、NeRF を拡張して複数の街区にまたがる都市シーンをレンダリングする場合、シーンを複数の個別にトレーニングされた NeRF に分解することが重要であることが示されています。この分解により、レンダリング時間とシーンサイズが切り離され、レンダリングを任意の規模の環境に拡張できるようになり、環境をブロックごとに更新できるようになります。

この研究では、数か月にわたるさまざまな環境条件でキャプチャされたデータに対して NeRF を堅牢にするためにいくつかのアーキテクチャ変更を採用し、外観の埋め込みを追加し、ポーズの改良を学習し、個々の NeRF ごとに制御可能な露出を実現し、隣接する NeRF 間の外観を揃えてシームレスに組み合わせるための手順を提案しています。

「NeRF: ビュー合成のためのニューラル放射フィールドとしてのシーンの表現」は、ECCV 2020 でカリフォルニア大学バークレー校の研究者が発表した論文で、最優秀論文にノミネートされました。これは、表示されるシーン表現 (ポイントクラウド、メッシュなど) とは異なる暗黙の 3D シーン表現を提案します。その原理は、シーンを通過する光の色を解決し、新しい視点から 2D シーンイメージをレンダリングして合成することです。

NeRF は、ポーズをとったカメラ画像のセットを基に、写真のようにリアルな再構成と斬新なビュー合成を可能にします。 NeRF に関する初期の研究は、小規模でオブジェクト中心の再構築に重点を置く傾向がありました。いくつかの方法では、1 つの部屋や建物のような小さなシーンを再構築できるようになりましたが、これらの方法はまだ範囲が限られており、都市規模の環境に拡張することはできません。これらの方法を大規模な環境に適用すると、モデル容量が限られているため、目立つアーティファクトや視覚的な忠実度の低下が生じることがよくあります。

大規模環境の再構築は、自動運転や航空測量などの分野で幅広い応用が期待されています。たとえば、ロボットの位置決めやナビゲーションなどのアプリケーションに事前の知識を提供するために、大規模で忠実度の高いマップを作成します。さらに、自動運転システムは、以前に遭遇したシナリオを再シミュレートすることで評価されることが多いですが、記録からの逸脱により車両の軌道が変わる可能性があるため、経路に沿ったビューの高忠実度レンダリングが必要になります。基本的なビュー合成に加えて、シーン調整された NeRF は、カメラの露出、天候、または時刻などの周囲の照明条件を変更することもできるため、シミュレートされたシーンをさらに強化できます。

論文リンク: https://arxiv.org/abs/2202.05263
プロジェクトリンク: https://waymo.com/intl/zh-cn/research/block-nerf/

上図に示すように、Google が提案する Block-NeRF は、複数のコンパクトな NeRF 表現環境を使用することで、大規模なシーン再構成を実現する手法です。推論時に、Block-NeRF は特定の領域に関連する NeRF レンダリングをシームレスに組み合わせます。上記の例では、3 か月間にわたって収集されたデータを使用して、サンフランシスコのアラモスクエア地区を再構築しています。 Block-NeRF は、シーン全体を再トレーニングすることなく、環境の個々のブロックを更新できます。

このような大規模な環境を再構築するには、一時的なオブジェクト（車や歩行者）の存在、モデル容量の制限、メモリと計算の制約など、追加の課題が生じます。さらに、一貫した条件下で、このような大規模な環境のトレーニングデータを 1 回のキャプチャで収集することはほとんど不可能です。逆に、環境のさまざまな部分のデータは、さまざまなデータ収集作業から取得する必要がある場合があり、シーンの形状 (建設作業や駐車中の車など) や外観 (気象条件やさまざまな時間帯など) に違いが生じる可能性があります。

方法

この研究では、環境の変化や収集されたデータ内の姿勢エラーに対処するために外観埋め込みと学習された姿勢改良を使用して NeRF を拡張し、また、推論中に露出を変更する機能を提供するために NeRF に露出条件付けを追加します。これらの変更を加えた後のモデルは、研究者によって Block-NeRF と呼ばれています。 Block-NeRF のネットワーク容量を拡張することで、より大きなシーンを表現できるようになります。ただし、このアプローチ自体には多くの制限があります。レンダリング時間はネットワークのサイズに応じて拡大し、ネットワークは単一のコンピューティングデバイスに収まらなくなり、環境を更新または拡張するにはネットワーク全体を再トレーニングする必要があります。

これらの課題に対処するために、大規模な環境を複数の個別にトレーニングされた Block-NeRF に分割し、推論時に動的にレンダリングして結合することを提案します。これらの Block-NeRF を個別にモデル化することで、最大限の柔軟性、任意の規模の環境への拡張が可能になり、環境全体を再トレーニングすることなく、部分的に新しい領域を更新または導入できるようになります。ターゲットビューを計算するには、Block-NeRF のサブセットのみをレンダリングし、カメラに対する地理的位置に基づいて合成する必要があります。よりシームレスな合成を実現するために、外観埋め込みを最適化することで、さまざまな Block-NeRF を視覚的に整列させる外観マッチング手法を提案します。

図 2: 再構成されたシーンは複数の Block-NeRF に分割され、各 Block-NeRF は特定の Block-NeRF 原点座標 (オレンジ色の点) のプロトタイプ領域 (オレンジ色の破線) 内のデータに基づいてトレーニングされます。

この研究では、mipNeRF に基づく Block-NeRF 実装を構築し、入力画像がさまざまな距離からシーンを観察するときに NeRF のパフォーマンスを低下させるエイリアシング問題を改善しました。研究者らは、Photo Tourism データセット内のランドマークに NeRF を適用する際に、各トレーニング画像に潜在コードを追加してシーンの外観の一貫性の欠如に対処する NeRF in the Wild (NeRF-W) の手法を組み合わせました。 NeRF-W は数千枚の画像から各ランドマークごとに個別の NeRF を作成しますが、私たちの新しいアプローチでは、多くの NeRF を組み合わせて数百万枚の画像から一貫した大規模な環境を再構築し、学習したカメラポーズの改良を組み込みます。

図 3. 新しいモデルは、mip-NeRF で提案されたモデルの拡張です。

一部の NeRF ベースの方法では、セグメンテーションデータを使用して、ビデオシーケンス内の静的オブジェクトと動的オブジェクト (人物や車など) を分離して再構築します。この研究は主に環境自体の再構築に焦点を当てているため、トレーニング中に動的なオブジェクトをマスクすることを選択します。

レンダリングに関連する Block-NeRF を動的に選択し、シーンを移動するときにスムーズに合成するために、照明条件に合わせて外観コードを最適化し、各 Block-NeRF から新しいビューまでの距離に基づいて計算された補間重みを使用します。

復興効果

データのさまざまな部分が異なる環境条件下でキャプチャされる可能性があることを考慮して、アルゴリズムは NeRF-W に従い、生成潜在最適化 (GLO) を使用して画像周辺の外観埋め込みベクトルを最適化します。これにより、NeRF は天候や照明の変化など、外観が変化するいくつかの条件を考慮することができます。これらの外観埋め込みは、トレーニングデータで観測されたさまざまな条件 (曇り空と晴天、昼と夜など) の間を補間するように操作することもできます。

図 4. 外観コードにより、モデルはさまざまな照明や気象条件を表示できます。

環境全体は任意の数の Block-NeRF で構成できます。効率性を向上させるために、研究者らは 2 つのフィルタリングメカニズムを使用して、特定のターゲット視点に関連するブロックのみをレンダリングしました。ここでは、ターゲット視点の設定半径内の Block-NeRF のみが考慮されます。さらに、システムは各候補者の関連する可視性を計算します。平均可視性がしきい値を下回る場合、Block-NeRF は破棄されます。図 2 は可視性フィルタリングの例を示しています。可視性は、そのネットワークがカラーネットワークから独立しており、ターゲットイメージの解像度でレンダリングする必要がないため、迅速に計算できます。フィルタリング後、マージする必要がある Block-NeRF は通常 1 ～ 3 個あります。

図 5. Google のモデルには露出調整が含まれており、トレーニングデータ内に存在する露出の変化を考慮するのに役立ちます。これにより、ユーザーは推論中に出力画像の外観を人間が解釈できる方法で変更できます。

都市の風景全体を再構築するために、研究者たちは街路の風景を記録しながら長期のシーケンスデータ（100秒以上）をキャプチャし、数か月にわたって特定の対象エリアでさまざまなシーケンスを繰り返しキャプチャしました。 Google は 12 台のカメラから撮影した画像データを使用して、360 度のビューを提供します。 8 台のカメラはルーフから周囲の完全な視界を提供し、残りの 4 台は車両の前部に配置され、前方と側方を向いています。各カメラは 10 Hz で画像をキャプチャし、スカラー露出値を保存します。車両の姿勢は既知であり、すべてのカメラは調整されています。

この情報を使用して、研究では、カメラのローリングシャッターを考慮して、共通の座標系で対応するカメラ光線の原点と方向を計算しました。

図 6. 複数の Block-NeRF に基づいてシーンをレンダリングする場合、アルゴリズムは外観マッチングを使用してシーン全体の一貫した外観を取得します。 Block-NeRF (左) の固定ターゲット外観が与えられると、アルゴリズムは一致するように隣接する Block-NeRF の外観を最適化します。この例では、外観は Block-NeRF で生成された夜間の外観と一致します。

図 7. 複数のデータセグメントのモデルアブレーション結果。外観の埋め込みにより、ニューラルネットワークは、天候や照明などの環境の変化を考慮して雲や霧のジオメトリを追加する必要がなくなります。露出を削除すると精度がわずかに低下します。ポーズの最適化により、結果が鮮明になり、最初の行のポールに見られるような繰り返しオブジェクトのゴーストが除去されます。

今後の展望

グーグルの研究者らは、新しい手法には、一部の車両や影が正しく除去されない、季節によって見た目が変わるため仮想環境内の植物がぼやけてしまうなど、解決すべき問題がまだいくつかあると述べた。同時に、トレーニングデータ内の時間的な不整合 (建設作業など) は AI によって自動的に処理することができず、影響を受ける領域を手動で再トレーニングする必要があります。

さらに、動的オブジェクトを含むシーンをレンダリングできないという現状では、Block-NeRF をロボットのクローズドループシミュレーションタスクに適用できる範囲が制限されます。将来的には、最適化プロセス中に一時的なオブジェクトを学習するか、動的オブジェクトを直接モデル化することで、これらの問題に対処できる可能性があります。

<<: 農業生産の効率性を向上させるために、知能ロボットが力を発揮している

>>: 電子犬は無残に捨てられたので、VRヘッドセットを装着して古い友達を探しました！メタはメタバースの感情カードを切る