NeuRAD: 自動運転のためのニューラルレンダリング (複数のデータセットでの SOTA)

論文「NeuRAD: 自動運転のためのニューラルレンダリング」は、Zenseact、チャルマース工科大学、リンショーピング大学、ルンド大学によるものです。

ニューラル放射場 (NeRF) は、自動運転 (AD) コミュニティで人気が高まっています。最近の手法では、閉ループシミュレーション、AD システムテスト、トレーニングデータ拡張技術における NeRF の可能性が示されています。しかし、既存の方法では、多くの場合、長いトレーニング時間、緻密な意味的監視が必要であり、一般化が欠けています。これは、AD における NeRF の大規模な応用を妨げます。本稿では、動的 AD データ用の新しい堅牢なビュー合成方法である NeuRAD を提案します。このアプローチは、シンプルなネットワーク設計、カメラやライダーを含むセンサーモデリング（ローリングシャッター、ビーム発散、レイドロップオフを含む）を特徴としており、すぐに複数のデータセットで動作します。

図に示すように、NeuRAD は動的な自動車シーン向けにカスタマイズされたニューラルレンダリング手法です。車両や他の道路利用者の姿勢を変更したり、参加者を自由に追加したり削除したりできます。これらの機能により、NeuRAD は、センサーにリアルなクローズドループシミュレーターや強力なデータ拡張エンジンなどのコンポーネントの基盤として適しています。

私たちの目標は、自車両プラットフォーム、俳優、またはその両方のポーズを変えて、現実的なセンサーデータを生成できる表現を学習することです。モバイルプラットフォームによって収集されたデータ (設定されたカメラ画像と LiDAR ポイントクラウド、およびモバイルアクターのサイズとポーズの推定値から構成される) にアクセスできると想定されます。この方法が実用的であるためには、トレーニングと推論の時間を最小限に抑えながら、主要な自動車データセットの再構築エラーに関して優れたパフォーマンスを発揮する必要があります。

下の図は、この論文で提案されている方法の概要です。NeuRAD は、アクター認識ハッシュコーディングによって区別される、自動車シーンの静的および動的結合ニューラル特徴フィールドを学習します。アクターの境界ボックス内にあるポイントは、アクターのローカル座標に変換され、アクターのインデックスとともに 4D ハッシュグリッドを照会するために使用されます。ボリュームレンダリングの光レベルの特徴は、アップサンプリング CNN を使用して RGB 値にデコードされ、MLP を使用して光の着地確率と強度にデコードされます。

著者らは、新しい視点の合成[4, 47]の研究を基に、NeRF[25]や同様の方法[23]を一般化したニューラル特徴場（NFF）を用いて世界をモデル化している。

画像をレンダリングするには、カメラ光線のセットをボリュームレンダリングして、特徴マップ F を生成します。 [47]に示されているように、最終的な画像をレンダリングするためにCNNが使用されます。実際には、特徴マップは画像よりも解像度が低く、CNN を使用してアップサンプリングされます。これにより、クエリされるレイの数を大幅に削減できます。

LiDAR センサーにより、自律走行車は一連の個別のポイントで深度と反射率 (強度) を測定できます。レーザービームパルスを放射し、飛行時間を測定することで、返されたパワーの距離と反射率を決定します。これらの特性を捉えるために、姿勢 LIDAR センサーから送信されるパルスは一連の光線としてモデル化され、ボリュームのようなレンダリング技術が使用されます。

点を返さないレーザー光線を考えてみましょう。戻り電力が低すぎるとレイドロップと呼ばれる現象が発生し、これはシミュレーションと現実の矛盾を減らすためのモデリングにとって重要です[21]。通常、このような光は表面に当たることなく非常に遠くまで進むか、鏡、ガラス、濡れた舗装などの表面に当たり、そこから光線が空中に跳ね返ります。これらの効果をモデル化することは、センサーに忠実なシミュレーションには重要ですが、[14]で議論されているように、（多くの場合は非公開の）低レベルのセンサー検出ロジックの詳細に基づいて物理的に完全に捉えることは困難です。したがって、データからレイトレーシングを学習することを選択します。強度と同様に、光の特徴をレンダリングし、小さな MLP に渡すことで、光ドロップ確率 pd(r) を予測できます。 [14]とは異なり、実験で使用した5つのデータセットではこの情報が利用できないため、ライダービームの二次エコーはモデル化されていないことに注意してください。

ニューラル特徴フィールド (NFF) の定義は、学習関数 (s, f) = NFF(x, t, d) に拡張されます。ここで、x は空間座標、t は時間、d は視線方向を表します。重要なのは、この定義では、シーンの動的な側面をモデル化するために非常に重要な時間を入力として導入していることです。

ニューラルアーキテクチャ

NFFアーキテクチャはNeRF[4, 27]で認められたベストプラクティスに従っています。場所 x と時間 t を指定して、アクター対応ハッシュコードを照会します。このエンコードは、符号付き距離 s と中間特徴 g を計算する小さな MLP に送られます。視線方向dは球面調和関数[27]を使用してエンコードされ、モデルは反射やその他の視点依存効果を捉えることができます。最後に、方向エンコーディングと中間特徴は 2 番目の MLP によって共同で処理され、g のスキップ接続で強化されて特徴 f が生成されます。

シーン構成

以前の研究[18, 29, 46, 47]と同様に、世界を静的な背景と剛体の動的アクターの2つの要素に分解します。各要素は3D境界ボックスとSO(3)ポーズのセットによって定義されます。学習プロセスを簡素化し、トレーニング後に俳優の新しいシナリオを動的に生成できるようにある程度の編集機能を許可するという 2 つの目的があります。異なるシーン要素に個別の NFF を使用する従来のアプローチとは異なり、すべてのネットワークが共有され、静的コンポーネントと動的コンポーネントの区別がアクター対応のハッシュエンコーディングによって透過的に処理される単一の統合 NFF を使用します。エンコード戦略はシンプルです。アクターの境界ボックス内にあるかどうかに応じて、2 つの関数のいずれかを使用して、特定のサンプル (x, t) をエンコードします。

無制限の静的シーン

静的シーンは、表現力と効率性に優れた表現方法であることが示されているため、マルチ解像度ハッシュグリッド[27]を使用して表現されます。しかし、境界のないシーンをメッシュ上にマッピングするために、MipNerf-360 [3]で提案された収縮法が採用されている。これにより、単一のハッシュグリッドで近くの道路要素と遠くの雲を正確に表現できるようになります。対照的に、既存の方法では、空やその他の遠方領域を撮影するために専用のNFFを利用しています[47]。

剛体ダイナミックアクター

サンプル (x, t) がアクターの境界ボックス内に入ると、その空間座標 x と視線方向 d は、特定の時刻 t におけるアクターの座標系に変換されます。後で時間的な側面を無視し、静的シーンと同様に、時間に依存しないマルチ解像度のハッシュグリッドから機能をサンプリングします。つまり、各アクターごとに 1 つずつ、複数の異なるハッシュグリッドを個別にサンプリングする必要があります。ただし、代わりに単一の 4D ハッシュグリッドが使用され、4 番目の次元はアクターのインデックスに対応します。このアプローチにより、すべてのアクター機能を並行してサンプリングできるため、単一のハッシュグリッドのパフォーマンスに匹敵しながら大幅な高速化を実現できます。

マルチスケールシーン問題

自動車データにニューラルレンダリングを適用する際の最大の課題の 1 つは、このデータ内に存在する複数の詳細レベルを処理することです。車両が長距離を走行する場合、遠くからでも近くからでも多くの表面が見えるようになります。これらのマルチスケール設定でiNGP [27]やNeRFなどの位置埋め込みを単純に適用すると、エイリアシングアーティファクトが発生する可能性があります[2]。この問題に対処するために、多くの手法では、光線を、縦方向がビンサイズによって決定され、半径方向がピクセル面積とセンサーからの距離によって決定される円錐台としてモデル化します[2、3、13]。

Zip-NeRF[4]は現在、iNGPハッシュグリッドの唯一のアンチエイリアシング手法であり、マルチサンプリングと重み削減という2つのフラスタムモデリング手法を組み合わせています。マルチサンプリングでは、錐台の複数の位置での位置埋め込みが平均化され、縦方向と半径方向の両方の範囲がキャプチャされます。重みを減らすために、各サンプルは等方性ガウスとしてモデル化され、グリッド特徴の重みはセルサイズとガウス分散の比率に比例し、より細かい解像度を効果的に抑制します。組み合わせ技術によりパフォーマンスが大幅に向上しますが、マルチサンプリングにより実行時間も大幅に増加します。したがって、この論文の目的は、実行時の影響を最小限に抑えながらスケール情報を組み込むことです。 Zip-NeRF にヒントを得て、ハッシュされたグリッド特徴を錐台に対するサイズに応じて重み付けする直感的な重み付けダウンスキームを提案します。

効率的なサンプリング

大規模なシーンをレンダリングする際のもう 1 つの難しさは、効率的なサンプリング戦略が必要であることです。ある画像では、数キロ離れた高層ビル間の視差効果を捉えながら、近くの交通標識の詳細なテキストをレンダリングしたい場合があります。両方の目標を達成するには、光線を均一にサンプリングするには光線ごとに数千のサンプルが必要になり、計算上は不可能です。これまでの研究では、サンプルを削減するためにLiDARデータに大きく依存しており[47]、LiDAR作業を超えたレンダリングが困難でした。

代わりに、サンプル間の間隔が光線の原点からの距離とともに増加するように、累乗関数[4]に従って光線に沿ってサンプルをレンダリングします。それでも、サンプルサイズが劇的に増加すると、関連するすべての条件を満たすことは不可能になります。そのため、2ラウンドの提案サンプリング[25]も採用され、NFF（ニューラルフィーチャフィールド）の軽量バージョンが照会され、光線に沿った重み分布が生成されます。次に、これらの重みに従って新しいサンプルセットがレンダリングされます。このプロセスを 2 回繰り返すと、光線上の関連位置に集中した、精緻なサンプルセットが得られ、フルスケールの NFF を照会するために使用できるようになります。提案されたネットワークを監視するために、アンチエイリアシングオンライン蒸留法[4]が採用され、さらにLiDARによって監視されます。

ローリングシャッターのモデリング

標準的な NeRF ベースの定式化では、各画像は原点 o からキャプチャされると想定されます。ただし、多くのカメラセンサーには、ピクセルの行が順番にキャプチャされるローリングシャッターが備わっています。したがって、カメラセンサーは最初の行のキャプチャと最後の行のキャプチャの間で移動する可能性があり、単一の原点の仮定が崩れます。合成データ[24]や低速の手持ちカメラで撮影したデータでは問題になりませんが、特にサイドオンカメラで撮影した高速車両の映像ではローリングシャッターが目立つようになります。同じ効果が LIDAR にも存在し、各スキャンは通常 0.1 秒で収集されますが、これは高速道路で走行する場合の数メートルの移動に相当します。自己動き補正されたポイントクラウドの場合でも、これらの違いにより、3D ポイントが他のジオメトリを通過する光線に変換され、有害な視線エラーが発生する可能性があります。これらの影響を軽減するために、各光線に個別の時間が割り当てられ、その原点は推定された動きに基づいて調整され、ローリングシャッターがモデル化されます。ローリングシャッターはシーンのすべての動的要素に影響するため、俳優のポーズは個々の照明時間ごとに線形補間されます。

さまざまなカメラ設定

自動運転シーケンスをシミュレートする際のもう 1 つの問題は、画像が、露出などのキャプチャパラメータが異なる可能性のあるさまざまなカメラから取得されることです。ここでは、「NeRFs in the wild」[22]の研究からインスピレーションを得ています。この研究では、各画像に対して外観埋め込みが学習され、その特徴とともに2番目のMLPに渡されます。ただし、どの画像がどのセンサーからのものかがわかっている場合は、代わりに各センサーに対して単一の埋め込みが学習され、過剰適合の可能性が最小限に抑えられ、新しいビューを生成するときにこれらのセンサー埋め込みを使用できるようになります。色ではなく特徴をレンダリングする場合、これらの埋め込みはボリュームレンダリング後に適用され、計算オーバーヘッドが大幅に削減されます。

騒々しい俳優の姿勢

モデルは、注釈の形式または追跡出力のいずれかで、動的なアクターのポーズを推定することに依存しています。これらの欠点を解決するために、俳優のポーズは学習可能なパラメータとしてモデルに組み込まれ、共同で最適化されます。姿勢は6D表現[50]を使用して、移動tと回転Rとしてパラメータ化されます。

注：NeuRADはオープンソースプロジェクトNerfstudio[33]で実装されています。 Adam[17]オプティマイザートレーニング法を20,000回の反復に使用しました。 NVIDIA A100 を使用すると、トレーニングには約 1 時間かかります。

UniSimの再現：UniSim[47]はニューラル閉ループセンサーシミュレーターです。フォトリアリスティックなレンダリングを実現し、利用可能な監督についてはほとんど仮定をしません。つまり、カメラ画像、LIDAR ポイントクラウド、センサーポーズ、および動的なアクターの軌跡を含む 3D 境界ボックスのみが必要です。これらの特性により、UniSim は新しい自動運転データセットに簡単に適用できるため、適切なベースラインになります。ただし、コードはクローズドソースであり、非公式の実装はありません。そのため、本論文ではUniSimをNerfstudio[33]の独自のモデルとして再実装することを選択した。多くのモデルの詳細は UniSim のメイン記事には記載されていないため、IEEE Xplore が提供する補足資料に頼るしかありません。詳細はまだ不明ですが、著者らはこれらのハイパーパラメータを調整して、選択された10個のPandaSet [45]シーケンスで報告されたパフォーマンスと一致するようにしました。

<<: OpenAI COO: AIが一夜にしてビジネスに大きな変化をもたらすとは期待しない

>>: Googleによると、特定のキーワードを繰り返すとChatGPTのトレーニングデータが明らかになる可能性があるという。OpenAI：利用規約違反