SurroundOcc: サラウンド 3D 占有グリッドの最新技術!

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

本研究では、マルチフレームのポイントクラウドから高密度の占有グリッドデータセットを構築し、トランスフォーマーベースの 2D-3D Unet 構造に基づいて 3 次元の占有グリッドネットワークを設計しました。私たちの論文が ICCV 2023 に掲載されたことを光栄に思います。プロジェクトコードはオープンソース化されており、誰でも試すことができます。

arXiv: https://arxiv.org/pdf/2303.09551.pdf

コード: https://github.com/weiyithu/SurroundOcc

ホームページ: https://weiyithu.github.io/SurroundOcc/

最近は必死に仕事を探していて、書く時間がありませんでした。つい最近、カメラレディ作品を提出したので、作品の仕上げとして、知乎に要約を書こうと思いました。実際、記事の紹介部分は様々な公開アカウントによって非常によく書かれており、私たちも彼らの宣伝に感謝します。Heart of Autonomous Driving: nuScenes SOTAを直接参照できます。 SurroundOcc: 自動運転のための純粋な視覚による 3D 占有予測ネットワーク (清華大学 & 天津大学)。一般的に、貢献は 2 つの部分に分かれています。1 つは、マルチフレーム LIDAR ポイントクラウドを使用して高密度の占有データセットを構築する方法であり、もう 1 つは占有予測ネットワークを設計する方法です。実際、どちらの部分も内容は比較的わかりやすく、理解しやすいです。ご質問があれば、いつでもご質問ください。そこでこの記事では、論文以外のことについてお話ししたいと思います。1つは、現在のソリューションをどのように改善して導入しやすくするか、そしてもう1つは将来の開発の方向性についてです。

展開する

ネットワークの展開が容易かどうかは、主にボード上で実装するのが難しい演算子があるかどうかによって決まります。SurroundOcc メソッドでより難しい 2 つの演算子は、トランスフォーマーレイヤーと 3D 畳み込みです。

トランスフォーマーの主な機能は、2D の特徴を 3D 空間に変換することです。実際、この部分は LSS、ホモグラフィー、さらには MLP でも実装できるため、ネットワークのこの部分は実装されたソリューションに応じて変更できます。しかし、私の知る限り、トランスフォーマーソリューションはキャリブレーションに敏感ではなく、いくつかのソリューションの中でパフォーマンスが優れています。トランスフォーマーの導入を実装できる人は、オリジナルのソリューションを使用することをお勧めします。

3D 畳み込みの場合は、2D 畳み込みに置き換えることができます。ここでは、元の (C、H、W、Z) 3D 特徴を (C* Z、H、W) 2D 特徴に再形成する必要があります。その後、2D 畳み込みを使用して特徴を抽出できます。最終的な占有予測ステップでは、(C、H、W、Z) に戻して再形成し、監視します。一方、スキップ接続は解像度が大きいため、より多くのビデオメモリを消費します。デプロイ時にこれを削除し、最小解像度のレイヤーのみを保持することができます。私たちの実験では、3D 畳み込みにおけるこれら 2 つの操作により、ニューシーンでいくつかのポイントドロップアウトが発生することがわかりましたが、業界のデータセットの規模はニューシーンよりもはるかに大きく、場合によっては結論が変わるため、ポイントドロップアウトは少なくなるか、ゼロになるはずです。

データセットの構築に関して、最も時間のかかるステップはポアソン再構成ステップです。 32 ライン LIDAR を使用して収集された nuscenes データセットを使用しているため、マルチフレームスティッチングテクノロジを使用しても、スティッチされたポイントクラウドにはまだ多くの穴があることがわかったので、ポアソン再構成を使用して穴を埋めました。しかし実際には、業界で使用されている多くの LiDAR ポイントクラウドは、M1、RS128 など比較的密度が高いため、ポアソン再構成ステップを省略でき、データセットの構築ステップが高速化されます。

一方、SurroundOcc は、nuscenes 内の注釈付き 3D オブジェクト検出ボックスを使用して、静的シーンと動的オブジェクトを分離します。ただし、実際のアプリケーションでは、自動ラベル、つまり大規模な 3D オブジェクト検出および追跡モデルを使用して、シーケンス全体の各オブジェクトの検出ボックスを取得できます。手動で注釈を付けたラベルと比較すると、大規模なモデルを使用して生成された結果には、間違いなく何らかのエラーが含まれます。最も直接的な兆候は、複数のフレーム内のオブジェクトをつなぎ合わせた後にゴーストが発生することです。しかし実際には、占有は物体の形状に対してそれほど高い要件を持たず、検出ボックスの位置が比較的正確であれば、要件を満たすことができます。

今後の方向性

現在の方法では、占有監視信号を提供するために依然として LiDAR に大きく依存していますが、多くの車、特に低レベルの運転支援車には LiDAR が搭載されていません。これらの車は、シャドウモードを通じて大量の RGB データを送信できます。したがって、将来の方向性としては、自己教師学習に RGB のみを使用できるかどうかが挙げられます。自然な解決策は、NeRF を監督に使用することです。具体的には、バックボーン部分は変更せずに占有率予測を取得し、次にボクセルレンダリングを使用して各カメラ視点での RGB を取得し、トレーニングセット内の真の値 RGB を損失として使用して監督信号を形成します。残念ながら、この単純なアプローチは、試してみたところうまくいきませんでした。考えられる理由は、屋外シーンの範囲が広すぎて、弱体化が持続できない可能性があります。ただし、適切に調整しなかった可能性もあります。もう一度お試しください。

もう一つの方向はタイミングと占有フローです。実際、占有フローは、単一フレームの占有よりも下流のタスクに非常に役立ちます。 ICCV 期間中は占有フローデータセットを準備する時間がなかったし、論文を発表するなら多くのフローベースラインと比較する必要があったので、その時点では作業しませんでした。タイミングネットワークは、比較的シンプルで効果的な BEVFormer および BEVDet4D のソリューションを参照できます。難しいのはフローデータセットです。一般的なオブジェクトは、シーケンスの 3 次元ターゲット検出ボックスを使用して計算できますが、小動物のビニール袋などの特殊な形状のオブジェクトは、シーンフローメソッドを使用してラベル付けする必要がある場合があります。

オリジナルリンク: https://mp.weixin.qq.com/s/_crun60B_lOz6_maR0Wyug

<<: 完全なマーケティング効果評価におけるベイズ構造モデルの応用

>>: ホスピタリティ業界における職場の変革 - 人間と機械の関係