RangePerception: Range View3D 検出への新しいアプローチ!

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

元のタイトル: RangePerception: LiDAR レンジビューを制御して効率的かつ正確な 3D オブジェクト検出を実現する

論文リンク: https://openreview.net/pdf?id=9kFQEJSyCM

著者所属：上海人工知能研究所、復旦大学

論文のアイデア:

LiDAR ベースの 3D 検出方法では現在、鳥瞰図 (BEV) または距離図 (RV) を主な基準として使用しています。前者はボクセル化と 3D 畳み込みに依存しているため、トレーニングと推論の両方のプロセスで非効率になります。対照的に、RV ベースの方法は、コンパクトさと 2D 畳み込みとの互換性により高い効率を示しますが、そのパフォーマンスは BEV ベースの方法に比べてまだ劣っています。このパフォーマンスギャップを解消しながら、RV ベースの方法の効率性を維持するため、本研究では、RangePerception と呼ばれる効率的で正確な RV ベースの 3D オブジェクト検出フレームワークを提案します。本研究では、慎重な分析を通じて、既存の RV ベースの方法のパフォーマンスを妨げる 2 つの主要な課題を特定しました。1) 出力で使用される 3D ワールド座標と入力で使用される 2D 距離画像座標の間に自然なドメインギャップがあるため、距離画像から情報を抽出することが困難です。2) 元の距離画像に視覚破損の問題があり、距離画像の端にあるオブジェクトの検出精度に影響します。上記の主要な課題に対処するために、本論文では、距離画像表現と世界座標 3D 検出結果間の情報フローを容易にする Range Aware Kernel (RAK) と Vision Restoration Module (VRM) という 2 つの新しいアルゴリズムを提案します。 RAK と VRM の助けを借りて、Waymo Open Dataset では、当社の RangePerception は、従来の最先端の RV ベースの方法である RangeDet と比較して、平均 L1/L2 AP を 3.25/4.18 向上させます。 RangePerception は、よく知られている BEV ベースの方法 CenterPoint よりも平均 AP がわずかに高い RV ベースの 3D 検出方法として最初に提示され、RangePerception の推論速度は CenterPoint の 1.3 倍です。

ネットワーク設計:

この論文では、RangePerception と呼ばれる効率的で正確な RV ベースの 3D 検出フレームワークを紹介します。上記の主要な課題を克服するために、Range Aware Kernel (RAK) と Vision Restoration Module (VRM) という 2 つの新しいアルゴリズムが提案され、RangePerception フレームワークに統合されています。これらのアルゴリズムは、どちらも距離画像表現と世界座標 3D 検出結果間の情報フローを促進します。 RAK と VRM の助けを借りて、当社の RangePerception は、WOD 上の車両、歩行者、自転車に対して 73.62、80.24、70.33 L1 3D AP を提供し、レンジビューベースの 3D 検出方法として最先端のパフォーマンスを実現します。この論文の貢献は以下の通りです。

RangePerception フレームワーク。この論文では、RangePerception という新しい高性能 3D 検出フレームワークを紹介します。 RangePerception は、WOD で平均 L1/L2 AP 74.73/69.17 を達成した初の RV ベースの 3D 検出器であり、平均 L1/L2 AP 71.48/64.99 を持つ従来の最先端の RV ベースの検出器 RangeDet を 3.25/4.18 改善して上回っています。 RangePerceptionは、広く使用されているBEVベースの方法であるCenterPoint [6]と比較してもわずかに優れた性能を示しており、CenterPointの平均L1/L2 APは74.25/68.04です。注目すべきは、RangePerception の推論速度が CenterPoint の 1.3 倍であり、自動運転車へのリアルタイム展開により適していることを証明しています。

Range Aware Kernel。RangePerception機能抽出機能の一部である Range Aware Kernel (RAK) は、RV ベースのネットワーク向けにカスタマイズされた画期的なアルゴリズムです。 RAK は距離画像空間を複数のサブスペースに分解し、各サブスペースから個別に特徴を抽出することで空間の不整合の問題を克服します。実験結果によると、RAK は計算コストを無視しながら、平均 L1/L2 AP を 5.75/5.99 向上させます。

視覚修復モジュール。視覚の破損問題を解決するために、本研究では視覚修復モジュール (VRM) を提案しました。 VRM は、以前に損傷した領域を修復することで、バックボーンネットワークの受容フィールドを拡大します。実験セクションで示されているように、VRM は特に車両検出に役立ちます。

図 2: RangePerception フレームワークは、距離画像 I を入力として受け取り、高密度の予測を生成します。表現学習を改善するために、フレームワークは Range Backbone の前に VRM モジュールと RAK モジュールを順番に統合します。次に、特別に設計された冗長性プルーナーを使用して、深層特徴の冗長性を排除し、後続の領域提案ネットワークと後処理レイヤーでの計算コストを軽減します。

図 1: (ad) それぞれ RV と BEV として表される上部の LiDAR 信号の例のフレーム。（e）空間不整合現象（f）視覚の破壊現象

図 3: Range Aware Kernel は、距離画像空間を複数のサブスペースに分解し、各サブスペースから独立した特徴を抽出することで空間の不整合の問題を克服します。

図 5: 視力回復モジュール。復元角δを事前に定義することにより、VRMは方位角θ∈[−δ, 2π + δ]の拡張された球面空間を構築します。したがって、距離画像 I の両側の視覚的な破損の問題が解決され、I のエッジから特徴を抽出するプロセスが大幅に簡素化されます。

実験結果:

要約:

この論文では、空間の不整合や視覚の乱れといった課題に効果的に対処する、RV に基づく 3D 検出フレームワークである RangePerception を紹介します。 RangePerception は RAK と VRM を導入することで、WOD で優れた検出性能を実現し、効率的かつ正確な実用展開の可能性を実証します。

引用：

 @inproceedings{ bai2023rangeperception, title={RangePerception: Taming Li{DAR} Range View for Efficient and Accurate 3D Object Detection}, author={Yeqi BAI and Ben Fei and Youquan Liu and Tao MA and Yuenan Hou and Botian Shi and Yikang LI}, booktitle={Thirty-seventh Conference on Neural Information Processing Systems}, year={2023}, url={https://openreview.net/forum?id=9kFQEJSyCM} }

オリジナルリンク: https://mp.weixin.qq.com/s/EJCl5kLxhHaa7lh98g2I6w

<<: 超音波脳読み取りはマスクの脳コンピューターインターフェースよりも正確で侵襲性が低い

>>: