RangePerception: Range View3D 検出への新しいアプローチ!

RangePerception: Range View3D 検出への新しいアプローチ!

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

元のタイトル: RangePerception: LiDAR レンジビューを制御して効率的かつ正確な 3D オブジェクト検出を実現する

論文リンク: https://openreview.net/pdf?id=9kFQEJSyCM

著者所属:上海人工知能研究所、復旦大学

論文のアイデア:

LiDAR ベースの 3D 検出方法では現在、鳥瞰図 (BEV) または距離図 (RV) を主な基準として使用しています。前者はボクセル化と 3D 畳み込みに依存しているため、トレーニングと推論の両方のプロセスで非効率になります。対照的に、RV ベースの方法は、コンパクトさと 2D 畳み込みとの互換性により高い効率を示しますが、そのパフォーマンスは BEV ベースの方法に比べてまだ劣っています。このパフォーマンスギャップを解消しながら、RV ベースの方法の効率性を維持するため、本研究では、RangePerception と呼ばれる効率的で正確な RV ベースの 3D オブジェクト検出フレームワークを提案します。本研究では、慎重な分析を通じて、既存の RV ベースの方法のパフォーマンスを妨げる 2 つの主要な課題を特定しました。1) 出力で使用される 3D ワールド座標と入力で使用される 2D 距離画像座標の間に自然なドメイン ギャップがあるため、距離画像から情報を抽出することが困難です。2) 元の距離画像に視覚破損の問題があり、距離画像の端にあるオブジェクトの検出精度に影響します。上記の主要な課題に対処するために、本論文では、距離画像表現と世界座標 3D 検出結果間の情報フローを容易にする Range Aware Kernel (RAK) と Vision Restoration Module (VRM) という 2 つの新しいアルゴリズムを提案します。 RAK と VRM の助けを借りて、Waymo Open Dataset では、当社の RangePerception は、従来の最先端の RV ベースの方法である RangeDet と比較して、平均 L1/L2 AP を 3.25/4.18 向上させます。 RangePerception は、よく知られている BEV ベースの方法 CenterPoint よりも平均 AP がわずかに高い RV ベースの 3D 検出方法として最初に提示され、RangePerception の推論速度は CenterPoint の 1.3 倍です。

ネットワーク設計:

この論文では、RangePerception と呼ばれる効率的で正確な RV ベースの 3D 検出フレームワークを紹介します。上記の主要な課題を克服するために、Range Aware Kernel (RAK) と Vision Restoration Module (VRM) という 2 つの新しいアルゴリズムが提案され、RangePerception フレームワークに統合されています。これらのアルゴリズムは、どちらも距離画像表現と世界座標 3D 検出結果間の情報フローを促進します。 RAK と VRM の助けを借りて、当社の RangePerception は、WOD 上の車両、歩行者、自転車に対して 73.62、80.24、70.33 L1 3D AP を提供し、レンジビューベースの 3D 検出方法として最先端のパフォーマンスを実現します。この論文の貢献は以下の通りです。

RangePerception フレームワーク。この論文では、RangePerception という新しい高性能 3D 検出フレームワークを紹介します。 RangePerception は、WOD で平均 L1/L2 AP 74.73/69.17 を達成した初の RV ベースの 3D 検出器であり、平均 L1/L2 AP 71.48/64.99 を持つ従来の最先端の RV ベースの検出器 RangeDet を 3.25/4.18 改善して上回っています。 RangePerceptionは、広く使用されているBEVベースの方法であるCenterPoint [6]と比較してもわずかに優れた性能を示しており、CenterPointの平均L1/L2 APは74.25/68.04です。注目すべきは、RangePerception の推論速度が CenterPoint の 1.3 倍であり、自動運転車へのリアルタイム展開により適していることを証明しています。

Range Aware Kernel。RangePerception機能抽出機能の一部である Range Aware Kernel (RAK) は、RV ベースのネットワーク向けにカスタマイズされた画期的なアルゴリズムです。 RAK は距離画像空間を複数のサブスペースに分解し、各サブスペースから個別に特徴を抽出することで空間の不整合の問題を克服します。実験結果によると、RAK は計算コストを無視しながら、平均 L1/L2 AP を 5.75/5.99 向上させます。

視覚修復モジュール。視覚の破損問題を解決するために、本研究では視覚修復モジュール (VRM) を提案しました。 VRM は、以前に損傷した領域を修復することで、バックボーン ネットワークの受容フィールドを拡大します。実験セクションで示されているように、VRM は特に車両検出に役立ちます。

図 2: RangePerception フレームワークは、距離画像 I を入力として受け取り、高密度の予測を生成します。表現学習を改善するために、フレームワークは Range Backbone の前に VRM モジュールと RAK モジュールを順番に統合します。次に、特別に設計された冗長性プルーナーを使用して、深層特徴の冗長性を排除し、後続の領域提案ネットワークと後処理レイヤーでの計算コストを軽減します。

図 1: (ad) それぞれ RV と BEV として表される上部の LiDAR 信号の例のフレーム。 (e)空間不整合現象(f)視覚の破壊現象

図 3: Range Aware Kernel は、距離画像空間を複数のサブスペースに分解し、各サブスペースから独立した特徴を抽出することで空間の不整合の問題を克服します。

図 5: 視力回復モジュール。復元角δを事前に定義することにより、VRMは方位角θ∈[−δ, 2π + δ]の拡張された球面空間を構築します。したがって、距離画像 I の両側の視覚的な破損の問題が解決され、I のエッジから特徴を抽出するプロセスが大幅に簡素化されます。

実験結果:

要約:

この論文では、空間の不整合や視覚の乱れといった課題に効果的に対処する、RV に基づく 3D 検出フレームワークである RangePerception を紹介します。 RangePerception は RAK と VRM を導入することで、WOD で優れた検出性能を実現し、効率的かつ正確な実用展開の可能性を実証します。

引用:

 @inproceedings{ bai2023rangeperception, title={RangePerception: Taming Li{DAR} Range View for Efficient and Accurate 3D Object Detection}, author={Yeqi BAI and Ben Fei and Youquan Liu and Tao MA and Yuenan Hou and Botian Shi and Yikang LI}, booktitle={Thirty-seventh Conference on Neural Information Processing Systems}, year={2023}, url={https://openreview.net/forum?id=9kFQEJSyCM} }

オリジナルリンク: https://mp.weixin.qq.com/s/EJCl5kLxhHaa7lh98g2I6w

<<:  超音波脳読み取りはマスクの脳コンピューターインターフェースよりも正確で侵襲性が低い

>>: 

ブログ    
ブログ    
ブログ    

推薦する

...

...

すべてのデータ サイエンティストに必要な 3 つのシンプルな異常検出アルゴリズム

外れ値検出の詳細と、Python で 3 つのシンプルで直感的かつ強力な外れ値検出アルゴリズムを実装...

ファインマン・ラプソディ:体内に入ることができる「外科医」

1959年、ノーベル物理学賞受賞者のリチャード・ファインマンは、カリフォルニア工科大学での「体の底...

...

AIが顧客関係管理を改善する3つの方法

AI には、CRM に関連する手動プロセスから組織を解放し、顧客エンゲージメント、販売分析情報、ソー...

トヨタ・リサーチ・インスティテュート、AIを活用した自動車設計ツールを発表

トヨタ・リサーチ・インスティテュートは、この新しい革新的な生成AIツールにより、デザイナーは効率的か...

女神があなたを好きかどうか知りたいなら、AI マシンであなたの顔をスキャンするだけです。

[[281019]]この記事はLeiphone.comから転載したものです。転載する場合は、Lei...

データ中心主義と民主化を実践する方法

[[418617]]人工知能と人間の知能は互いに対立するものではなく、本質的に共生関係にあります。企...

最新の機械学習ツール

コンテクストデータ サイエンスは急速に進化しており、機械学習の役割は、データ サイエンスのハイブリッ...

AI が「長すぎて読めない」問題の解決を支援: 深層要約モデルの構築方法

過去数十年にわたり、私たちは情報に関する一連の根本的な変化と課題を経験してきました。今日、情報へのア...

5G、人工知能、音声技術…2020年に注目すべき6つのテクノロジートレンド

あらゆるもののインターネット化への道のりにおいて、自動化、5G、人工知能、音声技術、ブロックチェーン...

人工知能の進化:過去、現在、そして未来

近年、人工知能はロボットが人間のように考え、行動することを可能にする強力なツールへと発展しました。さ...

Nervana Technology の深掘り: Neon を使用したエンドツーエンドの音声認識の実装方法

音声は本質的に即時の信号です。音声で伝えられる情報要素は、複数の時間スケールで進化します。空気圧の影...