RangePerception: Range View3D 検出への新しいアプローチ!

RangePerception: Range View3D 検出への新しいアプローチ!

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

元のタイトル: RangePerception: LiDAR レンジビューを制御して効率的かつ正確な 3D オブジェクト検出を実現する

論文リンク: https://openreview.net/pdf?id=9kFQEJSyCM

著者所属:上海人工知能研究所、復旦大学

論文のアイデア:

LiDAR ベースの 3D 検出方法では現在、鳥瞰図 (BEV) または距離図 (RV) を主な基準として使用しています。前者はボクセル化と 3D 畳み込みに依存しているため、トレーニングと推論の両方のプロセスで非効率になります。対照的に、RV ベースの方法は、コンパクトさと 2D 畳み込みとの互換性により高い効率を示しますが、そのパフォーマンスは BEV ベースの方法に比べてまだ劣っています。このパフォーマンスギャップを解消しながら、RV ベースの方法の効率性を維持するため、本研究では、RangePerception と呼ばれる効率的で正確な RV ベースの 3D オブジェクト検出フレームワークを提案します。本研究では、慎重な分析を通じて、既存の RV ベースの方法のパフォーマンスを妨げる 2 つの主要な課題を特定しました。1) 出力で使用される 3D ワールド座標と入力で使用される 2D 距離画像座標の間に自然なドメイン ギャップがあるため、距離画像から情報を抽出することが困難です。2) 元の距離画像に視覚破損の問題があり、距離画像の端にあるオブジェクトの検出精度に影響します。上記の主要な課題に対処するために、本論文では、距離画像表現と世界座標 3D 検出結果間の情報フローを容易にする Range Aware Kernel (RAK) と Vision Restoration Module (VRM) という 2 つの新しいアルゴリズムを提案します。 RAK と VRM の助けを借りて、Waymo Open Dataset では、当社の RangePerception は、従来の最先端の RV ベースの方法である RangeDet と比較して、平均 L1/L2 AP を 3.25/4.18 向上させます。 RangePerception は、よく知られている BEV ベースの方法 CenterPoint よりも平均 AP がわずかに高い RV ベースの 3D 検出方法として最初に提示され、RangePerception の推論速度は CenterPoint の 1.3 倍です。

ネットワーク設計:

この論文では、RangePerception と呼ばれる効率的で正確な RV ベースの 3D 検出フレームワークを紹介します。上記の主要な課題を克服するために、Range Aware Kernel (RAK) と Vision Restoration Module (VRM) という 2 つの新しいアルゴリズムが提案され、RangePerception フレームワークに統合されています。これらのアルゴリズムは、どちらも距離画像表現と世界座標 3D 検出結果間の情報フローを促進します。 RAK と VRM の助けを借りて、当社の RangePerception は、WOD 上の車両、歩行者、自転車に対して 73.62、80.24、70.33 L1 3D AP を提供し、レンジビューベースの 3D 検出方法として最先端のパフォーマンスを実現します。この論文の貢献は以下の通りです。

RangePerception フレームワーク。この論文では、RangePerception という新しい高性能 3D 検出フレームワークを紹介します。 RangePerception は、WOD で平均 L1/L2 AP 74.73/69.17 を達成した初の RV ベースの 3D 検出器であり、平均 L1/L2 AP 71.48/64.99 を持つ従来の最先端の RV ベースの検出器 RangeDet を 3.25/4.18 改善して上回っています。 RangePerceptionは、広く使用されているBEVベースの方法であるCenterPoint [6]と比較してもわずかに優れた性能を示しており、CenterPointの平均L1/L2 APは74.25/68.04です。注目すべきは、RangePerception の推論速度が CenterPoint の 1.3 倍であり、自動運転車へのリアルタイム展開により適していることを証明しています。

Range Aware Kernel。RangePerception機能抽出機能の一部である Range Aware Kernel (RAK) は、RV ベースのネットワーク向けにカスタマイズされた画期的なアルゴリズムです。 RAK は距離画像空間を複数のサブスペースに分解し、各サブスペースから個別に特徴を抽出することで空間の不整合の問題を克服します。実験結果によると、RAK は計算コストを無視しながら、平均 L1/L2 AP を 5.75/5.99 向上させます。

視覚修復モジュール。視覚の破損問題を解決するために、本研究では視覚修復モジュール (VRM) を提案しました。 VRM は、以前に損傷した領域を修復することで、バックボーン ネットワークの受容フィールドを拡大します。実験セクションで示されているように、VRM は特に車両検出に役立ちます。

図 2: RangePerception フレームワークは、距離画像 I を入力として受け取り、高密度の予測を生成します。表現学習を改善するために、フレームワークは Range Backbone の前に VRM モジュールと RAK モジュールを順番に統合します。次に、特別に設計された冗長性プルーナーを使用して、深層特徴の冗長性を排除し、後続の領域提案ネットワークと後処理レイヤーでの計算コストを軽減します。

図 1: (ad) それぞれ RV と BEV として表される上部の LiDAR 信号の例のフレーム。 (e)空間不整合現象(f)視覚の破壊現象

図 3: Range Aware Kernel は、距離画像空間を複数のサブスペースに分解し、各サブスペースから独立した特徴を抽出することで空間の不整合の問題を克服します。

図 5: 視力回復モジュール。復元角δを事前に定義することにより、VRMは方位角θ∈[−δ, 2π + δ]の拡張された球面空間を構築します。したがって、距離画像 I の両側の視覚的な破損の問題が解決され、I のエッジから特徴を抽出するプロセスが大幅に簡素化されます。

実験結果:

要約:

この論文では、空間の不整合や視覚の乱れといった課題に効果的に対処する、RV に基づく 3D 検出フレームワークである RangePerception を紹介します。 RangePerception は RAK と VRM を導入することで、WOD で優れた検出性能を実現し、効率的かつ正確な実用展開の可能性を実証します。

引用:

 @inproceedings{ bai2023rangeperception, title={RangePerception: Taming Li{DAR} Range View for Efficient and Accurate 3D Object Detection}, author={Yeqi BAI and Ben Fei and Youquan Liu and Tao MA and Yuenan Hou and Botian Shi and Yikang LI}, booktitle={Thirty-seventh Conference on Neural Information Processing Systems}, year={2023}, url={https://openreview.net/forum?id=9kFQEJSyCM} }

オリジナルリンク: https://mp.weixin.qq.com/s/EJCl5kLxhHaa7lh98g2I6w

<<:  超音波脳読み取りはマスクの脳コンピューターインターフェースよりも正確で侵襲性が低い

>>: 

ブログ    
ブログ    
ブログ    

推薦する

LangGraphの無限の可能性を発見

著者 | 崔昊レビュー | Chonglouまとめこの記事では、LangChain をベースにした新...

1.3MB の超軽量 YOLO アルゴリズム!すべてのプラットフォームで利用可能、45% 高速 | オープンソース

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

動的ベンチマークDynabenchがリリースされました。Facebookは人間を使って人工知能を「尋問」したいと考えています

Facebook は、人工知能分野初の動的データ収集およびベンチマーク プラットフォームである Dy...

ビッグデータと人工知能のデュアルエンジンが企業のデジタル変革を推進

[51CTO.comより引用] デジタル時代において、ビッグデータと人工知能は企業のビジネス成長を推...

9月9日がまたやってきました。重陽の節句にスマートテクノロジーについてお話しましょう。

[[428874]]現代では、社会の発展と時代の進歩に伴い、伝統と現代の衝突、古典と革新の融合が、...

開発速度が20倍にアップしました! GPT Pilot スター プロジェクトが Github のホット リストに掲載され、AI をゼロから構築

新たなスタープロジェクトが誕生! AI 開発者コンパニオンである GPT Pilot を使用すると、...

AI搭載ストレージは企業がデータからより多くの価値を引き出すのに役立ちます

ストレージを、手作業で手間がかかる必需品ではなく、自動運転車として考えることができたらどうでしょうか...

...

畳み込みニューラルネットワークに関する15の質問:CNNと生物視覚システムの研究と探究

CNN 開発の初期には、脳のニューラル ネットワークから多くのインスピレーションを得ました。現在では...

Spark を使用して行列分解推奨アルゴリズムを学習する

[[182792]]協調フィルタリング推奨アルゴリズムにおける行列分解の応用では、推奨アルゴリズムに...

マイクロソフトCEO、テクノロジー大手各社がAIを訓練するためのコンテンツをめぐって競争していると語る

ナデラ氏は最近、米国政府によるグーグルに対する反トラスト訴訟で証言した。これは、米国政府が1998年...

Javaソートアルゴリズムの概要(I):挿入ソート

挿入ソートの基本的な操作は、ソートされた順序付けられたデータにデータを挿入し、それによって番号が 1...

2019 年の Web 開発のトレンド トップ 10

[[279047]] [51CTO.com クイック翻訳] 今日、さまざまな新しいトレンドの出現に...

...