PillarNeSt: Pillar ベースの 3D オブジェクト検出のパフォーマンスをさらに向上させるにはどうすればよいでしょうか?

PillarNeSt: Pillar ベースの 3D オブジェクト検出のパフォーマンスをさらに向上させるにはどうすればよいでしょうか?

著者の個人的な理解に基づいて書かれた

現在、自動運転の分野では、点群データを収集するためのLIDARセンサーや、画像データを収集するためのカメラセンサーなど、さまざまなセンサーが自動運転車に搭載されています。 LIDAR センサーは検出対象物体の形状と位置情報をより正確に取得できるため、ポイント クラウド ベースの認識アルゴリズム モデルは急速に反復され、発展しています。現在主流となっている点群ベースの認識アルゴリズムは、主に次の 2 つのカテゴリに分けられます。

  • 1 つのタイプは、古典的な SECOND、VoxelNet などのアルゴリズムなどのボクセルベースの認識アルゴリズムです。ボクセルベースのアルゴリズム モデルは、まず入力ポイント クラウド データを 3D ボクセル構造表現に変換し、次に 3D 畳み込みアルゴリズム モデルを使用して後続の特徴抽出を実装し、抽出された 3D 特徴を後続のモジュールに送信します。
  • もう 1 つのカテゴリは、古典的な PointPillar、PillaNext、PillarNet などのアルゴリズムなどのPillar ベースの認識アルゴリズムです。ピラーベースのアルゴリズム モデルは、ポイント クラウド機能を取得するために 3D 畳み込みネットワークに依存せず、ポイント クラウド データを柱状データに直接構築して、検出速度を高速化し、オンボード展開などの後続のタスクを容易にします。

Pillar ベースのアルゴリズム モデルは、導入が容易で精度が高いため広く使用されていますが、2D 畳み込みニューラル ネットワークの初期化には依然として主にランダム初期化が使用されています。このため、ImageNet で事前トレーニングされた多くの 2D バックボーン ネットワークが Pillar ベースのアルゴリズム モデルによって効果的に活用されず、リソースの無駄が生じます。さらに、現時点では、ポイント クラウド ベースの認識アルゴリズム モデルは、モデル サイズの増加による精度の向上は示されていません。 2D 検出タスクでは、大規模なデータセットで事前トレーニングされたバックボーン ネットワークと、より大きなサイズのバックボーン ネットワークの方が優れた利点を示しています。

したがって、今日分析する論文は、2D バックボーン ネットワークのサイズと事前トレーニングが Pillar ベースの 3D オブジェクト検出器のパフォーマンスに与える影響を調査することを目的としています。

論文のarxivリンクは次のとおりです:https://arxiv.org/pdf/2311.17770.pdf

PillarNeStアルゴリズム分析

まず、下の図に示すように、PillarNeSt アルゴリズム モデルの全体的なフレームワークを見てみましょう。

PillarNeSt アルゴリズム モデルのネットワーク図

上の図からわかるように、PillarNeSt もポイント クラウド認識アルゴリズムの古典的なアーキテクチャ モデル (CenterPoint-Pillars) をベースライン モデルとして使用していますが、論文の著者は、より強力なベースライン モデルを構築するために、元の PointPillars アルゴリズム モデルを変更しました。読者が各部分の変更をより明確に理解できるように、まず CenterPoint-Pillars アルゴリズム モデルのいくつかの基本モジュールを簡単にリストします。

  • ポイント クラウドの疑似画像表現: Pillar Encoder モジュールは、モデルに最初に入力されたポイント クラウド データを疑似画像形式で表現するために使用されます。
  • 2Dバックボーンネットワークが疑似画像の特徴抽出を完了
  • ネックモジュールを使用して、2Dバックボーンネットワークによって抽出されたマルチスケールの特徴マップを融合します。
  • 3D検出ヘッド(CenerHead)を使用して最終的な3D検出結果を出力します。
  • 損失関数に従って損失を計算し、バックプロパゲーションコードを使用してネットワークパラメータ値を更新します。

次に、上記の各基本モジュールを段階的に修正および強化し、最終的にPillarNeStアルゴリズムモデルを構築します。

ピラーエンコーダ

オリジナルの CenterPoint-Pillars アルゴリズム モデルでは、Pillar Encoder モジュールは最初に多層パーセプトロン構造を使用してポイント クラウド データの特徴を抽出し、次に Max Pooling レイヤーを使用して Pillar の特徴を抽出します。しかし、この記事では、Max Pooling レイヤーを 1 つだけ使用すると、情報が失われると考えています。これに基づいて、著者は元の Max Pooling レイヤーに基づいて Mean Pooling レイヤーを追加し、より有用な情報を取得します。さらに、著者らは、Z 軸の情報損失を補正するために、モジュールの入力として、幾何学的中心の高さに対する各点のオフセットも導入しました。

本論文では、最大プーリングと平均プーリングを同時に採用して、より多くの情報を保存します。さらに、Z 軸の情報損失を補うために、幾何学的中心に対する点の高さオフセットも入力として導入します。

2D バックボーンの再設計
  • より大きな畳み込みカーネルを使用した論文の著者らは、2D 画像の分野では、ネットワーク モデルの層数や深さを増やしても、モデルの有効受容野サイズは効果的には増加しないと主張しました。 Pillar ベースのアルゴリズム モデルでは、疑似画像ポイント クラウド データから特徴を抽出する必要もあります。最近のいくつかのラージカーネル研究に触発されて、著者らは、より大きな畳み込みカーネルを使用することで、モデルの有効受容野 (ERF) を拡大し、それによってポイントクラウドベースの認識アルゴリズムの検出性能を向上させることができると考えています。同時に、モデルの速度と精度の関係のバランスをとるために、論文の著者らは、畳み込みカーネル サイズが 7x7 の深度分離可能な畳み込み層を採用しました。

最近の研究では、より大きなカーネルによる畳み込みを使用することで、大きな ERF を効果的に達成できると主張しています。さらに、より大きな受容野は、ポイント クラウド検出器の機能強化に貢献します。

  • 論文の著者らは、画像内の多くのピクセルに冗長な情報が含まれているため、最初のレイヤーのダウンサンプリング操作を削除しています。また、一般的な 2D バックボーン ネットワークには通常、抽出された画像の特徴をダウンサンプリングするためのストライド 2 の畳み込みレイヤーが含まれており、これにより後続の畳み込み操作の計算コストが削減されます。
    ただし、ポイント クラウド情報の場合は異なります。元のポイント クラウド データはまばらで不規則であり、オブジェクトの非常に豊富な幾何学的および構造的情報が含まれているためです。ただし、ダウンサンプリング レイヤーを早期に適用すると、ポイント クラウド内の重要な情報が失われます。これらの考慮に基づいて、論文の著者らは、新しく設計されたアルゴリズム モデルの最初のレイヤーのダウンサンプリング レイヤーを削除し、それによって後続のレイヤーへの入力の解像度を確保し、入力データの有効な情報を保持しました。

私たちのバックボーン設計では、ステムを削除し、第 1 ステージ ブロックでダウンサンプリングを実装しないようにしています。この戦略的な選択により、入力機能の元の解像度が確実に維持されます。

  • モデルの早い段階でブロックを追加する
    著者は、2D画像の分野では、より抽象的な意味的特徴を抽出し、より豊かな意味的表現を得るために、ネットワークモデルの後の層に通常より多くのブロックが積み重ねられると指摘しています。ただし、点群データは不規則でまばらであることを考慮すると、点群に含まれるデータ情報を完全に抽出するには、モデルの初期段階でより多くのブロックを積み重ねる必要があることを意味します。著者は論文の中で、実験結果からも同様の結論を導き出せると述べています。バックボーン ネットワークの後半の段階でブロックを積み重ねる場合と比較して、バックボーン ネットワークの最初の数層でブロックを積み重ねる場合、より高い検出結果を達成できます。

私たちの広範な実験により、初期段階でブロックの数を増やすと、後期段階でブロックを追加するよりも優れた利益が得られることがわかりました。


  • より深いレイヤーの論文の著者は、ポイント クラウド シーンを分析し、さまざまなオブジェクトのサイズのばらつきが非常に大きいと考えました。柱ベースのアルゴリズムでは、柱のサイズが 0.2 m に設定されている場合、8 倍のダウンサンプリング後の最大知覚範囲は 1.6 m になります。しかし、実際のシーンでは多くのオブジェクトが限られた知覚範囲を超えています。これは、8 倍のダウンサンプリング後の特徴点では、大きな物体の全体を完全に認識できないことを意味します。
    これを踏まえて、著者はこの問題を軽減するためのシンプルで簡単な方法を採用しました。バックボーン ネットワークの第 4 層の出力に基づいて、追加の層が追加され、第 5 層としてマークされました。第 5 層モジュールに含まれるモジュールの数は、モデルの規模に応じて拡張できます。

簡単な方法を採用し、1つまたは2つのConNeXtブロックのみを含むステージ4の上に、もう1つのステージ(ステージ5という名前)を追加します。ステージ5のブロック数は、モデルのサイズに基づいて拡大できます。追加されたステージ5の出力は、ネックネットワークのマルチスケール入力の1つとして機能します。

バックボーンネットワークのスケーリング

この論文の主な目的の 1 つは、モデル パラメータの数と精度の間のトレードオフを実現するために、スケーラブルなネットワーク構造モデルのセットを設計することです。本論文では、さまざまなパラメータ量と精度の要件を満たすために、PillarNeSt-Tiny から PillarNeSt-Large までの一連の 2D バックボーン ネットワークを設計しました。さまざまな規模のネットワーク モデル構成を下図に示します。

さまざまなPil​​larNeStモデルのパラメータ設定

上の図から、モデルの異なるバージョンが同様のモデル構造を共有していることがわかります。各モデルは 5 つのレイヤーで構成されています。上記の最初のレイヤーはダウンサンプリング レイヤーを削除し、残りのレイヤーはダウンサンプリングされます。

この論文では、次の図に示すように、さまざまなサイズのバックボーンネットワークモデルをより便利に表現する方法も提供しています。

さまざまな PillarNeSt モデルのチャネル数とブロック数の統計

バックボーンネットワークの事前トレーニング

著者のもう一つの目的は、ImageNet で事前トレーニングされた 2D バックボーン ネットワークを活用することですが、論文のバックボーン ネットワークは ConvNeXt に基づいて変更されているため、ImageNet で事前トレーニングされた元の ConvNeXt を、新しく設計されたネットワーク構造に直接移行することはできません。これに基づいて、本論文では、ステージビューとミクロビューに基づく初期化方法という 2 つの形式のパラメータ初期化方法を採用しています。

  • ステージビュー
    重みは、ステージ 1 ~ 4 の事前トレーニング済みの ConvNeXt モデルから単純にコピーされますが、最後に追加されたレイヤー (ステージ 5) はランダムに初期化されます。ステージ 1 ~ 4 では、ブロック数が ConvNeXt のブロック数より少ない場合、ブロック識別子に従って対応するブロックのパラメータのみをコピーします。
  • ミクロビュー
    事前学習済みのConvNeXtモデルの最初のCinチャネルから学習済みパラメータをコピーし、ランダム初期化を使用して残りのチャネルにパラメータを割り当てます。
実験セクション

著者らは、設計された PillarNeSt アルゴリズム モデルの有効性をそれぞれ nuScenes および Argoverse2 データセットでテストしました。まず、nuScenes で結果を表示してみましょう。

実験結果によると、パラメータ数が最も多い PillarNeSt-Large アルゴリズム モデルは mAP 64.3 を達成し、他のポイント クラウド ベースの認識アルゴリズム モデルを大幅に上回っています。

nuScenes データセットでの比較結果に加えて、論文で設計された PillarNeSt は Argoverse2 データセットでも優れたパフォーマンスを発揮します。

表の結果から、mAP 指標であれ CDS 指標であれ、PillarNeSt-Base アルゴリズム モデルが最高の検出性能を達成し、他のポイント クラウド ベースの認識アルゴリズム モデルを大幅に上回っていることがわかります。

上記の実験表は、この方法がスケーラブルなネットワーク構造のセットを正常に実装し、特定の状況に応じて異なるパラメータ値を持つ異なるアルゴリズムモデルを選択して、異なる精度効果を実現できることを示しています。論文で提起された事前トレーニングの問題に対応して、論文では以下に示すように実験結果の図も示しています。

実験結果では、論文で設計されたネットワーク構造が、ImageNet の事前トレーニングから得られた知識情報を非常によく継承していることが実証されています。mAP であれ、トレーニング損失であれ、事前トレーニング モデルをロードする効果は、事前トレーニング モデルを使用しない場合よりも優れています。

要約する

ポイントクラウドベースの認識アルゴリズムは大きな進歩を遂げていますが、ピラーベースのアルゴリズム モデルの 2D バックボーン ネットワークでは依然としてランダム初期化が使用されており、ImageNet から事前トレーニングされたネットワーク モデルは使用されていません。同時に、ポイントクラウドベースのアルゴリズム モデルは、異なるスケールによってもたらされる利点を享受できません。

この記事で紹介したPillarNeStは、上記の2つの問題を非常にうまく解決します。この分析が皆様のお役に立てば幸いです。

オリジナルリンク: https://mp.weixin.qq.com/s/NJoAOyTuk9INQRJtJKz__g

<<:  BaiduのHou Zhenyu氏:ビッグモデルがクラウドコンピューティングを再形成し、AIネイティブクラウドがクラウドコンピューティングの様相を変える

>>:  高性能かつ低消費時間!新しい 3D Occupancy Network SGN を試してみませんか?オープンソース

ブログ    
ブログ    

推薦する

MIT、悪意のあるAI編集から画像を保護する「PhotoGuard」技術を開発

7月25日、AIベースのディープフェイク技術が進化を続ける中、人間が肉眼で「どのコンテンツがAIによ...

...

MIT の Jia Haojun 博士と Duan Chenru 博士への独占インタビュー: AI4S 時代の化学物質の発見 - 「AI 錬金術」

エジソンが何千もの材料をフィラメントとして試し、試行錯誤を繰り返し、決して諦めない精神でようやく日常...

微調整の必要はありませんか? 3つのサンプル、LLMアライメントを修正するための1つのヒント、エンジニアのヒント:すべて戻る

教師なしテキストコーパスのみで事前トレーニングされた基本的な大規模言語モデル (LLM) は、通常、...

...

AI のブラックボックスを開く: 「説明可能な」人工知能 (XAI) への認知ガイド!

今日、企業組織は意思決定に人工知能や機械学習モデルをますます頼りにしており、こうした意思決定は私たち...

人工知能時代の教師の役割の再構築への道

データとアルゴリズムに基づく人工知能技術は、教師の教育活動と専門能力開発を厳格な手順構造の中に簡単に...

未来はここにある: データが大規模 AI モデルにおける競争をどう促進するか

人工知能の急速な発展に伴い、高品質なデータの重要性がますます明らかになっています。大規模言語モデルを...

...

人工知能がいかに「知的」であっても、それは人類の奇跡である

テレビ番組「ザ・ブレイン」が巻き起こした「人間対機械」、そして自動運転車、顔認識、アルファ囲碁など一...

人工知能はマーケティングをどのように変えるのでしょうか?

今日でも、私たちは人工知能 (AI) を未来のテクノロジーだと考えています。そのため、この分野で起こ...

...

Raft アルゴリズムの原理と CMQ への応用 (パート 2)

CMQにおけるラフトの応用初期には、rabbitmqをベースにスケーラブルなメッセージミドルウェア...