PillarNeSt: Pillar ベースの 3D オブジェクト検出のパフォーマンスをさらに向上させるにはどうすればよいでしょうか?

著者の個人的な理解に基づいて書かれた

現在、自動運転の分野では、点群データを収集するためのLIDARセンサーや、画像データを収集するためのカメラセンサーなど、さまざまなセンサーが自動運転車に搭載されています。 LIDAR センサーは検出対象物体の形状と位置情報をより正確に取得できるため、ポイントクラウドベースの認識アルゴリズムモデルは急速に反復され、発展しています。現在主流となっている点群ベースの認識アルゴリズムは、主に次の 2 つのカテゴリに分けられます。

1 つのタイプは、古典的な SECOND、VoxelNet などのアルゴリズムなどのボクセルベースの認識アルゴリズムです。ボクセルベースのアルゴリズムモデルは、まず入力ポイントクラウドデータを 3D ボクセル構造表現に変換し、次に 3D 畳み込みアルゴリズムモデルを使用して後続の特徴抽出を実装し、抽出された 3D 特徴を後続のモジュールに送信します。
もう 1 つのカテゴリは、古典的な PointPillar、PillaNext、PillarNet などのアルゴリズムなどのPillar ベースの認識アルゴリズムです。ピラーベースのアルゴリズムモデルは、ポイントクラウド機能を取得するために 3D 畳み込みネットワークに依存せず、ポイントクラウドデータを柱状データに直接構築して、検出速度を高速化し、オンボード展開などの後続のタスクを容易にします。

Pillar ベースのアルゴリズムモデルは、導入が容易で精度が高いため広く使用されていますが、2D 畳み込みニューラルネットワークの初期化には依然として主にランダム初期化が使用されています。このため、ImageNet で事前トレーニングされた多くの 2D バックボーンネットワークが Pillar ベースのアルゴリズムモデルによって効果的に活用されず、リソースの無駄が生じます。さらに、現時点では、ポイントクラウドベースの認識アルゴリズムモデルは、モデルサイズの増加による精度の向上は示されていません。 2D 検出タスクでは、大規模なデータセットで事前トレーニングされたバックボーンネットワークと、より大きなサイズのバックボーンネットワークの方が優れた利点を示しています。

したがって、今日分析する論文は、2D バックボーンネットワークのサイズと事前トレーニングが Pillar ベースの 3D オブジェクト検出器のパフォーマンスに与える影響を調査することを目的としています。

論文のarxivリンクは次のとおりです：https://arxiv.org/pdf/2311.17770.pdf

PillarNeStアルゴリズム分析

まず、下の図に示すように、PillarNeSt アルゴリズムモデルの全体的なフレームワークを見てみましょう。

PillarNeSt アルゴリズムモデルのネットワーク図

上の図からわかるように、PillarNeSt もポイントクラウド認識アルゴリズムの古典的なアーキテクチャモデル (CenterPoint-Pillars) をベースラインモデルとして使用していますが、論文の著者は、より強力なベースラインモデルを構築するために、元の PointPillars アルゴリズムモデルを変更しました。読者が各部分の変更をより明確に理解できるように、まず CenterPoint-Pillars アルゴリズムモデルのいくつかの基本モジュールを簡単にリストします。

ポイントクラウドの疑似画像表現: Pillar Encoder モジュールは、モデルに最初に入力されたポイントクラウドデータを疑似画像形式で表現するために使用されます。
2Dバックボーンネットワークが疑似画像の特徴抽出を完了
ネックモジュールを使用して、2Dバックボーンネットワークによって抽出されたマルチスケールの特徴マップを融合します。
3D検出ヘッド（CenerHead）を使用して最終的な3D検出結果を出力します。
損失関数に従って損失を計算し、バックプロパゲーションコードを使用してネットワークパラメータ値を更新します。

次に、上記の各基本モジュールを段階的に修正および強化し、最終的にPillarNeStアルゴリズムモデルを構築します。

ピラーエンコーダ

オリジナルの CenterPoint-Pillars アルゴリズムモデルでは、Pillar Encoder モジュールは最初に多層パーセプトロン構造を使用してポイントクラウドデータの特徴を抽出し、次に Max Pooling レイヤーを使用して Pillar の特徴を抽出します。しかし、この記事では、Max Pooling レイヤーを 1 つだけ使用すると、情報が失われると考えています。これに基づいて、著者は元の Max Pooling レイヤーに基づいて Mean Pooling レイヤーを追加し、より有用な情報を取得します。さらに、著者らは、Z 軸の情報損失を補正するために、モジュールの入力として、幾何学的中心の高さに対する各点のオフセットも導入しました。

「
本論文では、最大プーリングと平均プーリングを同時に採用して、より多くの情報を保存します。さらに、Z 軸の情報損失を補うために、幾何学的中心に対する点の高さオフセットも入力として導入します。
”

2D バックボーンの再設計

より大きな畳み込みカーネルを使用した論文の著者らは、2D 画像の分野では、ネットワークモデルの層数や深さを増やしても、モデルの有効受容野サイズは効果的には増加しないと主張しました。 Pillar ベースのアルゴリズムモデルでは、疑似画像ポイントクラウドデータから特徴を抽出する必要もあります。最近のいくつかのラージカーネル研究に触発されて、著者らは、より大きな畳み込みカーネルを使用することで、モデルの有効受容野 (ERF) を拡大し、それによってポイントクラウドベースの認識アルゴリズムの検出性能を向上させることができると考えています。同時に、モデルの速度と精度の関係のバランスをとるために、論文の著者らは、畳み込みカーネルサイズが 7x7 の深度分離可能な畳み込み層を採用しました。

最近の研究では、より大きなカーネルによる畳み込みを使用することで、大きな ERF を効果的に達成できると主張しています。さらに、より大きな受容野は、ポイントクラウド検出器の機能強化に貢献します。

論文の著者らは、画像内の多くのピクセルに冗長な情報が含まれているため、最初のレイヤーのダウンサンプリング操作を削除しています。また、一般的な 2D バックボーンネットワークには通常、抽出された画像の特徴をダウンサンプリングするためのストライド 2 の畳み込みレイヤーが含まれており、これにより後続の畳み込み操作の計算コストが削減されます。
ただし、ポイントクラウド情報の場合は異なります。元のポイントクラウドデータはまばらで不規則であり、オブジェクトの非常に豊富な幾何学的および構造的情報が含まれているためです。ただし、ダウンサンプリングレイヤーを早期に適用すると、ポイントクラウド内の重要な情報が失われます。これらの考慮に基づいて、論文の著者らは、新しく設計されたアルゴリズムモデルの最初のレイヤーのダウンサンプリングレイヤーを削除し、それによって後続のレイヤーへの入力の解像度を確保し、入力データの有効な情報を保持しました。

私たちのバックボーン設計では、ステムを削除し、第 1 ステージブロックでダウンサンプリングを実装しないようにしています。この戦略的な選択により、入力機能の元の解像度が確実に維持されます。

モデルの早い段階でブロックを追加する
著者は、2D画像の分野では、より抽象的な意味的特徴を抽出し、より豊かな意味的表現を得るために、ネットワークモデルの後の層に通常より多くのブロックが積み重ねられると指摘しています。ただし、点群データは不規則でまばらであることを考慮すると、点群に含まれるデータ情報を完全に抽出するには、モデルの初期段階でより多くのブロックを積み重ねる必要があることを意味します。著者は論文の中で、実験結果からも同様の結論を導き出せると述べています。バックボーンネットワークの後半の段階でブロックを積み重ねる場合と比較して、バックボーンネットワークの最初の数層でブロックを積み重ねる場合、より高い検出結果を達成できます。

私たちの広範な実験により、初期段階でブロックの数を増やすと、後期段階でブロックを追加するよりも優れた利益が得られることがわかりました。

より深いレイヤーの論文の著者は、ポイントクラウドシーンを分析し、さまざまなオブジェクトのサイズのばらつきが非常に大きいと考えました。柱ベースのアルゴリズムでは、柱のサイズが 0.2 m に設定されている場合、8 倍のダウンサンプリング後の最大知覚範囲は 1.6 m になります。しかし、実際のシーンでは多くのオブジェクトが限られた知覚範囲を超えています。これは、8 倍のダウンサンプリング後の特徴点では、大きな物体の全体を完全に認識できないことを意味します。
これを踏まえて、著者はこの問題を軽減するためのシンプルで簡単な方法を採用しました。バックボーンネットワークの第 4 層の出力に基づいて、追加の層が追加され、第 5 層としてマークされました。第 5 層モジュールに含まれるモジュールの数は、モデルの規模に応じて拡張できます。

簡単な方法を採用し、1つまたは2つのConNeXtブロックのみを含むステージ4の上に、もう1つのステージ（ステージ5という名前）を追加します。ステージ5のブロック数は、モデルのサイズに基づいて拡大できます。追加されたステージ5の出力は、ネックネットワークのマルチスケール入力の1つとして機能します。

バックボーンネットワークのスケーリング

この論文の主な目的の 1 つは、モデルパラメータの数と精度の間のトレードオフを実現するために、スケーラブルなネットワーク構造モデルのセットを設計することです。本論文では、さまざまなパラメータ量と精度の要件を満たすために、PillarNeSt-Tiny から PillarNeSt-Large までの一連の 2D バックボーンネットワークを設計しました。さまざまな規模のネットワークモデル構成を下図に示します。

さまざまなPillarNeStモデルのパラメータ設定

上の図から、モデルの異なるバージョンが同様のモデル構造を共有していることがわかります。各モデルは 5 つのレイヤーで構成されています。上記の最初のレイヤーはダウンサンプリングレイヤーを削除し、残りのレイヤーはダウンサンプリングされます。

この論文では、次の図に示すように、さまざまなサイズのバックボーンネットワークモデルをより便利に表現する方法も提供しています。

さまざまな PillarNeSt モデルのチャネル数とブロック数の統計

バックボーンネットワークの事前トレーニング

著者のもう一つの目的は、ImageNet で事前トレーニングされた 2D バックボーンネットワークを活用することですが、論文のバックボーンネットワークは ConvNeXt に基づいて変更されているため、ImageNet で事前トレーニングされた元の ConvNeXt を、新しく設計されたネットワーク構造に直接移行することはできません。これに基づいて、本論文では、ステージビューとミクロビューに基づく初期化方法という 2 つの形式のパラメータ初期化方法を採用しています。

ステージビュー
重みは、ステージ 1 ～ 4 の事前トレーニング済みの ConvNeXt モデルから単純にコピーされますが、最後に追加されたレイヤー (ステージ 5) はランダムに初期化されます。ステージ 1 ～ 4 では、ブロック数が ConvNeXt のブロック数より少ない場合、ブロック識別子に従って対応するブロックのパラメータのみをコピーします。
ミクロビュー
事前学習済みのConvNeXtモデルの最初のCinチャネルから学習済みパラメータをコピーし、ランダム初期化を使用して残りのチャネルにパラメータを割り当てます。

実験セクション

著者らは、設計された PillarNeSt アルゴリズムモデルの有効性をそれぞれ nuScenes および Argoverse2 データセットでテストしました。まず、nuScenes で結果を表示してみましょう。

実験結果によると、パラメータ数が最も多い PillarNeSt-Large アルゴリズムモデルは mAP 64.3 を達成し、他のポイントクラウドベースの認識アルゴリズムモデルを大幅に上回っています。

nuScenes データセットでの比較結果に加えて、論文で設計された PillarNeSt は Argoverse2 データセットでも優れたパフォーマンスを発揮します。

表の結果から、mAP 指標であれ CDS 指標であれ、PillarNeSt-Base アルゴリズムモデルが最高の検出性能を達成し、他のポイントクラウドベースの認識アルゴリズムモデルを大幅に上回っていることがわかります。

上記の実験表は、この方法がスケーラブルなネットワーク構造のセットを正常に実装し、特定の状況に応じて異なるパラメータ値を持つ異なるアルゴリズムモデルを選択して、異なる精度効果を実現できることを示しています。論文で提起された事前トレーニングの問題に対応して、論文では以下に示すように実験結果の図も示しています。

実験結果では、論文で設計されたネットワーク構造が、ImageNet の事前トレーニングから得られた知識情報を非常によく継承していることが実証されています。mAP であれ、トレーニング損失であれ、事前トレーニングモデルをロードする効果は、事前トレーニングモデルを使用しない場合よりも優れています。

要約する

ポイントクラウドベースの認識アルゴリズムは大きな進歩を遂げていますが、ピラーベースのアルゴリズムモデルの 2D バックボーンネットワークでは依然としてランダム初期化が使用されており、ImageNet から事前トレーニングされたネットワークモデルは使用されていません。同時に、ポイントクラウドベースのアルゴリズムモデルは、異なるスケールによってもたらされる利点を享受できません。

この記事で紹介したPillarNeStは、上記の2つの問題を非常にうまく解決します。この分析が皆様のお役に立てば幸いです。

オリジナルリンク: https://mp.weixin.qq.com/s/NJoAOyTuk9INQRJtJKz__g

<<: BaiduのHou Zhenyu氏：ビッグモデルがクラウドコンピューティングを再形成し、AIネイティブクラウドがクラウドコンピューティングの様相を変える

>>: 高性能かつ低消費時間！新しい 3D Occupancy Network SGN を試してみませんか?オープンソース