著者の個人的な理解に基づいて書かれた現在、自動運転の分野では、点群データを収集するためのLIDARセンサーや、画像データを収集するためのカメラセンサーなど、さまざまなセンサーが自動運転車に搭載されています。 LIDAR センサーは検出対象物体の形状と位置情報をより正確に取得できるため、ポイント クラウド ベースの認識アルゴリズム モデルは急速に反復され、発展しています。現在主流となっている点群ベースの認識アルゴリズムは、主に次の 2 つのカテゴリに分けられます。
Pillar ベースのアルゴリズム モデルは、導入が容易で精度が高いため広く使用されていますが、2D 畳み込みニューラル ネットワークの初期化には依然として主にランダム初期化が使用されています。このため、ImageNet で事前トレーニングされた多くの 2D バックボーン ネットワークが Pillar ベースのアルゴリズム モデルによって効果的に活用されず、リソースの無駄が生じます。さらに、現時点では、ポイント クラウド ベースの認識アルゴリズム モデルは、モデル サイズの増加による精度の向上は示されていません。 2D 検出タスクでは、大規模なデータセットで事前トレーニングされたバックボーン ネットワークと、より大きなサイズのバックボーン ネットワークの方が優れた利点を示しています。 したがって、今日分析する論文は、2D バックボーン ネットワークのサイズと事前トレーニングが Pillar ベースの 3D オブジェクト検出器のパフォーマンスに与える影響を調査することを目的としています。 論文のarxivリンクは次のとおりです:https://arxiv.org/pdf/2311.17770.pdf PillarNeStアルゴリズム分析まず、下の図に示すように、PillarNeSt アルゴリズム モデルの全体的なフレームワークを見てみましょう。 PillarNeSt アルゴリズム モデルのネットワーク図 上の図からわかるように、PillarNeSt もポイント クラウド認識アルゴリズムの古典的なアーキテクチャ モデル (CenterPoint-Pillars) をベースライン モデルとして使用していますが、論文の著者は、より強力なベースライン モデルを構築するために、元の PointPillars アルゴリズム モデルを変更しました。読者が各部分の変更をより明確に理解できるように、まず CenterPoint-Pillars アルゴリズム モデルのいくつかの基本モジュールを簡単にリストします。
次に、上記の各基本モジュールを段階的に修正および強化し、最終的にPillarNeStアルゴリズムモデルを構築します。 ピラーエンコーダオリジナルの CenterPoint-Pillars アルゴリズム モデルでは、Pillar Encoder モジュールは最初に多層パーセプトロン構造を使用してポイント クラウド データの特徴を抽出し、次に Max Pooling レイヤーを使用して Pillar の特徴を抽出します。しかし、この記事では、Max Pooling レイヤーを 1 つだけ使用すると、情報が失われると考えています。これに基づいて、著者は元の Max Pooling レイヤーに基づいて Mean Pooling レイヤーを追加し、より有用な情報を取得します。さらに、著者らは、Z 軸の情報損失を補正するために、モジュールの入力として、幾何学的中心の高さに対する各点のオフセットも導入しました。
2D バックボーンの再設計
最近の研究では、より大きなカーネルによる畳み込みを使用することで、大きな ERF を効果的に達成できると主張しています。さらに、より大きな受容野は、ポイント クラウド検出器の機能強化に貢献します。
私たちのバックボーン設計では、ステムを削除し、第 1 ステージ ブロックでダウンサンプリングを実装しないようにしています。この戦略的な選択により、入力機能の元の解像度が確実に維持されます。
私たちの広範な実験により、初期段階でブロックの数を増やすと、後期段階でブロックを追加するよりも優れた利益が得られることがわかりました。
簡単な方法を採用し、1つまたは2つのConNeXtブロックのみを含むステージ4の上に、もう1つのステージ(ステージ5という名前)を追加します。ステージ5のブロック数は、モデルのサイズに基づいて拡大できます。追加されたステージ5の出力は、ネックネットワークのマルチスケール入力の1つとして機能します。 バックボーンネットワークのスケーリングこの論文の主な目的の 1 つは、モデル パラメータの数と精度の間のトレードオフを実現するために、スケーラブルなネットワーク構造モデルのセットを設計することです。本論文では、さまざまなパラメータ量と精度の要件を満たすために、PillarNeSt-Tiny から PillarNeSt-Large までの一連の 2D バックボーン ネットワークを設計しました。さまざまな規模のネットワーク モデル構成を下図に示します。 さまざまなPillarNeStモデルのパラメータ設定 上の図から、モデルの異なるバージョンが同様のモデル構造を共有していることがわかります。各モデルは 5 つのレイヤーで構成されています。上記の最初のレイヤーはダウンサンプリング レイヤーを削除し、残りのレイヤーはダウンサンプリングされます。 この論文では、次の図に示すように、さまざまなサイズのバックボーンネットワークモデルをより便利に表現する方法も提供しています。 さまざまな PillarNeSt モデルのチャネル数とブロック数の統計 バックボーンネットワークの事前トレーニング著者のもう一つの目的は、ImageNet で事前トレーニングされた 2D バックボーン ネットワークを活用することですが、論文のバックボーン ネットワークは ConvNeXt に基づいて変更されているため、ImageNet で事前トレーニングされた元の ConvNeXt を、新しく設計されたネットワーク構造に直接移行することはできません。これに基づいて、本論文では、ステージビューとミクロビューに基づく初期化方法という 2 つの形式のパラメータ初期化方法を採用しています。
実験セクション著者らは、設計された PillarNeSt アルゴリズム モデルの有効性をそれぞれ nuScenes および Argoverse2 データセットでテストしました。まず、nuScenes で結果を表示してみましょう。 実験結果によると、パラメータ数が最も多い PillarNeSt-Large アルゴリズム モデルは mAP 64.3 を達成し、他のポイント クラウド ベースの認識アルゴリズム モデルを大幅に上回っています。 nuScenes データセットでの比較結果に加えて、論文で設計された PillarNeSt は Argoverse2 データセットでも優れたパフォーマンスを発揮します。 表の結果から、mAP 指標であれ CDS 指標であれ、PillarNeSt-Base アルゴリズム モデルが最高の検出性能を達成し、他のポイント クラウド ベースの認識アルゴリズム モデルを大幅に上回っていることがわかります。 上記の実験表は、この方法がスケーラブルなネットワーク構造のセットを正常に実装し、特定の状況に応じて異なるパラメータ値を持つ異なるアルゴリズムモデルを選択して、異なる精度効果を実現できることを示しています。論文で提起された事前トレーニングの問題に対応して、論文では以下に示すように実験結果の図も示しています。 実験結果では、論文で設計されたネットワーク構造が、ImageNet の事前トレーニングから得られた知識情報を非常によく継承していることが実証されています。mAP であれ、トレーニング損失であれ、事前トレーニング モデルをロードする効果は、事前トレーニング モデルを使用しない場合よりも優れています。 要約するポイントクラウドベースの認識アルゴリズムは大きな進歩を遂げていますが、ピラーベースのアルゴリズム モデルの 2D バックボーン ネットワークでは依然としてランダム初期化が使用されており、ImageNet から事前トレーニングされたネットワーク モデルは使用されていません。同時に、ポイントクラウドベースのアルゴリズム モデルは、異なるスケールによってもたらされる利点を享受できません。 この記事で紹介したPillarNeStは、上記の2つの問題を非常にうまく解決します。この分析が皆様のお役に立てば幸いです。 オリジナルリンク: https://mp.weixin.qq.com/s/NJoAOyTuk9INQRJtJKz__g |
<<: BaiduのHou Zhenyu氏:ビッグモデルがクラウドコンピューティングを再形成し、AIネイティブクラウドがクラウドコンピューティングの様相を変える
>>: 高性能かつ低消費時間!新しい 3D Occupancy Network SGN を試してみませんか?オープンソース
7月25日、AIベースのディープフェイク技術が進化を続ける中、人間が肉眼で「どのコンテンツがAIによ...
エジソンが何千もの材料をフィラメントとして試し、試行錯誤を繰り返し、決して諦めない精神でようやく日常...
教師なしテキストコーパスのみで事前トレーニングされた基本的な大規模言語モデル (LLM) は、通常、...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
今日、企業組織は意思決定に人工知能や機械学習モデルをますます頼りにしており、こうした意思決定は私たち...
データとアルゴリズムに基づく人工知能技術は、教師の教育活動と専門能力開発を厳格な手順構造の中に簡単に...
人工知能の急速な発展に伴い、高品質なデータの重要性がますます明らかになっています。大規模言語モデルを...
テレビ番組「ザ・ブレイン」が巻き起こした「人間対機械」、そして自動運転車、顔認識、アルファ囲碁など一...
[[326429]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...
今日でも、私たちは人工知能 (AI) を未来のテクノロジーだと考えています。そのため、この分野で起こ...
CMQにおけるラフトの応用初期には、rabbitmqをベースにスケーラブルなメッセージミドルウェア...