高性能かつ低消費時間！新しい 3D Occupancy Network SGN を試してみませんか?オープンソース

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

序文と著者の個人的な理解

この情報化時代において、無人運転車やインテリジェントロボットは現実の生活において重要な役割を果たしています。これらの機械が私たちの世界をよりよく理解し、ナビゲートするためには、周囲の環境を見て理解できる必要があります。それは、現実世界についての三次元空間ストーリーを「読む」ことを機械に教えるようなものです。今日、オートボットは、マシンの「読み取り」能力を強化する特別な方法を使用する、スパースガイダンスネットワーク (SGN) と呼ばれるインテリジェントシステムを導入します。 SGN により、機械はジグソーパズルで正しいピースを見つけるのと同じように、周囲の物体をより速く学習して認識できるようになります。研究者たちは、広範囲にわたるテストを通じて、SGN がこの複雑な 3 次元ジグソーパズル、特に機械の「視覚」をテストする SemanticKITTI と呼ばれる課題で優れた成績を収められることを実証しました。 SGN は機械がより明確に「見る」のを支援するという点で非常に役立っていますが、研究者たちは、将来の自動運転車やインテリジェントロボットがより安全かつ効果的に私たちを支援できるように、SGN をより小型、高速、スマートにする方法を模索しています。

記事の主なアイデア

SGN は、屋外運転シナリオで特に重要な研究分野である 3D セマンティックシーンコンプリーション (SSC) の問題を調査します。従来、この問題は、周囲の環境の 3 次元情報を取得するために高価な LiDAR テクノロジに依存していました。しかし、近年では、より経済的な純粋なビジョンベースの SSC ソリューションに向けて研究が移行し始めています。 MonoScene、OccDepth、SurroundOcc、OccFormer などのこれまでの研究では、主に 2D 画像を 3D ボリュームに変換し、複雑な 3D モデルを通じて処理する方法が採用されていました。これらの方法は技術的には革新的ですが、通常、リフトされた 3D 機能を処理するために重い 3D モデルに依存しているため、明確なセグメンテーション境界という点では不十分です。

これを改善するために、VoxFormer などの方法では、可視領域を使用して目に見えない構造を完成することが提案されています。この方法では、2 段階のフレームワークを採用しています。第 1 段階はクエリの提案、第 2 段階は高密度化とセグメンテーションです。この疎から密へのアプローチは、効率性とスケーラビリティの点で以前の密な処理方法よりも優れていますが、クエリのクラス内機能分離、クエリ情報の精度、およびグローバル情報の考慮の点ではまだ制限があります。

これらの制限に対処するために、この論文では、Sparse Guidance Network (SGN) と呼ばれる、エンドツーエンドの純粋なビジョンベースの新しい SSC フレームワークを提案しています。 SGN の中心的なアイデアは、幾何学的事前分布と占有情報を活用して、意味的かつ占有を考慮したシードボクセルからシーン全体に意味を拡散することです。従来の方法とは異なり、SGN は密-疎-密設計を採用し、ハイブリッドガイダンスと効果的なボクセル集約を導入して、クラス内特徴の分離を強化し、意味拡散の収束を加速します。さらに、SGN は異方性畳み込みを活用して、計算リソースの要件を削減しながら柔軟な受容野を実現します。

この革新的なアプローチは SemanticKITTI データセットで広範囲に実験されており、その結果、SGN が既存の最先端の方法よりも優れていることが示されています。 SGN の軽量バージョンである SGN-L でも、メモリとパラメータの面でより経済的であり、2 つの重要な指標である mIoU と IoU で大幅な改善を達成しています。この効果は、SGN の設計の効率性と斬新さ、特にスパースデータの処理とセマンティック拡散の加速における革新性によるもので、これにより SGN は軽量でありながら強力なシーン理解機能を提供できます。

SGN法の詳しい説明

概要

スパースガイダンスネットワーク (SGN) の全体的なフレームワークは、密-スパース-密の設計を示しており、幾何学的事前確率と占有情報を通じて、意味的かつ占有を考慮したシードボクセルからシーン全体に意味を拡散することを目的としています。具体的な手順は次のとおりです。SGN は RGB 画像を入力として受け取り、ResNet-50 と FPN を組み合わせて画像エンコーダーを構築し、RGB 画像から 2 次元の特徴を抽出します。抽出された特徴これは、その後のボクセル機能の形成のための強固な基盤を提供します。は時間入力の画像の数であり、特集チャンネルの数です。画像の解像度を示します。 SGN は、3D-2D プロジェクションマッピング (純粋な視覚パラメータを使用) を介して 2D 機能をサンプリングし、3D 機能を構築します。この単純な投影マッピング操作により、後続のコンテキストモデリングのための粗いボリュームシーン表現が提供されます。このマッピングプロセスは、学習可能な LSS や交差注意メカニズムよりも単純かつ明示的です。数学的には、3次元の特徴 2次元の特徴からサンプリングにより取得。 SGN は深度予測に基づいてスパースボクセル提案を生成し、これを使用してシードボクセルを動的にインデックスします。 SGN は、ボクセル提案と 3D 機能に基づいて、機能学習を容易にするための意味的および幾何学的な手がかりを注入するハイブリッドガイダンスを設計します。 SGN は、有益なボクセル特徴を形成するためのボクセル集約レイヤーを開発します。この特徴は、最終的なセマンティック占有率予測のために、マルチスケールセマンティック拡散モジュールによってさらに処理されます。

一般的に、SGN は革新的な設計とプロセスにより、3D シーンを効果的に処理および解釈し、正確なセマンティックシーンの完成を提供することができます。

ハイブリッドガイダンスによる機能学習

「ハイブリッドガイダンスによる機能学習」セクションでは、SGN は幾何学的ガイダンスとスパースセマンティックガイダンスを組み合わせることで、有益なボクセル機能を強化します。この方法は、ビュー変換モジュールによって生成された 3D 機能を直接処理することを目的としています。重いモデルでは、明確なセグメンテーション境界を取得するには識別力が不十分です。

ジオメトリガイダンス: まず、補助的な 3D 占有ヘッドの後に、ジオメトリガイドとしてビュー変換モジュールが続き、大まかなジオメトリ認識を提供します。具体的には、異方性畳み込み層と線形層を使用して 3D 占有ヘッドを構築します。この異方性畳み込みは、3D 畳み込み演算を異なる方向の 3 つの連続する 1D 畳み込みに分解し、各 1D 畳み込みには異なるカーネルサイズのミキサーが装備されているため、入力データから意味のある特徴を学習して抽出するモデルの能力が向上します。ヘッドアシストアライメントにより強化された3D機能 3D占有を実行するの予測では、粗いシーン表現にガイダンスを適用し、後続のシード特徴の意味予測と拡散のための幾何学的事前確率を提供します。
スパースセマンティックガイダンス：粗いボリューム情報を持つ3Dフィーチャからすべてのボクセルのセマンティクスをより効果的かつ効率的に学習するために、シードボクセルからシーン全体にセマンティクスを伝播する方法が提案されています。具体的には、シードボクセルを選択し、シードフィーチャ間のクラス間分離性を促進するために、スパースボクセル提案が生成されます。

スパースボクセル提案: スパースボクセル提案ネットワーク (SVPN) は、後続のセマンティックコンテキスト学習のためにシードボクセルを動的に選択するように設計されています。 SVPN には、深度推定と粗から細までの占有予測が含まれます。
セマンティックガイダンス: 占有率予測の取得シーンのボクセル座標その後、まず初期シードボクセルの特徴を選択する。シード座標これらのシードボクセル機能と対応するボクセルインデックスは、対話のためにセマンティックガイダンスモジュールに送られます。このモジュールには、2 つのスパースエンコーダーブロック (SEB)、融合レイヤー、および補助セマンティックヘッドがあります。各エンコーダーブロックには、スパースフィーチャーエンコーダーとスパースジオメトリックフィーチャーエンコーダーが含まれており、マルチスケールのコンテキスト情報を持つフィーチャーを出力します。

ボクセル集約：図に示すように、意味を考慮したシード特徴はさらに職業意識の特徴大まかな形状を表す3Dフィーチャ最終的な識別ボクセル特徴を構築するために集約する。特に、非シードボクセルの座標は特徴をインデックスするために使用される。からそれから、

マルチスケール意味拡散

「マルチスケールセマンティック拡散」セクションでは、SGN は、幾何学的ガイダンスとスパースセマンティックガイダンスを組み合わせて特徴を学習し、豊富なセマンティックコンテキストと空間幾何学的手がかりを備えた識別的なボクセル単位の特徴を取得します。次に、マルチスケールセマンティック拡散 (MSSD) モジュールは、幾何学的および空間的占有の手がかりに基づいて、シードフィーチャからシーン全体にセマンティック情報を拡散するように設計されています。

MSSD モジュールには、3 つの異方性畳み込み層と ASPP モジュールが含まれており、軽量で、さまざまなサイズのインスタンスのマルチスケール機能を効果的にキャプチャできます。その後、線形層とソフトマックス層で構成されるヘッドを使用して、拡散されたボクセル特徴から最終的なセマンティックシーン予測を予測します。。

MonoSceneの実践に倣い、SGN シーンクラスアフィニティ損失は、セマンティックおよびジオメトリの結果に使用され、カテゴリの精度、再現率、および特異性のメトリックを同時に最適化します。最終予測の全体的な損失関数は次のように表されます。

で、そしてシーンクラスアフィニティ損失はそれぞれ意味的および幾何学的結果を表します。クロスエントロピー損失を表します。

この設計により、MSSD モジュールは、選択されたシードボクセルからシーン全体にセマンティック情報を効果的に拡散できるため、モデルを軽量に保ちながら、複雑な 3D 環境の深い理解と正確なセマンティックシーンの完成を実現できます。

実験結果

SemanticKITTI 隠しテストセットにおけるセマンティックシーン補完のパフォーマンス比較では、SGN (Sparse Guidance Network) が優れた実験パフォーマンスを示しました。 SGN の 3 つのバリエーション (SGN-S、SGN-L、SGN-T) はすべて、従来の方法のパフォーマンスを上回ります。特に、SGN-T バージョンは、(mIoU) だけでなく、多くの個別のカテゴリで最高の結果を達成します。

SGN-T は、「道路」カテゴリで最高の IoU 60.40% を達成し、「トラック」、「オートバイ」、「交通標識」などのより難しいカテゴリでも優れた認識能力を発揮し、それぞれ 28.40%、4.50%、8.30% の IoU を達成しました。これらの結果は、個々のカテゴリーで優れているだけでなく、全体的なパフォーマンスでも優れており、SGN-T は 15.76% mIoU でリストされているすべての方法をリードしており、カテゴリー全体にわたる総合的なパフォーマンスの強さを反映しています。

SGN-L と SGN-S も優れたパフォーマンスを示し、いくつかのカテゴリでは SGN-T にわずかに及ばないものの、「車」、「自転車」、「ポール」などのカテゴリではクラス最高の結果を達成しました。これは、SGN フレームワークがさまざまなスケールとパラメータ設定の下でも意味理解機能を維持できることを示しています。

全体的に、SGN メソッドの優れたパフォーマンスは、SemanticKITTI データセットでの 3D セマンティックシーン補完タスク、特に複雑なシーンやきめ細かいカテゴリ認識の処理においてその有効性を実証しています。 SGN の成功は、独自のボクセル単位の特徴集約とマルチスケール意味拡散機能によるもので、これにより 3D 空間内のさまざまなカテゴリをより正確に推測してラベル付けすることができます。

SGNディスカッションについて

SGN では、提案されたスパースガイダンスネットワーク (SGN) メソッドが、3D セマンティックシーン完了問題に対する革新的なソリューションを提供します。 SGN の主な利点は、効率的な密-疎-密設計を使用していることです。これにより、コンピューティングリソースの使用が最適化されるだけでなく、効果的なセマンティックおよびジオメトリガイダンスを通じて、シーン内のオブジェクトの境界を識別するモデルの能力も向上します。さらに、SGN は、マルチスケールセマンティック拡散モジュールを通じてさまざまなサイズのインスタンスを効果的に処理し、特に難しい SemanticKITTI データセットでの複数のカテゴリでの認識パフォーマンスをさらに向上させます。

SGN は多くの指標で優れたパフォーマンスを発揮しますが、潜在的な制限もいくつかあります。まず、SGN はスパースボクセル提案ネットワークを通じてシードボクセルを動的に選択しますが、このプロセスでは、特にシーン内のスパース領域や区別が難しい領域では、いくつかの重要な特徴が見逃される可能性があります。第二に、SGN は推論中に補助的な 3D ヘッドを放棄するため、複雑な形状をキャプチャするモデルの能力が制限される可能性があります。さらに、SGN は効率とパフォーマンスのバランスを実現していますが、リソースが制限されたアプリケーションシナリオに適応するためにモデルのパラメーター数とメモリ使用量をさらに削減する方法は、依然として検討する価値のある問題です。

今後、SGN の研究は以下の側面でさらに発展していく可能性があります。まず、スパースボクセル提案ネットワークを改善して、シーン内の重要な特徴をより正確にキャプチャして活用する方法を検討します。第二に、推論中に破棄される補助 3D ヘッドの情報をより有効に活用するために、新しいネットワークアーキテクチャまたはトレーニング戦略を調査することができます。さらに、モデルの軽量化と最適化にも大きな発展の余地があります。たとえば、ネットワークのプルーニングや知識の蒸留によってモデルのサイズを縮小すると、エッジデバイスでの展開効率が向上します。最後に、モデルの一般化能力を向上させることも、今後の研究の重要な方向性です。さまざまな照明、天候、センサー構成など、さまざまな環境や条件にモデルを適応させる方法が、この分野のさらなる発展を促進する鍵となるでしょう。これらの問題に対処することで、SGN とその将来の派生型は、3D 意味理解やシーン再構築の分野でより幅広い応用が実現されると期待されています。

結論は

要約すると、著者らは、純粋なビジョンベースの 3D セマンティックシーン補完のための新しいエンドツーエンドのフレームワークである Sparse Guidance Network (SGN) を提案しました。 SGN は、密-疎-密設計と幾何学的ガイダンスおよびセマンティックガイダンスを効果的に組み合わせることで、セマンティックセグメンテーションの精度を向上させます。 SemanticKITTI データセットでの広範な実験を通じて、SGN は複数のカテゴリ、特に mIoU メトリックにおいて優れたパフォーマンスを発揮し、さまざまなサイズのオブジェクトを区別する能力を示しています。 SGN には、スパース領域を処理するときに一部の機能が失われる可能性があるなどの制限がありますが、全体的なパフォーマンスは強力なフレームワークを示し、3D セマンティックシーン補完の将来の研究に新たな方向性を提供します。今後の作業では、モデル構造をさらに最適化し、一般化能力と効率性を向上させて、より幅広いアプリケーションを実現することに重点を置くことができます。

オリジナルリンク: https://mp.weixin.qq.com/s/JrxSaaeKJ656741vwBr5xA

<<: PillarNeSt: Pillar ベースの 3D オブジェクト検出のパフォーマンスをさらに向上させるにはどうすればよいでしょうか?

>>: