高性能かつ低消費時間!新しい 3D Occupancy Network SGN を試してみませんか?オープンソース

高性能かつ低消費時間!新しい 3D Occupancy Network SGN を試してみませんか?オープンソース

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

序文と著者の個人的な理解

この情報化時代において、無人運転車やインテリジェントロボットは現実の生活において重要な役割を果たしています。これらの機械が私たちの世界をよりよく理解し、ナビゲートするためには、周囲の環境を見て理解できる必要があります。それは、現実世界についての三次元空間ストーリーを「読む」ことを機械に教えるようなものです。今日、オートボットは、マシンの「読み取り」能力を強化する特別な方法を使用する、スパース ガイダンス ネットワーク (SGN) と呼ばれるインテリジェント システムを導入します。 SGN により、機械はジグソーパズルで正しいピースを見つけるのと同じように、周囲の物体をより速く学習して認識できるようになります。研究者たちは、広範囲にわたるテストを通じて、SGN がこの複雑な 3 次元ジグソーパズル、特に機械の「視覚」をテストする SemanticKITTI と呼ばれる課題で優れた成績を収められることを実証しました。 SGN は機械がより明確に「見る」のを支援するという点で非常に役立っていますが、研究者たちは、将来の自動運転車やインテリジェント ロボットがより安全かつ効果的に私たちを支援できるように、SGN をより小型、高速、スマートにする方法を模索しています。

記事の主なアイデア

SGN は、屋外運転シナリオで特に重要な研究分野である 3D セマンティック シーン コンプリーション (SSC) の問題を調査します。従来、この問題は、周囲の環境の 3 次元情報を取得するために高価な LiDAR テクノロジに依存していました。しかし、近年では、より経済的な純粋なビジョンベースの SSC ソリューションに向けて研究が移行し始めています。 MonoScene、OccDepth、SurroundOcc、OccFormer などのこれまでの研究では、主に 2D 画像を 3D ボリュームに変換し、複雑な 3D モデルを通じて処理する方法が採用されていました。これらの方法は技術的には革新的ですが、通常、リフトされた 3D 機能を処理するために重い 3D モデルに依存しているため、明確なセグメンテーション境界という点では不十分です。

これを改善するために、VoxFormer などの方法では、可視領域を使用して目に見えない構造を完成することが提案されています。この方法では、2 段階のフレームワークを採用しています。第 1 段階はクエリの提案、第 2 段階は高密度化とセグメンテーションです。この疎から密へのアプローチは、効率性とスケーラビリティの点で以前の密な処理方法よりも優れていますが、クエリのクラス内機能分離、クエリ情報の精度、およびグローバル情報の考慮の点ではまだ制限があります。

これらの制限に対処するために、この論文では、Sparse Guidance Network (SGN) と呼ばれる、エンドツーエンドの純粋なビジョンベースの新しい SSC フレームワークを提案しています。 SGN の中心的なアイデアは、幾何学的事前分布と占有情報を活用して、意味的かつ占有を考慮したシード ボクセルからシーン全体に意味を拡散することです。従来の方法とは異なり、SGN は密-疎-密設計を採用し、ハイブリッド ガイダンスと効果的なボクセル集約を導入して、クラス内特徴の分離を強化し、意味拡散の収束を加速します。さらに、SGN は異方性畳み込みを活用して、計算リソースの要件を削減しながら柔軟な受容野を実現します。

この革新的なアプローチは SemanticKITTI データセットで広範囲に実験されており、その結果、SGN が既存の最先端の方法よりも優れていることが示されています。 SGN の軽量バージョンである SGN-L でも、メモリとパラメータの面でより経済的であり、2 つの重要な指標である mIoU と IoU で大幅な改善を達成しています。この効果は、SGN の設計の効率性と斬新さ、特にスパース データの処理とセマンティック拡散の加速における革新性によるもので、これにより SGN は軽量でありながら強力なシーン理解機能を提供できます。

SGN法の詳しい説明

概要

スパース ガイダンス ネットワーク (SGN) の全体的なフレームワークは、密-スパース-密の設計を示しており、幾何学的事前確率と占有情報を通じて、意味的かつ占有を考慮したシード ボクセルからシーン全体に意味を拡散することを目的としています。具体的な手順は次のとおりです。SGN は RGB 画像を入力として受け取り、ResNet-50 と FPN を組み合わせて画像エンコーダーを構築し、RGB 画像から 2 次元の特徴を抽出します。抽出された特徴  これは、その後のボクセル機能の形成のための強固な基盤を提供します。   は時間入力の画像の数であり、  特集チャンネルの数です。  画像の解像度を示します。 SGN は、3D-2D プロジェクション マッピング (純粋な視覚パラメータを使用) を介して 2D 機能をサンプリングし、3D 機能を構築します。この単純な投影マッピング操作により、後続のコンテキスト モデリングのための粗いボリューム シーン表現が提供されます。このマッピング プロセスは、学習可能な LSS や交差注意メカニズムよりも単純かつ明示的です。数学的には、3次元の特徴   2次元の特徴から  サンプリングにより取得。 SGN は深度予測に基づいてスパース ボクセル提案を生成し、これを使用してシード ボクセルを動的にインデックスします。 SGN は、ボクセル提案と 3D 機能に基づいて、機能学習を容易にするための意味的および幾何学的な手がかりを注入するハイブリッド ガイダンスを設計します。 SGN は、有益なボクセル特徴を形成するためのボクセル集約レイヤーを開発します。この特徴は、最終的なセマンティック占有率予測のために、マルチスケール セマンティック拡散モジュールによってさらに処理されます。

一般的に、SGN は革新的な設計とプロセスにより、3D シーンを効果的に処理および解釈し、正確なセマンティック シーンの完成を提供することができます。

ハイブリッドガイダンスによる機能学習

「ハイブリッド ガイダンスによる機能学習」セクションでは、SGN は幾何学的ガイダンスとスパース セマンティック ガイダンスを組み合わせることで、有益なボクセル機能を強化します。この方法は、ビュー変換モジュールによって生成された 3D 機能を直接処理することを目的としています。   重いモデルでは、明確なセグメンテーション境界を取得するには識別力が不十分です。

  • ジオメトリ ガイダンス: まず、補助的な 3D 占有ヘッドの後に、ジオメトリ ガイドとしてビュー変換モジュールが続き、大まかなジオメトリ認識を提供します。具体的には、異方性畳み込み層と線形層を使用して 3D 占有ヘッドを構築します。この異方性畳み込みは、3D 畳み込み演算を異なる方向の 3 つの連続する 1D 畳み込みに分解し、各 1D 畳み込みには異なるカーネル サイズのミキサーが装備されているため、入力データから意味のある特徴を学習して抽出するモデルの能力が向上します。ヘッドアシストアライメントにより強化された3D機能   3D占有を実行する  の予測では、粗いシーン表現にガイダンスを適用し、後続のシード特徴の意味予測と拡散のための幾何学的事前確率を提供します。
  • スパースセマンティックガイダンス:粗いボリューム情報を持つ3Dフィーチャからすべてのボクセルのセマンティクスをより効果的かつ効率的に学習するために、シードボクセルからシーン全体にセマンティクスを伝播する方法が提案されています。具体的には、シード ボクセルを選択し、シード フィーチャ間のクラス間分離性を促進するために、スパース ボクセル提案が生成されます。
  • スパース ボクセル提案: スパース ボクセル提案ネットワーク (SVPN) は、後続のセマンティック コンテキスト学習のためにシード ボクセルを動的に選択するように設計されています。 SVPN には、深度推定と粗から細までの占有予測が含まれます。
  • セマンティックガイダンス: 占有率予測の取得  シーンのボクセル座標  その後、まず初期シードボクセルの特徴を選択する。   シード座標 これらのシード ボクセル機能と対応するボクセル インデックスは、対話のためにセマンティック ガイダンス モジュールに送られます。このモジュールには、2 つのスパース エンコーダー ブロック (SEB)、融合レイヤー、および補助セマンティック ヘッドがあります。各エンコーダー ブロックには、スパース フィーチャー エンコーダーとスパース ジオメトリック フィーチャー エンコーダーが含まれており、マルチスケールのコンテキスト情報を持つフィーチャーを出力します。
  • ボクセル集約:図に示すように、意味を考慮したシード特徴はさらに  職業意識の特徴  大まかな形状を表す3Dフィーチャ  最終的な識別ボクセル特徴を構築するために集約する  。特に、非シードボクセルの座標は特徴をインデックスするために使用される。   から  それから、

マルチスケール意味拡散

「マルチスケール セマンティック拡散」セクションでは、SGN は、幾何学的ガイダンスとスパース セマンティック ガイダンスを組み合わせて特徴を学習し、豊富なセマンティック コンテキストと空間幾何学的手がかりを備えた識別的なボクセル単位の特徴を取得します。次に、マルチスケール セマンティック拡散 (MSSD) モジュールは、幾何学的および空間的占有の手がかりに基づいて、シード フィーチャからシーン全体にセマンティック情報を拡散するように設計されています。

MSSD モジュールには、3 つの異方性畳み込み層と ASPP モジュールが含まれており、軽量で、さまざまなサイズのインスタンスのマルチスケール機能を効果的にキャプチャできます。その後、線形層とソフトマックス層で構成されるヘッドを使用して、拡散されたボクセル特徴から最終的なセマンティックシーン予測を予測します。  

MonoSceneの実践に倣い、SGN   シーンクラス アフィニティ損失は、セマンティックおよびジオメトリの結果に使用され、カテゴリの精度、再現率、および特異性のメトリックを同時に最適化します。最終予測の全体的な損失関数は次のように表されます。

で、  そして  シーンクラスアフィニティ損失はそれぞれ意味的および幾何学的結果を表します。  クロスエントロピー損失を表します。

この設計により、MSSD モジュールは、選択されたシード ボクセルからシーン全体にセマンティック情報を効果的に拡散できるため、モデルを軽量に保ちながら、複雑な 3D 環境の深い理解と正確なセマンティック シーンの完成を実現できます。

実験結果

SemanticKITTI 隠しテスト セットにおけるセマンティック シーン補完のパフォーマンス比較では、SGN (Sparse Guidance Network) が優れた実験パフォーマンスを示しました。 SGN の 3 つのバリエーション (SGN-S、SGN-L、SGN-T) はすべて、従来の方法のパフォーマンスを上回ります。特に、SGN-T バージョンは、(mIoU) だけでなく、多くの個別のカテゴリで最高の結果を達成します。

SGN-T は、「道路」カテゴリで最高の IoU 60.40% を達成し、「トラック」、「オートバイ」、「交通標識」などのより難しいカテゴリでも優れた認識能力を発揮し、それぞれ 28.40%、4.50%、8.30% の IoU を達成しました。これらの結果は、個々のカテゴリーで優れているだけでなく、全体的なパフォーマンスでも優れており、SGN-T は 15.76% mIoU でリストされているすべての方法をリードしており、カテゴリー全体にわたる総合的なパフォーマンスの強さを反映しています。

SGN-L と SGN-S も優れたパフォーマンスを示し、いくつかのカテゴリでは SGN-T にわずかに及ばないものの、「車」、「自転車」、「ポール」などのカテゴリではクラス最高の結果を達成しました。これは、SGN フレームワークがさまざまなスケールとパラメータ設定の下でも意味理解機能を維持できることを示しています。

全体的に、SGN メソッドの優れたパフォーマンスは、SemanticKITTI データセットでの 3D セマンティック シーン補完タスク、特に複雑なシーンやきめ細かいカテゴリ認識の処理においてその有効性を実証しています。 SGN の成功は、独自のボクセル単位の特徴集約とマルチスケール意味拡散機能によるもので、これにより 3D 空間内のさまざまなカテゴリをより正確に推測してラベル付けすることができます。

SGNディスカッションについて

SGN では、提案されたスパース ガイダンス ネットワーク (SGN) メソッドが、3D セマンティック シーン完了問題に対する革新的なソリューションを提供します。 SGN の主な利点は、効率的な密-疎-密設計を使用していることです。これにより、コンピューティング リソースの使用が最適化されるだけでなく、効果的なセマンティックおよびジオメトリ ガイダンスを通じて、シーン内のオブジェクトの境界を識別するモデルの能力も向上します。さらに、SGN は、マルチスケール セマンティック拡散モジュールを通じてさまざまなサイズのインスタンスを効果的に処理し、特に難しい SemanticKITTI データセットでの複数のカテゴリでの認識パフォーマンスをさらに向上させます。

SGN は多くの指標で優れたパフォーマンスを発揮しますが、潜在的な制限もいくつかあります。まず、SGN はスパース ボクセル提案ネットワークを通じてシード ボクセルを動的に選択しますが、このプロセスでは、特にシーン内のスパース領域や区別が難しい領域では、いくつかの重要な特徴が見逃される可能性があります。第二に、SGN は推論中に補助的な 3D ヘッドを放棄するため、複雑な形状をキャプチャするモデルの能力が制限される可能性があります。さらに、SGN は効率とパフォーマンスのバランスを実現していますが、リソースが制限されたアプリケーション シナリオに適応するためにモデルのパラメーター数とメモリ使用量をさらに削減する方法は、依然として検討する価値のある問題です。

今後、SGN の研究は以下の側面でさらに発展していく可能性があります。まず、スパース ボクセル提案ネットワークを改善して、シーン内の重要な特徴をより正確にキャプチャして活用する方法を検討します。第二に、推論中に破棄される補助 3D ヘッドの情報をより有効に活用するために、新しいネットワーク アーキテクチャまたはトレーニング戦略を調査することができます。さらに、モデルの軽量化と最適化にも大きな発展の余地があります。たとえば、ネットワークのプルーニングや知識の蒸留によってモデルのサイズを縮小すると、エッジデバイスでの展開効率が向上します。最後に、モデルの一般化能力を向上させることも、今後の研究の重要な方向性です。さまざまな照明、天候、センサー構成など、さまざまな環境や条件にモデルを適応させる方法が、この分野のさらなる発展を促進する鍵となるでしょう。これらの問題に対処することで、SGN とその将来の派生型は、3D 意味理解やシーン再構築の分野でより幅広い応用が実現されると期待されています。

結論は

要約すると、著者らは、純粋なビジョンベースの 3D セマンティック シーン補完のための新しいエンドツーエンドのフレームワークである Sparse Guidance Network (SGN) を提案しました。 SGN は、密-疎-密設計と幾何学的ガイダンスおよびセマンティックガイダンスを効果的に組み合わせることで、セマンティックセグメンテーションの精度を向上させます。 SemanticKITTI データセットでの広範な実験を通じて、SGN は複数のカテゴリ、特に mIoU メトリックにおいて優れたパフォーマンスを発揮し、さまざまなサイズのオブジェクトを区別する能力を示しています。 SGN には、スパース領域を処理するときに一部の機能が失われる可能性があるなどの制限がありますが、全体的なパフォーマンスは強力なフレームワークを示し、3D セマンティック シーン補完の将来の研究に新たな方向性を提供します。今後の作業では、モデル構造をさらに最適化し、一般化能力と効率性を向上させて、より幅広いアプリケーションを実現することに重点を置くことができます。

オリジナルリンク: https://mp.weixin.qq.com/s/JrxSaaeKJ656741vwBr5xA

<<:  PillarNeSt: Pillar ベースの 3D オブジェクト検出のパフォーマンスをさらに向上させるにはどうすればよいでしょうか?

>>: 

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

企業に適応型 AI を実装するにはどうすればよいでしょうか?

人工知能はもはや企業にとって選択肢ではありません。すぐに、それも差別化要因ではなくなるでしょう。ビジ...

安全で制御可能、かつ法的に準拠した人工知能は金融分野で「原則化」されている

現在、国内の新興デジタルインフラの進歩と、5G、クラウドコンピューティング、ビッグデータなどのモジュ...

恥ずかしい! ChatGPT を使用して論文を書いたのですが、生成ボタンを削除するのを忘れました。出版社から「論文を撤回します」と言われました。

それは恥ずかしいですね。物理学の論文でも ChatGPT ボタンがコピーされていました。結果は2か月...

AI 開発の方向性に関する大論争: ハイブリッド AI?強化学習?実践的な知識と常識をAIに統合する?

[[396127]]著者: Ben Dickson はソフトウェア エンジニアであり、テクノロジー...

ChatGPTはついにウェブを検索できるようになり、コンテンツは2021年9月以前のものに限定されなくなりました

米国時間9月28日水曜日、人工知能研究企業OpenAIは、同社のチャットボットChatGPTがMic...

122の古典的なSOTAモデルと223のアルゴリズム実装リソースを1つの記事にまとめました。

春節休暇期間中、Syncedの「SOTA! Model」は「Tiger Roller Operati...

GenAIがゼロトラスト環境でサイバーセキュリティを強化する方法

GenAI に対する信頼はまちまちです。 VentureBeat は最近、製造業とサービス業の複数の...

AIはデータセキュリティをどう変えるのか

サイバーセキュリティにおける人工知能 (AI) は、データセキュリティにとって良いものでしょうか、そ...

AIを活用して大気汚染と戦う方法

大気汚染はほぼあらゆる場所で依然として問題となっており、地球温暖化、生物多様性の喪失、土壌劣化、淡水...

大規模モデル推論の効率が損失なく3倍に向上。ウォータールー大学、北京大学などがEAGLEをリリース

大規模言語モデル (LLM) はさまざまな分野でますます使用されるようになっています。ただし、テキス...

調査:CIOはAIの実験や投資に依然として慎重

機械学習の実験と成果の達成に関しては、持っている人と持っていない人の間の格差が拡大しています。先週ニ...

Face-api.jsフレームワークに基づいて、顔認識はフロントエンドで完了します

[[271667]]この記事では、ブラウザ上で動作する顔認識フレームワーク、Face-api.js ...

強化学習と3Dビジョンを組み合わせた新たなブレークスルー:高性能オンラインパレタイジングロボット

国立防衛技術大学、クレムソン大学、Seebit Robotics の研究者らが協力し、深層強化学習を...