SparseOcc: 完全にスパースな 3D パノラマ占有予測 (セマンティック + インスタンス デュアル タスク)

SparseOcc: 完全にスパースな 3D パノラマ占有予測 (セマンティック + インスタンス デュアル タスク)

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

論文: 完全スパース 3D パノプティック占有率予測

リンク: https://arxiv.org/pdf/2312.17118.pdf

この論文の出発点は何ですか?

占有率予測は自動運転の分野で重要な役割を果たします。従来の方法では通常、シーンの固有のスパース性を無視して高密度の 3D ボリュームを構築するため、計算コストが高くなります。さらに、これらの方法は意味的な占有に限定されており、異なるインスタンスを区別することはできません。スパース性を活用し、インスタンス認識を保証するために、著者らは SparseOcc と呼ばれる新しい完全にスパースなパノプティック占有ネットワークを導入しています。 SparseOcc は最初に視覚入力からスパース 3D 表現を再構築します。次に、スパース インスタンス クエリを使用して、スパース 3D 表現から各オブジェクト インスタンスを予測します。

さらに、著者らは視覚中心のパノラマ占有ベンチマークを初めて確立しました。 SparseOcc は、リアルタイム推論速度 25.4 FPS を維持しながら、Occ3D nus データセットで 26.0 の mIoU を達成します。最初の 8 フレームの時間的モデリングを組み合わせることで、SparseOcc はパフォーマンスをさらに向上させ、mIoU 30.9 を達成します。コードは後でオープンソース化される予定です。

SparseOcc の構造とプロセス

SparseOcc は 2 つのステップで構成されます。まず、著者らは、シーンのスパースな幾何学的構造を再構築するためのスパースボクセルデコーダーを提案します。このデコーダーは、シーンの非フリー領域のみをモデル化するため、計算リソースを大幅に節約できます。次に、スパースインスタンスクエリを使用してスパース空間内の各オブジェクトのマスクとラベルを予測するマスクトランスフォーマーを設計します。

さらに、著者らは、マスク変換における密なクロスアテンションを回避するために、マスク誘導スパースサンプリングを提案しています。したがって、SparseOcc は、密な 3D 機能に依存せず、スパースから密へのグローバル アテンション操作も実行しないため、上記の 2 つのスパース プロパティを同時に活用して、完全にスパースなアーキテクチャを形成できます。同時に、SparseOcc はシーン内のさまざまなインスタンスを区別し、セマンティック占有とインスタンス占有をパノラマ占有に統合できます。

設計されたスパースボクセルデコーダーを図 4 に示します。一般的に、これは粗から細への構造に従いますが、入力としてボクセル ラベルのスパース セットを受け取ります。各レイヤーの最後に、各ボクセルの占有スコアを推定し、予測スコアに基づいてスパース化を実行します。ここでは、2 つのスパース化方法があります。1 つはしきい値に基づくもの (たとえば、スコア > 0.5 のみを保持する) であり、もう 1 つは top-k に基づくものです。この研究では、閾値処理によってサンプルの長さが不均等になり、トレーニング効率に影響するため、著者らは top-k を選択しました。 k はデータセットに依存するパラメータで、異なる解像度で各サンプル内の非フリー ボクセルの最大数をカウントすることによって取得されます。まばらにラベル付けされたボクセルは、次のレイヤーへの入力として使用されます。

タイミングモデリング。これまでの高密度占有法では、通常、過去の BEV/3D 特徴を現在のタイムスタンプにワープし、変形可能な注意または 3D 畳み込みを使用して時間情報を融合していました。ただし、3D フィーチャがまばらであるため、このアプローチは今回のケースには適用できません。この問題に対処するために、著者らはサンプリング ポイントの柔軟性を活用し、それらを以前のタイムスタンプにラップして画像の特徴をサンプリングします。複数のタイムスタンプからサンプリングされた特徴は、適応ブレンディングによって重ね合わされ、集約されます。

損失設計: 各レイヤーは監視されます。このステップではクラスに依存しない占有率が再構築されるため、バイナリ クロス エントロピー (BCE) 損失を使用して占有率ヘッドを監視します。予測される占有率の観点から、場所のまばらなセットのみが監視されます。つまり、初期段階で破棄された領域は監視されません。

さらに、クラスの不均衡がひどいため、モデルは地面などの割合が大きいクラスによって簡単に支配され、車や人など、シーン内の他の重要な要素が無視されてしまいます。したがって、異なるクラスに属するボクセルには、異なる損失重みが割り当てられます。たとえば、クラス c に属するボクセルには次の損失重みが割り当てられます。

ここで、Mi は GT 内の i 番目のクラスに属するボクセルの数です。

マスクガイドによるスパースサンプリング。マスク トランスフォーマーの簡単なベースラインは、Mask2Former のマスク クロス アテンション モジュールを使用することです。ただし、キーポイントのすべての位置が関係するため、計算負荷が非常に高くなる可能性があります。ここで、著者らは簡単な代替案を考案しています。前の(l−1)Transformerデコーダーレイヤーのマスク予測が与えられた場合、マスク内のボクセルをランダムに選択することによって3Dサンプルポイントのセットが生成されます。これらのサンプリング ポイントは画像上に投影され、画像の特徴をサンプリングします。さらに、当社のスパース サンプリング メカニズムにより、サンプル ポイントを単純にワープするだけで時間モデリングが容易になります (スパース ボクセル デコーダーで実行されるように)。

実験結果

Occ3D nuScenes データセットでの 3D 占有率予測パフォーマンス。 「8f」はフレーム7+1からの時間情報を融合することを意味します。私たちの方法は、より弱い設定でも以前の方法と同等かそれ以上のパフォーマンスを実現します。

オリジナルリンク: https://mp.weixin.qq.com/s/CX18meq6DZcIhi0_DElfMw

<<:  2024年のビッグデータ産業予測(I)

>>:  インタラクティブ知覚とは何ですか?自動運転における社会的相互作用の動的モデルと意思決定の最前線に関する包括的なレビュー。

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

IDC、2021年以降のITトレンドトップ10を発表

2020年に世界的に発生したCOVID-19パンデミックによる混乱にもかかわらず、ほとんどの製品やサ...

...

...

半教師あり学習とその応用シナリオの簡単な分析

ラボガイドインターネットの発展により、企業はより多くのデータを入手できるようになりました。これらのデ...

Daguan Data: NLP の概要と自動テキスト分類アルゴリズムの詳細な説明

自然言語処理は人工知能の分野で常に重要なトピックであり、2018年も話題となりました。大量のテキスト...

集中治療室における人工知能の未来

他の業界と同様に、ヘルスケアにおける AI の応用と議論は幅広く行われています。 AIはすでに診断の...

米国の重要・新興技術リスト最新版:精密技術ポジショニング、AI、半導体などがリストに

2月8日、ホワイトハウス大統領府は最新の改訂版「重要かつ新興の技術」リスト(CETリスト)を発表しま...

このAIはマスクをハゲにし、テスラの設計を手伝った

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

自然言語処理がビジネスインテリジェンスの未来である理由

Siri に道順を尋ねるたびに、複雑なコード列がアクティブ化され、「Siri」は質問を理解し、必要...

職場におけるAIとARの進化

[[434145]]職場における支援/拡張現実 (AR) と人工知能 (AI) の可能性を最大限に引...

よりスマートに:人工知能とエネルギー産業の革命

人工知能は私たちの生活、仕事、遊び方に革命をもたらそうとしているが、Amazon の Alexa や...

古典的なソートアルゴリズムヒープソートの簡単な分析

ヒープは通常、(完全な) ツリーとして表示できるオブジェクトの配列です。そして、以下のルールは常に満...

中国はビッグデータ、人工知能、遺伝子技術などに関する知的財産法制の整備を加速させる。

中国共産党中央委員会と国務院がこのほど発表した「知的財産強国建設要綱(2021~2035年)」では、...

...