SparseOcc: 完全にスパースな 3D パノラマ占有予測 (セマンティック + インスタンス デュアル タスク)

SparseOcc: 完全にスパースな 3D パノラマ占有予測 (セマンティック + インスタンス デュアル タスク)

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

論文: 完全スパース 3D パノプティック占有率予測

リンク: https://arxiv.org/pdf/2312.17118.pdf

この論文の出発点は何ですか?

占有率予測は自動運転の分野で重要な役割を果たします。従来の方法では通常、シーンの固有のスパース性を無視して高密度の 3D ボリュームを構築するため、計算コストが高くなります。さらに、これらの方法は意味的な占有に限定されており、異なるインスタンスを区別することはできません。スパース性を活用し、インスタンス認識を保証するために、著者らは SparseOcc と呼ばれる新しい完全にスパースなパノプティック占有ネットワークを導入しています。 SparseOcc は最初に視覚入力からスパース 3D 表現を再構築します。次に、スパース インスタンス クエリを使用して、スパース 3D 表現から各オブジェクト インスタンスを予測します。

さらに、著者らは視覚中心のパノラマ占有ベンチマークを初めて確立しました。 SparseOcc は、リアルタイム推論速度 25.4 FPS を維持しながら、Occ3D nus データセットで 26.0 の mIoU を達成します。最初の 8 フレームの時間的モデリングを組み合わせることで、SparseOcc はパフォーマンスをさらに向上させ、mIoU 30.9 を達成します。コードは後でオープンソース化される予定です。

SparseOcc の構造とプロセス

SparseOcc は 2 つのステップで構成されます。まず、著者らは、シーンのスパースな幾何学的構造を再構築するためのスパースボクセルデコーダーを提案します。このデコーダーは、シーンの非フリー領域のみをモデル化するため、計算リソースを大幅に節約できます。次に、スパースインスタンスクエリを使用してスパース空間内の各オブジェクトのマスクとラベルを予測するマスクトランスフォーマーを設計します。

さらに、著者らは、マスク変換における密なクロスアテンションを回避するために、マスク誘導スパースサンプリングを提案しています。したがって、SparseOcc は、密な 3D 機能に依存せず、スパースから密へのグローバル アテンション操作も実行しないため、上記の 2 つのスパース プロパティを同時に活用して、完全にスパースなアーキテクチャを形成できます。同時に、SparseOcc はシーン内のさまざまなインスタンスを区別し、セマンティック占有とインスタンス占有をパノラマ占有に統合できます。

設計されたスパースボクセルデコーダーを図 4 に示します。一般的に、これは粗から細への構造に従いますが、入力としてボクセル ラベルのスパース セットを受け取ります。各レイヤーの最後に、各ボクセルの占有スコアを推定し、予測スコアに基づいてスパース化を実行します。ここでは、2 つのスパース化方法があります。1 つはしきい値に基づくもの (たとえば、スコア > 0.5 のみを保持する) であり、もう 1 つは top-k に基づくものです。この研究では、閾値処理によってサンプルの長さが不均等になり、トレーニング効率に影響するため、著者らは top-k を選択しました。 k はデータセットに依存するパラメータで、異なる解像度で各サンプル内の非フリー ボクセルの最大数をカウントすることによって取得されます。まばらにラベル付けされたボクセルは、次のレイヤーへの入力として使用されます。

タイミングモデリング。これまでの高密度占有法では、通常、過去の BEV/3D 特徴を現在のタイムスタンプにワープし、変形可能な注意または 3D 畳み込みを使用して時間情報を融合していました。ただし、3D フィーチャがまばらであるため、このアプローチは今回のケースには適用できません。この問題に対処するために、著者らはサンプリング ポイントの柔軟性を活用し、それらを以前のタイムスタンプにラップして画像の特徴をサンプリングします。複数のタイムスタンプからサンプリングされた特徴は、適応ブレンディングによって重ね合わされ、集約されます。

損失設計: 各レイヤーは監視されます。このステップではクラスに依存しない占有率が再構築されるため、バイナリ クロス エントロピー (BCE) 損失を使用して占有率ヘッドを監視します。予測される占有率の観点から、場所のまばらなセットのみが監視されます。つまり、初期段階で破棄された領域は監視されません。

さらに、クラスの不均衡がひどいため、モデルは地面などの割合が大きいクラスによって簡単に支配され、車や人など、シーン内の他の重要な要素が無視されてしまいます。したがって、異なるクラスに属するボクセルには、異なる損失重みが割り当てられます。たとえば、クラス c に属するボクセルには次の損失重みが割り当てられます。

ここで、Mi は GT 内の i 番目のクラスに属するボクセルの数です。

マスクガイドによるスパースサンプリング。マスク トランスフォーマーの簡単なベースラインは、Mask2Former のマスク クロス アテンション モジュールを使用することです。ただし、キーポイントのすべての位置が関係するため、計算負荷が非常に高くなる可能性があります。ここで、著者らは簡単な代替案を考案しています。前の(l−1)Transformerデコーダーレイヤーのマスク予測が与えられた場合、マスク内のボクセルをランダムに選択することによって3Dサンプルポイントのセットが生成されます。これらのサンプリング ポイントは画像上に投影され、画像の特徴をサンプリングします。さらに、当社のスパース サンプリング メカニズムにより、サンプル ポイントを単純にワープするだけで時間モデリングが容易になります (スパース ボクセル デコーダーで実行されるように)。

実験結果

Occ3D nuScenes データセットでの 3D 占有率予測パフォーマンス。 「8f」はフレーム7+1からの時間情報を融合することを意味します。私たちの方法は、より弱い設定でも以前の方法と同等かそれ以上のパフォーマンスを実現します。

オリジナルリンク: https://mp.weixin.qq.com/s/CX18meq6DZcIhi0_DElfMw

<<:  2024年のビッグデータ産業予測(I)

>>:  インタラクティブ知覚とは何ですか?自動運転における社会的相互作用の動的モデルと意思決定の最前線に関する包括的なレビュー。

ブログ    
ブログ    
ブログ    

推薦する

AIエンジニアリングについて知っておくべきこと

人工知能は、21 世紀の世界のテクノロジー主導型市場において最も注目されている破壊的テクノロジーです...

...

...

AIの新たな方向性:敵対的攻撃

[[249559]]近年のAI分野を調査していく中で、近年、世界中の研究者の視野の中に敵対的攻撃とい...

...

...

エッジ AI とエッジ コンピューティングとは何ですか?

[51CTO.com クイック翻訳] エッジ AI は、人工知能の分野で注目を集めている新しい分野...

ビッグモデル実装の最後の一歩: ビッグモデル評価の 111 ページに及ぶ包括的なレビュー

現在、ビッグモデルは強力な機能と無限の可能性で新たな技術革命をリードしています。多くのテクノロジー大...

Omdia: 2024 年に注目すべき主要な AI トレンド

生成型 AI が人間と機械のコミュニケーション方法を変えるため、今年は人工知能にとって極めて重要な年...

自動運転のための2Dおよび3D視覚認識アルゴリズムについて話す

環境認識は自動運転における最初のリンクであり、車両と環境を結び付けるものです。自動運転システムの全体...

北京航空航天大学はモードの壁を打ち破り、可視光と赤外線モードにわたる普遍的な物理的対抗手段を開発しました。

近年、視覚システムのセキュリティ評価の研究が徐々に深まっています。研究者は、メガネ、ステッカー、衣服...

顔認証決済の登場:「決済戦争」の次なる激戦点となるか?

[[280749]]最近、支払いをするために携帯電話を取り出すと、「顔支払い」を選択すると割引があ...

セキュリティにおける AI の必要性: 機械学習から機械の作成まで

セキュリティ専門家は、自分の仕事が人工知能に置き換えられることを心配する必要があるのでしょうか?警備...

ガートナーが短期的なAIイノベーションを推進する4つのトレンドを明らかに

ガートナーの 2021 年人工知能ハイプ サイクルの 4 つのトレンドが、短期的な AI イノベーシ...

OpenAI が GPT-4 やその他のモデルを更新し、新しい API 関数呼び出しを追加し、価格を最大 75% 引き下げ

数日前、OpenAIのCEOサム・アルトマン氏は世界ツアーのスピーチで、OpenAIの最近の開発ルー...