この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。 論文: 完全スパース 3D パノプティック占有率予測 リンク: https://arxiv.org/pdf/2312.17118.pdf この論文の出発点は何ですか?占有率予測は自動運転の分野で重要な役割を果たします。従来の方法では通常、シーンの固有のスパース性を無視して高密度の 3D ボリュームを構築するため、計算コストが高くなります。さらに、これらの方法は意味的な占有に限定されており、異なるインスタンスを区別することはできません。スパース性を活用し、インスタンス認識を保証するために、著者らは SparseOcc と呼ばれる新しい完全にスパースなパノプティック占有ネットワークを導入しています。 SparseOcc は最初に視覚入力からスパース 3D 表現を再構築します。次に、スパース インスタンス クエリを使用して、スパース 3D 表現から各オブジェクト インスタンスを予測します。 さらに、著者らは視覚中心のパノラマ占有ベンチマークを初めて確立しました。 SparseOcc は、リアルタイム推論速度 25.4 FPS を維持しながら、Occ3D nus データセットで 26.0 の mIoU を達成します。最初の 8 フレームの時間的モデリングを組み合わせることで、SparseOcc はパフォーマンスをさらに向上させ、mIoU 30.9 を達成します。コードは後でオープンソース化される予定です。 SparseOcc の構造とプロセスSparseOcc は 2 つのステップで構成されます。まず、著者らは、シーンのスパースな幾何学的構造を再構築するためのスパースボクセルデコーダーを提案します。このデコーダーは、シーンの非フリー領域のみをモデル化するため、計算リソースを大幅に節約できます。次に、スパースインスタンスクエリを使用してスパース空間内の各オブジェクトのマスクとラベルを予測するマスクトランスフォーマーを設計します。 さらに、著者らは、マスク変換における密なクロスアテンションを回避するために、マスク誘導スパースサンプリングを提案しています。したがって、SparseOcc は、密な 3D 機能に依存せず、スパースから密へのグローバル アテンション操作も実行しないため、上記の 2 つのスパース プロパティを同時に活用して、完全にスパースなアーキテクチャを形成できます。同時に、SparseOcc はシーン内のさまざまなインスタンスを区別し、セマンティック占有とインスタンス占有をパノラマ占有に統合できます。 設計されたスパースボクセルデコーダーを図 4 に示します。一般的に、これは粗から細への構造に従いますが、入力としてボクセル ラベルのスパース セットを受け取ります。各レイヤーの最後に、各ボクセルの占有スコアを推定し、予測スコアに基づいてスパース化を実行します。ここでは、2 つのスパース化方法があります。1 つはしきい値に基づくもの (たとえば、スコア > 0.5 のみを保持する) であり、もう 1 つは top-k に基づくものです。この研究では、閾値処理によってサンプルの長さが不均等になり、トレーニング効率に影響するため、著者らは top-k を選択しました。 k はデータセットに依存するパラメータで、異なる解像度で各サンプル内の非フリー ボクセルの最大数をカウントすることによって取得されます。まばらにラベル付けされたボクセルは、次のレイヤーへの入力として使用されます。 タイミングモデリング。これまでの高密度占有法では、通常、過去の BEV/3D 特徴を現在のタイムスタンプにワープし、変形可能な注意または 3D 畳み込みを使用して時間情報を融合していました。ただし、3D フィーチャがまばらであるため、このアプローチは今回のケースには適用できません。この問題に対処するために、著者らはサンプリング ポイントの柔軟性を活用し、それらを以前のタイムスタンプにラップして画像の特徴をサンプリングします。複数のタイムスタンプからサンプリングされた特徴は、適応ブレンディングによって重ね合わされ、集約されます。 損失設計: 各レイヤーは監視されます。このステップではクラスに依存しない占有率が再構築されるため、バイナリ クロス エントロピー (BCE) 損失を使用して占有率ヘッドを監視します。予測される占有率の観点から、場所のまばらなセットのみが監視されます。つまり、初期段階で破棄された領域は監視されません。 さらに、クラスの不均衡がひどいため、モデルは地面などの割合が大きいクラスによって簡単に支配され、車や人など、シーン内の他の重要な要素が無視されてしまいます。したがって、異なるクラスに属するボクセルには、異なる損失重みが割り当てられます。たとえば、クラス c に属するボクセルには次の損失重みが割り当てられます。 ここで、Mi は GT 内の i 番目のクラスに属するボクセルの数です。 マスクガイドによるスパースサンプリング。マスク トランスフォーマーの簡単なベースラインは、Mask2Former のマスク クロス アテンション モジュールを使用することです。ただし、キーポイントのすべての位置が関係するため、計算負荷が非常に高くなる可能性があります。ここで、著者らは簡単な代替案を考案しています。前の(l−1)Transformerデコーダーレイヤーのマスク予測が与えられた場合、マスク内のボクセルをランダムに選択することによって3Dサンプルポイントのセットが生成されます。これらのサンプリング ポイントは画像上に投影され、画像の特徴をサンプリングします。さらに、当社のスパース サンプリング メカニズムにより、サンプル ポイントを単純にワープするだけで時間モデリングが容易になります (スパース ボクセル デコーダーで実行されるように)。 実験結果Occ3D nuScenes データセットでの 3D 占有率予測パフォーマンス。 「8f」はフレーム7+1からの時間情報を融合することを意味します。私たちの方法は、より弱い設定でも以前の方法と同等かそれ以上のパフォーマンスを実現します。 オリジナルリンク: https://mp.weixin.qq.com/s/CX18meq6DZcIhi0_DElfMw |
>>: インタラクティブ知覚とは何ですか?自動運転における社会的相互作用の動的モデルと意思決定の最前線に関する包括的なレビュー。
OpenAI Developer Conferenceの直後、その最大のライバルであるClaude...
2020年に世界的に発生したCOVID-19パンデミックによる混乱にもかかわらず、ほとんどの製品やサ...
ラボガイドインターネットの発展により、企業はより多くのデータを入手できるようになりました。これらのデ...
自然言語処理は人工知能の分野で常に重要なトピックであり、2018年も話題となりました。大量のテキスト...
他の業界と同様に、ヘルスケアにおける AI の応用と議論は幅広く行われています。 AIはすでに診断の...
2月8日、ホワイトハウス大統領府は最新の改訂版「重要かつ新興の技術」リスト(CETリスト)を発表しま...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
Siri に道順を尋ねるたびに、複雑なコード列がアクティブ化され、「Siri」は質問を理解し、必要...
[[434145]]職場における支援/拡張現実 (AR) と人工知能 (AI) の可能性を最大限に引...
人工知能は私たちの生活、仕事、遊び方に革命をもたらそうとしているが、Amazon の Alexa や...
ヒープは通常、(完全な) ツリーとして表示できるオブジェクトの配列です。そして、以下のルールは常に満...
中国共産党中央委員会と国務院がこのほど発表した「知的財産強国建設要綱(2021~2035年)」では、...