FlashOcc: 占有率予測への新しいアプローチで、最先端の精度、効率、メモリ使用量を実現します。

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

FlashOcc: チャネルから高さへのプラグインによる高速かつメモリ効率の高い占有率予測

論文リンク: https://arxiv.org/pdf/2311.12058.pdf

著者ユニット: 大連理工大学 Houmo AI アデレード大学

論文のアイデア:

占有予測は、3D 物体検出でよく見られるロングテール欠陥や複雑な形状の欠落を軽減できるため、自動運転システムの重要なコンポーネントとなっています。しかし、3D ボクセルレベルの表現を処理すると、メモリと計算の面で必然的に大きなオーバーヘッドが発生し、これまでの占有予測方法の展開が妨げられてきました。モデルをより大規模かつ複雑にする傾向とは対照的に、この論文では、理想的なフレームワークは高い精度を維持しながら、さまざまなチップ上で展開しやすいものでなければならないと主張しています。この目的のために、本論文では、高精度を維持しながら高速かつメモリ効率の高い占有予測を統合するプラグアンドプレイパラダイム、つまり FlashOCC を提案します。特に、当社の FlashOCC は、現代のボクセルレベルの占有率予測方法に比べて 2 つの点が改善されています。まず、BEV では特徴が保持されるため、特徴抽出に効率的な 2D 畳み込み層を使用できるようになります。次に、BEV の出力ロジットを 3D 空間に上げるために、チャネルから高さへの変換が導入されます。本稿では、困難な Occ3D-nuScenes ベンチマークのさまざまな占有予測ベースラインに FlashOCC を適用し、その有効性を検証するための広範な実験を実施します。結果により、当社のプラグアンドプレイパラダイムは、精度、実行時効率、メモリコストの点で従来の最先端の方法よりも優れていることが確認され、その導入可能性が実証されました。コードは使用可能になります。

ネットワーク設計:

サブピクセル畳み込み技術[26]に着想を得て、画像のアップサンプリングをチャネルの再配置に置き換え、チャネルから空間特徴への変換を実現します。したがって、本研究では、チャネルから高さの特徴への変換を効果的に実現することを目指します。 BEV 認識タスクの進歩に照らして、BEV 表現の各ピクセルには、高さの次元に沿った対応する柱内のすべてのオブジェクトに関する情報が含まれています。私たちは、チャネルから高さへの変換を直感的に利用して、平坦化された BEV 機能を 3D ボクセルレベルの占有ロジットに再形成します。したがって、本論文では、図 1 (a) に示すように、新しいモデルアーキテクチャを開発するのではなく、既存のモデルを一般的なプラグアンドプレイ方式で強化することに重点を置いています。具体的には、現代の方法における 3D 畳み込みを 2D 畳み込みに直接置き換え、3D 畳み込み出力から導出された占有ロジットを、2D 畳み込みによって得られた BEV レベルの特徴のチャネルから高さへの変換に置き換えます。これらのモデルは、精度と時間消費の間の最適なトレードオフを実現するだけでなく、優れた展開互換性も示します。

FlashOcc は、非常に高い精度でリアルタイムのサラウンドビュー 3D 占有予測を実現し、この分野における画期的な貢献を果たしました。さらに、高価なボクセルレベルの特徴処理を必要とせず、ビュートランスフォーマーや 3D (変形可能) 畳み込み演算子が回避されるため、さまざまな車両プラットフォームに展開するための汎用性が向上します。図 2 に示すように、FlashOcc の入力データは周囲の画像で構成され、出力は密な占有率の予測結果です。当社の FlashOcc は、既存のモデルを一般的なプラグアンドプレイ方式で強化することに重点を置いていますが、5 つの基本モジュールに分けることができます。(1) 2D 画像エンコーダーは、複数のカメラ画像から画像の特徴を抽出する役割を果たします。（２）ビュー変換モジュールは、2D対応のビュー画像の特徴を3D BEV表現にマッピングするのに役立ちます。（３）BEVエンコーダー：BEV特徴情報の処理を担当する。（４）占有予測モジュールは、各ボクセルのセグメンテーションラベルを予測する。（５）履歴情報を統合してパフォーマンスを向上させるように設計されたオプションの時間融合モジュール。

図1(a)は、提案されたFlashOccをプラグアンドプレイ方式で実装する方法を示しています。最新の方法では、3D-Conv によって処理されたボクセルレベルの 3D 機能を使用して占有率を予測します。対照的に、私たちのプラグイン置換モデルは、(1) 3D-Convを2D-Convに置き換え、(2) 3D-Convから得られた占有ロジットを、2D-Convから得られたBEVレベルの特徴を使用したチャネルから高さへの変換に置き換えることで、高速でメモリ効率の高い占有予測を実現します。「Conv」という略語は、Convolution（畳み込み）の略です。 (b) 精度と速度、推論メモリ消費量、トレーニング期間などの要素との間のトレードオフを説明します。

図 2. この図は FlashOcc の全体的なアーキテクチャを示しており、ズーム機能付きのカラーで表示すると最適です。破線のボックスで指定された領域は、交換可能なモジュールが存在することを示します。各交換モジュールの特徴的な形状は、それぞれ 2D 画像、BEV レベル、ボクセルレベルの特徴を表すアイコンで表されます。水色の領域はオプションのテンポラルフュージョンモジュールに対応しており、その使用は赤いスイッチのアクティブ化によって決まります。

図 4. 3D ボクセルレベルの表現処理とプラグインの置き換えのアーキテクチャの比較。

実験結果:

要約:

この論文では、高速かつメモリ効率の高い占有率予測を実現することを目的とした、FlashOCC と呼ばれるプラグアンドプレイアプローチを紹介します。これは、ボクセルベースの占有法における 3D 畳み込みを 2D 畳み込みに直接置き換え、チャネルから高さへの変換を組み合わせて、平坦化された BEV 特徴を占有ロジットに再形成します。 FlashOCC の有効性と汎用性は、さまざまなボクセルレベルの占有率予測方法で実証されています。広範囲にわたる実験により、このアプローチは、精度、時間消費、メモリ効率、および展開のしやすさの点で、従来の最先端の方法よりも優れていることが実証されています。私たちの知る限り、この論文は、サブピクセルパラダイム（チャネルから高さ）を占有タスクに適用した初めての論文であり、BEV レベルの特徴のみを活用し、計算 3D（変形可能）畳み込みやトランスフォーマーモジュールの使用を完全に回避しています。視覚化の結果は、FlashOcc が高さ情報を正常に保存していることを説得力を持って示しています。今後の研究では、効率的なオンチップ展開の実現を目指して、FlashOcc を自動運転の認識パイプラインに統合することを検討します。

引用：

Yu, Z., Shu, C., Deng, J., Lu, K., Liu, Z., Yu, J., Yang, D., Li, H., & Chen, Y. (2023). FlashOcc: チャネルから高さへのプラグインによる高速かつメモリ効率に優れた占有率予測。ArXiv. /abs/2311.12058

オリジナルリンク: https://mp.weixin.qq.com/s/JDPlWj8FnZffJZc9PIsvXQ

<<:

>>: