自動運転のためのマルチモーダルセンサーフュージョンのレビュー

2022年2月6日にarXivにアップロードされたレビュー論文「自動運転認識のためのマルチモーダルセンサーフュージョン：調査」の著者は、UCLA、上海AI研究所（pjlab）、北京理工大学（BIT？）、華東師範大学の研究者です。

マルチモーダル融合は、知覚ベースの自動運転システムにおける基本的なタスクであり、最近多くの研究者の関心を集めています。しかし、生データのノイズ、情報利用率の低さ、マルチモーダルセンサーの不整合などにより、十分に良好なパフォーマンスを達成することは容易ではありません。この論文では、マルチモーダル自動運転認識タスクの既存の方法に関する文献レビューを行います。カメラや LIDAR を含む 50 件以上の論文を分析し、物体検出とセマンティックセグメンテーションのタスクを解決します。従来の融合モデルの分類方法とは異なり、著者らは融合段階の観点からより合理的な分類方法によって融合モデルを 2 つの主要カテゴリと 4 つの副次カテゴリに分類します。さらに、現在の核融合アプローチが検討され、潜在的な研究機会が議論されます。最近、クロスモーダル特徴表現やより信頼性の高いモーダルセンサーから、より複雑で堅牢なマルチモーダル融合ディープラーニングモデルや技術まで、自動運転認識タスクのためのマルチモーダル融合方法が急速に発展しています。しかし、マルチモーダル融合手法そのものの方法論に焦点を当てた文献レビューはごくわずかであり、文献のほとんどは、データレベル、機能レベル、提案レベルを問わず、ディープラーニングモデルにおける機能の融合段階に焦点を当て、融合前、ディープ（機能）融合、融合後という3つのカテゴリーに分けるという従来のルールに従っています。まず、この分類法では、各レベルでの機能表現が明確に定義されていません。 2 番目に、LIDAR とカメラの 2 つのブランチの処理が常に対称的であり、LIDAR ブランチの提案レベルの特徴とカメラブランチのデータレベルの特徴の融合がわかりにくいことを示しています。要約すると、従来の分類は直感的かもしれませんが、最近登場したマルチモーダル融合方法の増加をまとめるには遅れており、研究者が体系的な観点からそれらを研究および分析することを妨げています。以下は自動運転認識タスクの概略図です。

ディープラーニングモデルは、入力の表現に制限されます。このモデルを実装するには、生データをモデルに入力する前に、複雑な特徴抽出器で前処理する必要があります。

画像ブランチに関しては、既存のほとんどのメソッドは、下流モジュールへの入力と同じ形式の生データを保持します。ただし、LiDAR ブランチはデータ形式に大きく依存しており、さまざまな特性が強調され、下流のモデル設計に大きな影響を与えます。したがって、ここでは、異種のディープラーニングモデルに対応するために、ポイントベース、ボクセルベース、および 2D マッピングベースのポイントクラウドデータ形式にまとめられています。

データレベルの融合または事前融合方法は、空間的な位置合わせを通じて、さまざまなモダリティからの生のセンサーデータを直接融合します。特徴レベルの融合またはディープ融合の手法では、連結または要素ごとの乗算を通じて、特徴空間内のクロスモーダルデータを混合します。ターゲットレベルの融合方式では、各モダリティモデルの予測結果を組み合わせて最終的な決定を下します。新しい分類方法では、すべての融合方法を強い融合と弱い融合に分類します。図は、2 つの関係を示しています。

パフォーマンス比較のため、KITTIベンチマークの3D検出と鳥瞰図オブジェクト検出。次の 2 つの表は、それぞれ BEV および 3D KITTI テストデータセットに対するマルチモーダル融合法の実験結果を示しています。

LIDAR とカメラのデータ表現のさまざまな組み合わせ段階に応じて、強力な融合は、フロント融合、ディープ融合、バック融合、非対称融合の 4 つのカテゴリに分類されます。最も研究されている核融合方法として、強核融合は近年多くの優れた成果を達成しています。

図に示すように、強力な融合の各サブクラスは、カメラデータではなく、LIDAR ポイントクラウドに大きく依存します。

融合前。データレベルの融合は、生データレベルでの空間的な位置合わせと投影を通じて、各モダリティのデータを直接融合する方法です。対照的に、事前融合は、データレベルで LIDAR データとデータレベルまたはフィーチャレベルでカメラデータを融合します。例を図に示します。

LIDAR ブランチでは、ポイントクラウドは、反射率マップ、ボクセル化されたテンソル、正面図/範囲図/鳥瞰図、疑似ポイントクラウドの形式になります。これらのデータはすべて固有の特性が異なり、LiDAR バックボーンとの関連性が高いですが、疑似ポイントクラウドを除いて、そのほとんどはルールベースの処理によって生成されます。さらに、この段階のデータは、特徴空間埋め込みと比較してまだ解釈可能であるため、これらすべての LIDAR データ表現は直感的で視覚的です。

画像分野では、厳密なデータレベルの定義には RGB やグレースケールなどのデータのみが含まれるべきであり、これでは普遍性と合理性が欠けています。従来のフロントフュージョンの定義と比較すると、カメラデータはデータレベルと機能レベルのデータに緩和されます。特に、3D オブジェクトの検出に有益な画像セマンティックセグメンテーションタスクの結果は、これらの「オブジェクトレベル」の特徴がタスク全体の最終的なオブジェクトレベルの提案とは異なるため、ここでは特徴レベルの表現として提示されます。深い統合。ディープフュージョン方式では、LIDAR ブランチの特徴レベルでクロスモーダルデータを融合しますが、画像ブランチのデータレベルと特徴レベルの両方で融合します。たとえば、いくつかの方法では、特徴抽出器を使用して、LIDAR ポイントクラウドとカメラ画像の埋め込み表現を個別に取得し、一連の下流モジュールを通じて両方のモダリティからの機能を融合します。ただし、他の強力な融合方法とは異なり、ディープフュージョンでは、生のセマンティック情報と高レベルのセマンティック情報の両方を活用するカスケード方式で機能を融合する場合があります。ディープフュージョンの例を図に示します。

融合後。ポスト融合はターゲットレベル融合とも呼ばれ、各モダリティのパイプラインの結果を融合する方法を指します。たとえば、一部のポストフュージョン方法では、LIDAR ポイントクラウドブランチとカメライメージブランチの出力を利用し、両方のモダリティの結果に基づいて最終的な予測を行います。両ブランチの提案のデータ形式は最終結果と同じになるはずですが、品質、量、精度が異なることに注意してください。ポストフュージョンは、マルチモーダル情報を使用して最終提案を最適化するアンサンブル手法です。以下は、融合後の例です。

非対称融合。早期融合、深層融合、後期融合に加えて、いくつかの方法では、異なる権限を持つクロスモーダルブランチを処理し、1 つのブランチのオブジェクトレベルの情報と他のブランチのデータレベルまたは機能レベルの情報を融合します。これは非対称融合として定義されます。強力な融合における他のアプローチでは、2 つのブランチを同等であるかのように扱いますが、非対称融合では、少なくとも 1 つのブランチが支配的になり、他のブランチは最終タスクを実行するための補助情報を提供します。この図は非対称融合の例です。同じ抽出された特徴に提案がある場合もありますが、非対称融合では 1 つのブランチからの提案が 1 つだけであるのに対し、後方融合ではすべてのブランチからの提案があります。

強い融合とは異なり、弱い融合方法では、ブランチからのデータ/機能/ターゲットを複数の方法で直接融合するのではなく、他の方法でデータを操作します。弱い融合に基づく方法では通常、ルールベースの方法を使用して、1 つのモダリティからのデータを他のモダリティの相互作用をガイドするための監視信号として利用します。図は弱い核融合モードの基本的な枠組みを示しています。

画像ブランチの CNN からの 2D 提案により、元の LIDAR ポイントクラウドに錐台が形成される可能性があります。ただし、画像特徴の組み合わせの非対称融合とは異なり、弱い融合では、選択された生の LiDAR ポイントクラウドを LiDAR バックボーンネットワークに直接入力して、最終的な提案を出力します。一部の作業は、上記のいずれかのタイプの融合として単純に定義することはできません。ディープ融合とポスト融合の組み合わせ、プレ融合とディープ融合の組み合わせなど、モデルフレームワーク全体で複数の融合方法が使用されます。これらの方法はモデル設計に冗長性があり、融合モジュールの主流ではありません。解決すべき問題についての分析がいくつかあります。

現在の融合モデルは、不整合と情報損失の問題を抱えています。さらに、フラット融合操作は、知覚タスクのパフォーマンスのさらなる向上を妨げます。要約すると:

位置ずれと情報損失: 従来のフロントフュージョン方式とディープフュージョン方式では、外部のキャリブレーションマトリックスを使用して、すべての LIDAR ポイントを対応するピクセルに直接投影し、その逆も行います。ただし、センサーのノイズにより、このピクセル単位の位置合わせは十分な精度ではありません。そのため、周囲の情報を補足として取り入れることで、より良いパフォーマンスを生み出すことができます。さらに、入力と特徴空間間の変換中に他のいくつかの情報が失われます。通常、次元削減操作の投影では、たとえば 3D LiDAR ポイントクラウドを 2D BEV 画像にマッピングするなど、必然的に大量の情報損失が発生します。 2 つのモーダルデータを、融合用に特別に設計された別の高次元表現にマッピングすると、元のデータを効果的に活用し、情報の損失を減らすことができます。
より合理的な融合操作: 連結や要素ごとの乗算などの単純な操作では、分布の差が大きいデータを融合できず、2 つのモダリティ間の意味のギャップを埋めることが困難になる可能性があります。いくつかの研究では、より複雑なカスケード構造を使用してデータを融合し、パフォーマンスを向上させようとしています。

正面図の単一フレーム画像は、自動運転の認識タスクの典型的なシーンです。しかし、ほとんどのフレームワークは限られた情報しか利用しておらず、運転シーンをさらに理解するための補助タスクを詳細に設計していません。要約すると:

より多くの潜在的な情報を採用する: 既存の方法では、多次元情報とソース情報を効果的に使用できません。それらのほとんどは、正面図の単一フレームのマルチモーダルデータに焦点を当てています。その他の意味のある情報には、意味情報、空間情報、シーンのコンテキスト情報が含まれます。一部のモデルでは、画像セマンティックセグメンテーションタスクの結果を追加機能として使用しようとしますが、他のモデルでは、ニューラルネットワークバックボーンの中間層からの機能を活用する場合があります。自動運転のシナリオでは、明示的なセマンティック情報を持つ多くの下流タスクにより、オブジェクト検出タスクのパフォーマンスが大幅に向上する可能性があります。たとえば、車線検出やセマンティックセグメンテーションなどです。したがって、将来の研究では、さまざまな下流タスク（車線、信号、標識の検出など）を通じて都市シーンの完全な認知フレームワークを共同で構築し、知覚タスクのパフォーマンスを支援することができます。さらに、現在の知覚タスクは主に、時間情報を無視した単一のフレームに依存しています。最近の LiDAR ベースの方法では、パフォーマンスを向上させるためにフレームシーケンスが組み込まれています。時系列情報にはシリアル化された監視信号が含まれており、単一フレーム方式と比較してより堅牢な結果を提供できます。
表現学習のための自己監督: 同じ現実世界のシーンから異なる視点でサンプリングされたクロスモーダルデータには、相互監督信号が自然に存在します。しかし、データの詳細な理解が不足しているため、さまざまなモダリティ間の相乗関係を探ることは現時点では不可能です。今後の研究では、事前トレーニング、微調整、対照学習など、自己教師あり学習にマルチモーダルデータを活用する方法に焦点を当てる可能性があります。これらの最先端のメカニズムを実装することで、融合モデルはデータをより深く理解し、より良い結果を達成できるようになります。

ドメイン偏差とデータ解像度は、実際のシナリオとセンサーに大きく依存します。これらの欠陥は、自動運転のためのディープラーニングモデルの大規模なトレーニングと実装を妨げます。

ドメインバイアス: 自動運転の認識シナリオでは、さまざまなセンサーによって抽出された生データに、ドメインに依存する特徴が伴います。さまざまなカメラシステムにはそれぞれ光学特性があり、LIDAR も機械式 LIDAR とソリッドステート LIDAR で異なります。さらに、データ自体が、天候、季節、地理的な場所など、ドメインによって偏っている可能性があります。その結果、検出モデルは新しいシナリオにスムーズに適応できなくなります。これらの欠陥により、一般化の失敗により、大規模なデータセットの収集と元のトレーニングデータの再利用が妨げられます。
解像度の競合: 異なるモダリティのセンサーは、多くの場合、解像度が異なります。たとえば、LIDAR の空間密度は画像の空間密度よりも大幅に低くなります。使用される投影方法に関係なく、対応が見つからないため、一部の情報は削除されます。これにより、特徴ベクトルの解像度が異なるか、生の情報が不均衡であるために、モデルが特定のモダリティのデータによって支配される可能性があります。

<<: ディープラーニング画像認識の未来：機会と課題が共存

>>: 「検索」は終わり、「レコメンド」も終わるのか？