自動運転におけるマルチモーダル融合認識アルゴリズムを説明する記事

自動運転におけるマルチモーダル融合認識アルゴリズムを説明する記事

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

1 はじめに

マルチモーダル センサー フュージョンは、情報の補完性、安定性、安全性を意味し、長い間、自動運転の認識において重要な役割を果たしてきました。しかし、不十分な情報の利用、生データのノイズ、センサー間の不整合 (非同期タイムスタンプなど) により、融合パフォーマンスは制限されます。この論文では、LiDAR やカメラを含む既存のマルチモーダル自動運転認識アルゴリズムを包括的に調査し、ターゲット検出とセマンティックセグメンテーションに焦点を当て、50 件を超える論文を分析しています。本論文では、従来の融合アルゴリズムの分類方法とは異なり、異なる融合段階に基づいてこの分野を 2 つの主要カテゴリと 4 つのサブカテゴリに分類します。さらに、本論文では、この分野における現在の問題を分析し、将来の研究の方向性に関する参考資料を提供します。

2 なぜマルチモダリティが必要なのか?

これは、単一モード知覚アルゴリズムに固有の欠陥があるためです。たとえば、LiDAR は通常、カメラよりも高い位置に設置されます。実際の複雑な運転シナリオでは、前方カメラでは物体が隠れてしまうことがあります。このような場合、LiDAR を使用して、見えなくなったターゲットを捕捉することができます。しかし、LiDAR は機械構造上の制限により、距離によって解像度が異なり、大雨などの極端な気象条件の影響を受けやすいという問題があります。両方のセンサーは個別にも優れた性能を発揮しますが、将来的には、LiDAR とカメラからの補完的な情報により、自動運転が認識レベルでより安全になります。

最近、自動運転のためのマルチモーダル認識アルゴリズムは、クロスモーダル特徴表現、より信頼性の高いモーダルセンサー、より複雑で安定したマルチモーダル融合アルゴリズムやテクノロジーに至るまで、大きな進歩を遂げています。しかし、マルチモーダル融合の方法論そのものに焦点を当てたレビューはごくわずか[15, 81]であり、文献のほとんどは、データレベル、特徴レベル、提案レベルなど、アルゴリズムにおける特徴融合の段階に焦点を当て、事前融合、深層(特徴)融合、事後融合の3つのカテゴリーに分けられる従来の分類規則に従っています。この分類ルールには 2 つの問題があります。1 つ目は、各レベルの特徴表現が明確に定義されていないことです。2 つ目は、LiDAR とカメラの 2 つのブランチを対称的な観点から扱うため、LiDAR ブランチでのレベルレベルの特徴融合とカメラ ブランチでのデータレベルの特徴融合の状況が曖昧になることです。要約すると、従来の分類方法は直感的ではあるものの、現在のマルチモーダル融合アルゴリズムの開発にはもはや適用できず、研究者が体系的な観点から研究や分析を行うことをある程度妨げています。

3 ミッションと公開コンテスト

一般的な認識タスクには、オブジェクトの検出、セマンティックセグメンテーション、深度の補完と予測などがあります。この論文では、障害物、信号、交通標識の検出、車線と自由空間のセグメンテーションなどの検出とセグメンテーションに焦点を当てています。自動運転の認識タスクを下図に示します。

よく使われる公開データセットとしては、KITTI、Waymo、nuScenes などがあります。下図は、自動運転の認識に関するデータセットとその特徴をまとめたものです。

4つの融合方法

マルチモーダル融合は、データ表現の形式と切り離せません。画像ブランチのデータ表現は比較的単純で、一般的には RGB 形式またはグレースケール画像を指しますが、LIDAR ブランチはデータ形式に大きく依存します。データ形式が異なると、下流のモデル設計も完全に異なります。要約すると、ポイントベース、ボクセルベース、2 次元マッピングベースのポイント クラウド表現の 3 つの主要な方向が含まれます。

従来の分類方法では、マルチモーダル融合を次の 3 つのタイプに分類します。

  1. 事前融合(データレベルの融合)とは、空間的な位置合わせを通じて、異なるモダリティの生のセンサーデータを直接融合することを指します。
  2. ディープ フュージョン (特徴レベルのフュージョン) とは、連結または要素ごとの乗算を通じて特徴空間内のクロスモーダル データを融合することを指します。
  3. ポストフュージョン(ターゲットレベルのフュージョン)とは、各モーダルモデルの予測結果を融合して最終的な決定を下すことを指します。

本稿では、下図に示す分類方法を採用しています。一般的には、強い融合と弱い融合に分けられます。強い融合はさらに、前方融合、深部融合、非対称融合、後部融合に分けられます。

この記事では、KITTI の 3D 検出タスクと BEV 検出タスクを使用して、さまざまなマルチモーダル融合アルゴリズムのパフォーマンスを比較します。次の図は、BEV 検出テスト セットの結果を示しています。

次の図は、3D 検出テスト セットの結果を示しています。

5つの強力な融合

この論文では、LIDAR とカメラのデータ表現のさまざまな組み合わせ段階に応じて、強力な融合をフロント融合、ディープ融合、非対称融合、およびポスト融合に細分化します。上の図に示すように、強力な融合の各サブモジュールは、カメラ データではなく、LIDAR ポイント クラウドに大きく依存しています。

融合前

生データレベルでの空間的な位置合わせと投影を通じて各モダリティのデータを直接融合する方法であるデータレベル融合の従来の定義とは異なり、早期融合では、LiDAR データとカメラ データをデータ レベルまたは機能レベルで融合します。初期融合の例として、図 4 のモデルが挙げられます。

従来の分類方法で定義されるフロントフュージョンとは異なり、本論文で定義されるフロントフュージョンは、生データレベルでの空間的な位置合わせと投影を通じて各モダリティのデータを直接融合する方法を指します。データレベルでのフロントフュージョンとは、データレベルまたは特徴レベルでのライダーデータの融合と画像データの融合を指します。概略図は次のとおりです。

LiDAR 分野では、ポイント クラウドには、反射率マップ、ボクセル化されたテンソル、正面図/範囲図/BEV 図、疑似ポイント クラウドなど、さまざまな表現形式があります。これらのデータは、異なるバックボーンネットワークと組み合わせると異なる固有の特性を持ちますが、疑似ポイントクラウド[79]を除いて、ほとんどのデータは特定のルールに従って生成されます。さらに、特徴空間埋め込みと比較して、これらの LiDAR データは解釈性が高く、直接視覚化できます。

画像分野では、データ レベルの厳密な定義は RGB またはグレースケールである必要がありますが、この定義には普遍性と合理性が欠けています。したがって、本論文では、融合前段階における画像データのデータレベルの定義を拡張し、データレベルと特徴レベルのデータを含めます。この論文では、セマンティックセグメンテーションの予測結果を一種のフロントフュージョン(画像特徴レベル)として扱っていることにも言及する価値があります。1つは、3Dターゲット検出に有益であるためであり、もう1つは、セマンティックセグメンテーションの「ターゲットレベル」の特徴が、タスク全体の最終的なターゲットレベルの提案とは異なるためです。

ディープフュージョン

ディープ フュージョンは、フィーチャ レベル フュージョンとも呼ばれ、LIDAR ブランチではフィーチャ レベルで、画像ブランチではデータセットとフィーチャ レベルでマルチモーダル データをフュージョンすることを指します。たとえば、いくつかの方法では、特徴リフティングを使用して、それぞれ LiDAR ポイント クラウドと画像の埋め込み表現を取得し、一連の下流モジュールを通じて 2 つのモダリティの特徴を融合します。ただし、他の強力な融合とは異なり、ディープ フュージョンでは、元の情報と高レベルの意味情報の両方を活用しながら、カスケード方式で機能を融合する場合があります。概略図は以下のとおりです。

融合後

ポスト融合はターゲット レベルの融合とも呼ばれ、複数のモダリティの予測結果 (または提案) の融合を指します。例えば、いくつかのポストフュージョン法では、LiDAR点群と画像の出力をフュージョンに利用します[55]。 2 つの部門の提案のデータ形式は最終結果と一致している必要がありますが、品質、量、精度には一定の違いがあります。ポストフュージョンは、マルチモーダル情報を使用して最終提案を最適化する統合的な方法と見ることができます。概略図を以下に示します。

非対称融合

最後のタイプの強力な融合は非対称融合であり、これは 1 つのブランチのターゲット レベルの情報と他のブランチのデータ レベルまたは機能レベルの情報の融合を指します。上記の 3 つの融合方法は、マルチモダリティの各ブランチを平等に扱いますが、非対称融合では、少なくとも 1 つのブランチが支配的な位置を占め、他のブランチは最終結果を予測するための補助情報を提供することを強調します。下の図は非対称融合の概略図です。提案段階では、非対称融合には 1 つのブランチの提案しかありませんが、融合後はすべてのブランチの提案になります。

6 弱い融合

強い融合との違いは、弱い融合法ではマルチモーダルブランチからのデータ、特徴、またはターゲットを直接融合するのではなく、他の形式でデータを処理することです。下の図は、弱い融合アルゴリズムの基本的なフレームワークを示しています。弱い融合ベースの方法では通常、ルールベースの方法を使用して、あるモダリティのデータを別のモダリティの相互作用をガイドするための監視信号として利用します。たとえば、画像ブランチの CNN からの 2D 提案により、元の LiDAR ポイント クラウドが切り捨てられる可能性がありますが、弱い融合により、元の LiDAR ポイント クラウドが LiDAR バックボーンに直接入力され、最終的な提案が出力されます。

7 その他の統合方法

モデル設計の枠組みの中で複数の融合手法を使用しているため、上記のいずれのパラダイムにも属さない研究もいくつかあります。たとえば、[39]はディープフュージョンとポストフュージョンを組み合わせ、[77]はプレフュージョンを組み合わせています。これらの方法は、融合アルゴリズム設計の主流の方法ではなく、この記事では他の融合方法としてまとめて分類されています。

8 マルチモーダル融合の機会

近年、自動運転認識タスクのためのマルチモーダル融合手法は、より高度な特徴表現からより複雑なディープラーニングモデルまで、急速に進歩しました。しかし、まだ解決すべき問題がいくつか残っており、本稿では、今後の改善の方向性として考えられるいくつかの点を以下のようにまとめています。

より高度な融合方法

現在の融合モデルは、不整合と情報損失の問題を抱えている[13、67、98]。さらに、フラット融合操作は、知覚タスクのパフォーマンスのさらなる向上を妨げます。要約すると:

  1. 位置ずれと情報損失: カメラと LiDAR の内部と外部の外観は大きく異なるため、2 つのモダリティのデータを位置合わせする必要があります。従来のフロント フュージョン方式とディープ フュージョン方式では、キャリブレーション情報を活用して、すべての LiDAR ポイントをカメラ座標系に直接投影し、その逆も行います。ただし、設置位置とセンサーのノイズにより、このピクセル単位の位置合わせは十分な精度ではありません。そのため、周囲の情報を活用して補完し、より良いパフォーマンスを得る作品もあります。さらに、入力と特徴空間間の変換中に他のいくつかの情報が失われます。通常、次元削減操作の投影では、3D LiDAR ポイント クラウドを 2D BEV 画像にマッピングするときに高さ情報が失われるなど、必然的に多くの情報損失が発生します。そのため、マルチモーダルデータを融合専用に設計された別の高次元空間にマッピングし、元のデータを有効に活用して情報損失を減らすことが考えられます。
  2. より合理的な融合操作: 現在の多くの方法では、融合にカスケードまたは要素ごとの乗算が使用されます。これらの単純な操作では、分布の差が大きいデータを融合できない場合があり、2 つのモダリティ間の意味関係を適合させることが困難になります。いくつかの研究では、より複雑なカスケード構造を使用してデータを融合し、パフォーマンスを向上させようとしています。今後の研究では、双線形マッピングなどのメカニズムによって異なる特性を持つ機能を融合することができ、これも検討できる方向性です。

複数の情報源からの情報を活用する

前方を向いた単一フレーム画像は、自動運転の認識タスクの典型的なシーンです。しかし、ほとんどのフレームワークは限られた情報しか利用できず、運転シーンの理解を容易にするための補助タスクを詳細に設計していません。要約すると:

  1. より多くの潜在的な情報を活用する: 既存の方法では、複数の次元とソースからの情報を効果的に活用することができません。それらのほとんどは、正面図の単一フレームのマルチモーダル データに焦点を当てています。その結果、意味情報、空間情報、シーンのコンテキスト情報など、他の意味のあるデータが十分に活用されなくなります。いくつかの研究では、セマンティックセグメンテーションの結果を補助タスクとして使用しようとしていますが、他のモデルでは、CNN バックボーンの中間層機能を活用する可能性があります。自動運転のシナリオでは、明示的なセマンティック情報を持つ多くの下流タスクにより、車線、信号、交通標識の検出など、オブジェクト検出のパフォーマンスが大幅に向上する可能性があります。将来の研究では、下流のタスクを組み合わせて、都市のシーンの完全な意味理解フレームワークを共同で構築し、認識パフォーマンスを向上させることができます。さらに[63]はフレーム間情報を組み合わせ、性能を向上させた。時系列情報にはシリアル化された監視信号が含まれており、単一フレーム方式と比較してより安定した結果を提供できます。したがって、今後の研究では、パフォーマンスの飛躍的向上を実現するために、時間的、文脈的、空間的な情報のより詳細な活用を検討することができます。
  2. 自己教師あり表現学習: 同じ現実世界のシーンから異なる視点でサンプリングされたクロスモーダル データには、相互教師信号が自然に存在します。しかし、データに対する深い理解が不足しているため、現在の方法ではさまざまなモダリティ間の関係性を調査することができません。今後の研究では、事前トレーニング、微調整、対照学習など、自己教師あり学習にマルチモーダル データを活用する方法に焦点を当てることができます。これらの最先端のメカニズムを通じて、融合アルゴリズムはモデルのデータ理解を深め、より優れたパフォーマンスを実現します。

センサー固有の問題

ドメイン偏差と解像度は、現実世界のシナリオとセンサーに大きく依存します。これらの欠陥は、自動運転のためのディープラーニング モデルの大規模なトレーニングとリアルタイムのパフォーマンスを妨げます。

  1. ドメインバイアス: 自動運転の認識シナリオでは、さまざまなセンサーによって抽出された生データに、重大なドメイン関連の特性が伴います。カメラによって光学特性は異なり、LiDAR も機械構造からソリッドステート構造までさまざまです。さらに、同じセンサーで取得されたデータであっても、データ自体には天候、季節、地理的位置などのドメインバイアスが含まれる場合があります。これは検出モデルの一般化に影響し、新しいシナリオに効果的に適応できなくなります。このような欠陥は、大規模なデータセットの収集と元のトレーニング データの再利用を妨げます。したがって、今後の作業では、ドメインバイアスを排除し、さまざまなデータソースを適応的に統合する方法を見つけることに重点を置くことができます。
  2. 解像度の競合: 通常、センサーによって解像度は異なります。たとえば、LiDAR の空間密度は画像の空間密度よりも大幅に低くなります。どのような投影方法を使用しても、対応する関係が見つからないため、情報の損失が発生します。これにより、特徴ベクトルの解像度が異なるか、生の情報が不均衡であるために、モデルが特定のモダリティのデータによって支配される可能性があります。したがって、将来の研究では、異なる空間解像度のセンサーと互換性のある新しいデータ表現システムを探求できる可能性があります。

9 参考文献

[1] https://zhuanlan.zhihu.com/p/470588787
[2] 自動運転認識のためのマルチモーダルセンサーフュージョン:調査

オリジナルリンク: https://mp.weixin.qq.com/s/usAQRL18vww9YwMXRvEwLw

<<: 

>>:  実践的な NLP 問題: LSTM (RNN) と Transformer モデルに基づく

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

人工知能シンギュラリティと人類の未来

「シンギュラリティ」は、人工知能(AI)の将来展望とその社会的影響を説明する重要な概念です。 AIの...

世界初、常温量子コンピュータが実用化!絶対零度の温度は必要ありません。メインコアには実際に「ダイヤモンドがセットされています」

量子コンピューティングは、おそらく現在最もエキサイティングな(そして話題になっている)研究分野の 1...

これら 5 つのオープンソース ソフトウェアを使用すると、音声からテキストへの変換が簡単になります。

音声テキスト変換(STT)システムは、話した言葉をテキストに変換できる方法です。私たちがよく使うWe...

AIガバナンスとは何か、どのように、そしてなぜ生まれるのか

AI は登場以来、タスクの自動化や業務の効率化、より優れたテクノロジーの構築、エンドユーザー エクス...

...

道路が車両を制御することが自動運転の新たな方向性となるのでしょうか?

自動運転技術は、人工知能、ビジュアルコンピューティング、レーダー、監視デバイス、全地球測位システムを...

アメリカン・エキスプレスはAIを活用して不正行為を検出し、セキュリティを強化

アメリカン・エキスプレスは長年にわたり、人工知能と認知技術のリーダーとして活躍してきました。大規模で...

Nvidia 3090が180億パラメータの大規模モデルに単独で挑む。今度は国内オープンソースプロジェクトが大暴れ

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

一流の科学者はどうやって AI を習得するのでしょうか? DeepSpeed4Science: 高度な AI システム最適化技術を使用して科学的発見を可能にする

今後 10 年間で、ディープラーニングは自然科学に革命をもたらし、自然現象をモデル化して予測する能力...

...

スマートサーマルイメージングカメラは屋外セキュリティソリューションの第一選択肢となる

スマートサーマルイメージングカメラは、屋外の資産を保護するための侵入者検知ソリューションとして急速に...

ChatGPT は IT ネットワーク エンジニアの代わりになるのでしょうか?

現代の IT ネットワークは、ファイアウォール、ルーター、スイッチ、サーバー、ワークステーション、そ...

トイレに座ってアルゴリズムを見る: クイックソート

高速かつ経済的なソートアルゴリズムスペースを無駄にせず、より高速なソートアルゴリズムはありますか?そ...