自動運転のためのマルチモーダルセンサーフュージョンのレビュー

自動運転のためのマルチモーダルセンサーフュージョンのレビュー

2022年2月6日にarXivにアップロードされたレビュー論文「自動運転認識のためのマルチモーダルセンサーフュージョン:調査」の著者は、UCLA、上海AI研究所(pjlab)、北京理工大学(BIT?)、華東師範大学の研究者です。


マルチモーダル融合は、知覚ベースの自動運転システムにおける基本的なタスクであり、最近多くの研究者の関心を集めています。しかし、生データのノイズ、情報利用率の低さ、マルチモーダルセンサーの不整合などにより、十分に良好なパフォーマンスを達成することは容易ではありません。この論文では、マルチモーダル自動運転認識タスクの既存の方法に関する文献レビューを行います。カメラや LIDAR を含む 50 件以上の論文を分析し、物体検出とセマンティック セグメンテーションのタスクを解決します。従来の融合モデルの分類方法とは異なり、著者らは融合段階の観点からより合理的な分類方法によって融合モデルを 2 つの主要カテゴリと 4 つの副次カテゴリに分類します。さらに、現在の核融合アプローチが検討され、潜在的な研究機会が議論されます。最近、クロスモーダル特徴表現やより信頼性の高いモーダルセンサーから、より複雑で堅牢なマルチモーダル融合ディープラーニングモデルや技術まで、自動運転認識タスクのためのマルチモーダル融合方法が急速に発展しています。しかし、マルチモーダル融合手法そのものの方法論に焦点を当てた文献レビューはごくわずかであり、文献のほとんどは、データレベル、機能レベル、提案レベルを問わず、ディープラーニングモデルにおける機能の融合段階に焦点を当て、融合前、ディープ(機能)融合、融合後という3つのカテゴリーに分けるという従来のルールに従っています。まず、この分類法では、各レベルでの機能表現が明確に定義されていません。 2 番目に、LIDAR とカメラの 2 つのブランチの処理が常に対称的であり、LIDAR ブランチの提案レベルの特徴とカメラ ブランチのデータ レベルの特徴の融合がわかりにくいことを示しています。要約すると、従来の分類は直感的かもしれませんが、最近登場したマルチモーダル融合方法の増加をまとめるには遅れており、研究者が体系的な観点からそれらを研究および分析することを妨げています。以下は自動運転認識タスクの概略図です。


ディープラーニング モデルは、入力の表現に制限されます。このモデルを実装するには、生データをモデルに入力する前に、複雑な特徴抽出器で前処理する必要があります。

画像ブランチに関しては、既存のほとんどのメソッドは、下流モジュールへの入力と同じ形式の生データを保持します。ただし、LiDAR ブランチはデータ形式に大きく依存しており、さまざまな特性が強調され、下流のモデル設計に大きな影響を与えます。したがって、ここでは、異種のディープラーニング モデルに対応するために、ポイントベース、ボクセルベース、および 2D マッピング ベースのポイント クラウド データ形式にまとめられています。

データレベルの融合または事前融合方法は、空間的な位置合わせを通じて、さまざまなモダリティからの生のセンサーデータを直接融合します。特徴レベルの融合またはディープ融合の手法では、連結または要素ごとの乗算を通じて、特徴空間内のクロスモーダル データを混合します。ターゲットレベルの融合方式では、各モダリティ モデルの予測結果を組み合わせて最終的な決定を下します。新しい分類方法では、すべての融合方法を強い融合と弱い融合に分類します。図は、2 つの関係を示しています。


パフォーマンス比較のため、KITTIベンチマークの3D検出と鳥瞰図オブジェクト検出。次の 2 つの表は、それぞれ BEV および 3D KITTI テスト データセットに対するマルチモーダル融合法の実験結果を示しています。


LIDAR とカメラのデータ表現のさまざまな組み合わせ段階に応じて、強力な融合は、フロント融合、ディープ融合、バック融合、非対称融合の 4 つのカテゴリに分類されます。最も研究されている核融合方法として、強核融合は近年多くの優れた成果を達成しています。

図に示すように、強力な融合の各サブクラスは、カメラ データではなく、LIDAR ポイント クラウドに大きく依存します。

融合前。データレベルの融合は、生データ レベルでの空間的な位置合わせと投影を通じて、各モダリティのデータを直接融合する方法です。対照的に、事前融合は、データ レベルで LIDAR データとデータ レベルまたはフィーチャ レベルでカメラ データを融合します。例を図に示します。

LIDAR ブランチでは、ポイント クラウドは、反射率マップ、ボクセル化されたテンソル、正面図/範囲図/鳥瞰図、疑似ポイント クラウドの形式になります。これらのデータはすべて固有の特性が異なり、LiDAR バックボーンとの関連性が高いですが、疑似ポイント クラウドを除いて、そのほとんどはルールベースの処理によって生成されます。さらに、この段階のデータは、特徴空間埋め込みと比較してまだ解釈可能であるため、これらすべての LIDAR データ表現は直感的で視覚的です。

画像分野では、厳密なデータレベルの定義には RGB やグレースケールなどのデータのみが含まれるべきであり、これでは普遍性と合理性が欠けています。従来のフロント フュージョンの定義と比較すると、カメラ データはデータ レベルと機能レベルのデータに緩和されます。特に、3D オブジェクトの検出に有益な画像セマンティック セグメンテーション タスクの結果は、これらの「オブジェクト レベル」の特徴がタスク全体の最終的なオブジェクト レベルの提案とは異なるため、ここでは特徴レベルの表現として提示されます。深い統合。ディープ フュージョン方式では、LIDAR ブランチの特徴レベルでクロスモーダル データを融合しますが、画像ブランチのデータ レベルと特徴レベルの両方で融合します。たとえば、いくつかの方法では、特徴抽出器を使用して、LIDAR ポイント クラウドとカメラ画像の埋め込み表現を個別に取得し、一連の下流モジュールを通じて両方のモダリティからの機能を融合します。ただし、他の強力な融合方法とは異なり、ディープ フュージョンでは、生のセマンティック情報と高レベルのセマンティック情報の両方を活用するカスケード方式で機能を融合する場合があります。ディープフュージョンの例を図に示します。

融合後。ポスト融合はターゲット レベル融合とも呼ばれ、各モダリティのパイプラインの結果を融合する方法を指します。たとえば、一部のポストフュージョン方法では、LIDAR ポイント クラウド ブランチとカメラ イメージ ブランチの出力を利用し、両方のモダリティの結果に基づいて最終的な予測を行います。両ブランチの提案のデータ形式は最終結果と同じになるはずですが、品質、量、精度が異なることに注意してください。ポストフュージョンは、マルチモーダル情報を使用して最終提案を最適化するアンサンブル手法です。以下は、融合後の例です。

非対称融合。早期融合、深層融合、後期融合に加えて、いくつかの方法では、異なる権限を持つクロスモーダル ブランチを処理し、1 つのブランチのオブジェクト レベルの情報と他のブランチのデータ レベルまたは機能レベルの情報を融合します。これは非対称融合として定義されます。強力な融合における他のアプローチでは、2 つのブランチを同等であるかのように扱いますが、非対称融合では、少なくとも 1 つのブランチが支配的になり、他のブランチは最終タスクを実行するための補助情報を提供します。この図は非対称融合の例です。同じ抽出された特徴に提案がある場合もありますが、非対称融合では 1 つのブランチからの提案が 1 つだけであるのに対し、後方融合ではすべてのブランチからの提案があります。

強い融合とは異なり、弱い融合方法では、ブランチからのデータ/機能/ターゲットを複数の方法で直接融合するのではなく、他の方法でデータを操作します。弱い融合に基づく方法では通常、ルールベースの方法を使用して、1 つのモダリティからのデータを他のモダリティの相互作用をガイドするための監視信号として利用します。図は弱い核融合モードの基本的な枠組みを示しています。

画像ブランチの CNN からの 2D 提案により、元の LIDAR ポイント クラウドに錐台が形成される可能性があります。ただし、画像特徴の組み合わせの非対称融合とは異なり、弱い融合では、選択された生の LiDAR ポイント クラウドを LiDAR バックボーン ネットワークに直接入力して、最終的な提案を出力します。一部の作業は、上記のいずれかのタイプの融合として単純に定義することはできません。ディープ融合とポスト融合の組み合わせ、プレ融合とディープ融合の組み合わせなど、モデルフレームワーク全体で複数の融合方法が使用されます。これらの方法はモデル設計に冗長性があり、融合モジュールの主流ではありません。解決すべき問題についての分析がいくつかあります。

現在の融合モデルは、不整合と情報損失の問題を抱えています。さらに、フラット融合操作は、知覚タスクのパフォーマンスのさらなる向上を妨げます。要約すると:

  • 位置ずれと情報損失: 従来のフロント フュージョン方式とディープ フュージョン方式では、外部のキャリブレーション マトリックスを使用して、すべての LIDAR ポイントを対応するピクセルに直接投影し、その逆も行います。ただし、センサーのノイズにより、このピクセル単位の位置合わせは十分な精度ではありません。そのため、周囲の情報を補足として取り入れることで、より良いパフォーマンスを生み出すことができます。さらに、入力と特徴空間間の変換中に他のいくつかの情報が失われます。通常、次元削減操作の投影では、たとえば 3D LiDAR ポイント クラウドを 2D BEV 画像にマッピングするなど、必然的に大量の情報損失が発生します。 2 つのモーダル データを、融合用に特別に設計された別の高次元表現にマッピングすると、元のデータを効果的に活用し、情報の損失を減らすことができます。
  • より合理的な融合操作: 連結や要素ごとの乗算などの単純な操作では、分布の差が大きいデータを融合できず、2 つのモダリティ間の意味のギャップを埋めることが困難になる可能性があります。いくつかの研究では、より複雑なカスケード構造を使用してデータを融合し、パフォーマンスを向上させようとしています。

正面図の単一フレーム画像は、自動運転の認識タスクの典型的なシーンです。しかし、ほとんどのフレームワークは限られた情報しか利用しておらず、運転シーンをさらに理解するための補助タスクを詳細に設計していません。要約すると:

  • より多くの潜在的な情報を採用する: 既存の方法では、多次元情報とソース情報を効果的に使用できません。それらのほとんどは、正面図の単一フレームのマルチモーダル データに焦点を当てています。その他の意味のある情報には、意味情報、空間情報、シーンのコンテキスト情報が含まれます。一部のモデルでは、画像セマンティックセグメンテーションタスクの結果を追加機能として使用しようとしますが、他のモデルでは、ニューラルネットワークバックボーンの中間層からの機能を活用する場合があります。自動運転のシナリオでは、明示的なセマンティック情報を持つ多くの下流タスクにより、オブジェクト検出タスクのパフォーマンスが大幅に向上する可能性があります。たとえば、車線検出やセマンティックセグメンテーションなどです。したがって、将来の研究では、さまざまな下流タスク(車線、信号、標識の検出など)を通じて都市シーンの完全な認知フレームワークを共同で構築し、知覚タスクのパフォーマンスを支援することができます。さらに、現在の知覚タスクは主に、時間情報を無視した単一のフレームに依存しています。最近の LiDAR ベースの方法では、パフォーマンスを向上させるためにフレーム シーケンスが組み込まれています。時系列情報にはシリアル化された監視信号が含まれており、単一フレーム方式と比較してより堅牢な結果を提供できます。
  • 表現学習のための自己監督: 同じ現実世界のシーンから異なる視点でサンプリングされたクロスモーダル データには、相互監督信号が自然に存在します。しかし、データの詳細な理解が不足しているため、さまざまなモダリティ間の相乗関係を探ることは現時点では不可能です。今後の研究では、事前トレーニング、微調整、対照学習など、自己教師あり学習にマルチモーダル データを活用する方法に焦点を当てる可能性があります。これらの最先端のメカニズムを実装することで、融合モデルはデータをより深く理解し、より良い結果を達成できるようになります。

ドメイン偏差とデータ解像度は、実際のシナリオとセンサーに大きく依存します。これらの欠陥は、自動運転のためのディープラーニングモデルの大規模なトレーニングと実装を妨げます。

  • ドメインバイアス: 自動運転の認識シナリオでは、さまざまなセンサーによって抽出された生データに、ドメインに依存する特徴が伴います。さまざまなカメラ システムにはそれぞれ光学特性があり、LIDAR も機械式 LIDAR とソリッド ステート LIDAR で異なります。さらに、データ自体が、天候、季節、地理的な場所など、ドメインによって偏っている可能性があります。その結果、検出モデルは新しいシナリオにスムーズに適応できなくなります。これらの欠陥により、一般化の失敗により、大規模なデータセットの収集と元のトレーニング データの再利用が妨げられます。
  • 解像度の競合: 異なるモダリティのセンサーは、多くの場合、解像度が異なります。たとえば、LIDAR の空間密度は画像の空間密度よりも大幅に低くなります。使用される投影方法に関係なく、対応が見つからないため、一部の情報は削除されます。これにより、特徴ベクトルの解像度が異なるか、生の情報が不均衡であるために、モデルが特定のモダリティのデータによって支配される可能性があります。

<<:  ディープラーニング画像認識の未来:機会と課題が共存

>>:  「検索」は終わり、「レコメンド」も終わるのか?

ブログ    

推薦する

人工知能はスポーツや芸術教育における革新的な発展をどのように促進できるのでしょうか?

[[407981]]著者テンセント研究所の上級研究員、周丹氏趙雲傑 テンセント研究所 研究助手20...

ビッグニュース! Googleが突然発表!百度と滴滴出行は混同されている

21 金融ニュースは、日刊金融ニュース (ncjs111)、網易科技、創業報 (ichuangye...

...

人工知能の時代において、あなたの子供は15年後にどんな職業に就くことができるでしょうか?

12年後の2030年、現在の小中学生が就職を控える頃の世界は、1.現在の職業の多くが消滅し、2.2...

PaaS でフェイルオーバー アルゴリズムを作成する際に避けるべき 3 つの落とし穴

[[125412]]クラウド サービスの停止が発生すると、通常はフェイルオーバー メカニズムがアクテ...

研究AI面接に合格するには? RedditユーザーがGoogleの面接体験を語る

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

シンプルで効率的なアルゴリズムが衛星IoTを現実に近づける

背景モノのインターネット (IoT) の継続的な発展は、ここ数年にわたって現実のものとなってきました...

「顔認識」時代の準備はできていますか?

[51CTO.comからのオリジナル記事] 近年、生体認証技術はますます成熟し、私たちの生活の中に...

マーケティングにおける AI についての考え方を変える 10 のグラフ

Adobe の最新の Digital Intelligence Briefing によると、トップク...

...

...

2024年までのAI中心企業の成長に関する11のデータ予測

1. リレーショナルデータはSQLから分離される最新のエッジ コンピューティング、IoT、GenAI...

将来的には映画の吹き替えにも人工知能が使われるようになるのでしょうか?

英国人映画監督が人工知能(AI)を使って外国映画の鑑賞方法に革命をもたらそうとしている。俳優の顔をデ...

機械学習がサプライチェーン管理を変える10の方法

[[431487]]サプライチェーン管理で機械学習を使用すると、日常的なタスクを自動化できるため、企...