この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。 1 はじめにマルチモーダル センサー フュージョンは、情報の補完性、安定性、安全性を意味し、長い間、自動運転の認識において重要な役割を果たしてきました。しかし、不十分な情報の利用、生データのノイズ、センサー間の不整合 (非同期タイムスタンプなど) により、融合パフォーマンスは制限されます。この論文では、LiDAR やカメラを含む既存のマルチモーダル自動運転認識アルゴリズムを包括的に調査し、ターゲット検出とセマンティックセグメンテーションに焦点を当て、50 件を超える論文を分析しています。本論文では、従来の融合アルゴリズムの分類方法とは異なり、異なる融合段階に基づいてこの分野を 2 つの主要カテゴリと 4 つのサブカテゴリに分類します。さらに、本論文では、この分野における現在の問題を分析し、将来の研究の方向性に関する参考資料を提供します。 2 なぜマルチモダリティが必要なのか?これは、単一モード知覚アルゴリズムに固有の欠陥があるためです。たとえば、LiDAR は通常、カメラよりも高い位置に設置されます。実際の複雑な運転シナリオでは、前方カメラでは物体が隠れてしまうことがあります。このような場合、LiDAR を使用して、見えなくなったターゲットを捕捉することができます。しかし、LiDAR は機械構造上の制限により、距離によって解像度が異なり、大雨などの極端な気象条件の影響を受けやすいという問題があります。両方のセンサーは個別にも優れた性能を発揮しますが、将来的には、LiDAR とカメラからの補完的な情報により、自動運転が認識レベルでより安全になります。 最近、自動運転のためのマルチモーダル認識アルゴリズムは、クロスモーダル特徴表現、より信頼性の高いモーダルセンサー、より複雑で安定したマルチモーダル融合アルゴリズムやテクノロジーに至るまで、大きな進歩を遂げています。しかし、マルチモーダル融合の方法論そのものに焦点を当てたレビューはごくわずか[15, 81]であり、文献のほとんどは、データレベル、特徴レベル、提案レベルなど、アルゴリズムにおける特徴融合の段階に焦点を当て、事前融合、深層(特徴)融合、事後融合の3つのカテゴリーに分けられる従来の分類規則に従っています。この分類ルールには 2 つの問題があります。1 つ目は、各レベルの特徴表現が明確に定義されていないことです。2 つ目は、LiDAR とカメラの 2 つのブランチを対称的な観点から扱うため、LiDAR ブランチでのレベルレベルの特徴融合とカメラ ブランチでのデータレベルの特徴融合の状況が曖昧になることです。要約すると、従来の分類方法は直感的ではあるものの、現在のマルチモーダル融合アルゴリズムの開発にはもはや適用できず、研究者が体系的な観点から研究や分析を行うことをある程度妨げています。 3 ミッションと公開コンテスト一般的な認識タスクには、オブジェクトの検出、セマンティックセグメンテーション、深度の補完と予測などがあります。この論文では、障害物、信号、交通標識の検出、車線と自由空間のセグメンテーションなどの検出とセグメンテーションに焦点を当てています。自動運転の認識タスクを下図に示します。 よく使われる公開データセットとしては、KITTI、Waymo、nuScenes などがあります。下図は、自動運転の認識に関するデータセットとその特徴をまとめたものです。 4つの融合方法マルチモーダル融合は、データ表現の形式と切り離せません。画像ブランチのデータ表現は比較的単純で、一般的には RGB 形式またはグレースケール画像を指しますが、LIDAR ブランチはデータ形式に大きく依存します。データ形式が異なると、下流のモデル設計も完全に異なります。要約すると、ポイントベース、ボクセルベース、2 次元マッピングベースのポイント クラウド表現の 3 つの主要な方向が含まれます。 従来の分類方法では、マルチモーダル融合を次の 3 つのタイプに分類します。
本稿では、下図に示す分類方法を採用しています。一般的には、強い融合と弱い融合に分けられます。強い融合はさらに、前方融合、深部融合、非対称融合、後部融合に分けられます。 この記事では、KITTI の 3D 検出タスクと BEV 検出タスクを使用して、さまざまなマルチモーダル融合アルゴリズムのパフォーマンスを比較します。次の図は、BEV 検出テスト セットの結果を示しています。 次の図は、3D 検出テスト セットの結果を示しています。 5つの強力な融合この論文では、LIDAR とカメラのデータ表現のさまざまな組み合わせ段階に応じて、強力な融合をフロント融合、ディープ融合、非対称融合、およびポスト融合に細分化します。上の図に示すように、強力な融合の各サブモジュールは、カメラ データではなく、LIDAR ポイント クラウドに大きく依存しています。 融合前生データレベルでの空間的な位置合わせと投影を通じて各モダリティのデータを直接融合する方法であるデータレベル融合の従来の定義とは異なり、早期融合では、LiDAR データとカメラ データをデータ レベルまたは機能レベルで融合します。初期融合の例として、図 4 のモデルが挙げられます。 従来の分類方法で定義されるフロントフュージョンとは異なり、本論文で定義されるフロントフュージョンは、生データレベルでの空間的な位置合わせと投影を通じて各モダリティのデータを直接融合する方法を指します。データレベルでのフロントフュージョンとは、データレベルまたは特徴レベルでのライダーデータの融合と画像データの融合を指します。概略図は次のとおりです。 LiDAR 分野では、ポイント クラウドには、反射率マップ、ボクセル化されたテンソル、正面図/範囲図/BEV 図、疑似ポイント クラウドなど、さまざまな表現形式があります。これらのデータは、異なるバックボーンネットワークと組み合わせると異なる固有の特性を持ちますが、疑似ポイントクラウド[79]を除いて、ほとんどのデータは特定のルールに従って生成されます。さらに、特徴空間埋め込みと比較して、これらの LiDAR データは解釈性が高く、直接視覚化できます。 画像分野では、データ レベルの厳密な定義は RGB またはグレースケールである必要がありますが、この定義には普遍性と合理性が欠けています。したがって、本論文では、融合前段階における画像データのデータレベルの定義を拡張し、データレベルと特徴レベルのデータを含めます。この論文では、セマンティックセグメンテーションの予測結果を一種のフロントフュージョン(画像特徴レベル)として扱っていることにも言及する価値があります。1つは、3Dターゲット検出に有益であるためであり、もう1つは、セマンティックセグメンテーションの「ターゲットレベル」の特徴が、タスク全体の最終的なターゲットレベルの提案とは異なるためです。 ディープフュージョンディープ フュージョンは、フィーチャ レベル フュージョンとも呼ばれ、LIDAR ブランチではフィーチャ レベルで、画像ブランチではデータセットとフィーチャ レベルでマルチモーダル データをフュージョンすることを指します。たとえば、いくつかの方法では、特徴リフティングを使用して、それぞれ LiDAR ポイント クラウドと画像の埋め込み表現を取得し、一連の下流モジュールを通じて 2 つのモダリティの特徴を融合します。ただし、他の強力な融合とは異なり、ディープ フュージョンでは、元の情報と高レベルの意味情報の両方を活用しながら、カスケード方式で機能を融合する場合があります。概略図は以下のとおりです。 融合後ポスト融合はターゲット レベルの融合とも呼ばれ、複数のモダリティの予測結果 (または提案) の融合を指します。例えば、いくつかのポストフュージョン法では、LiDAR点群と画像の出力をフュージョンに利用します[55]。 2 つの部門の提案のデータ形式は最終結果と一致している必要がありますが、品質、量、精度には一定の違いがあります。ポストフュージョンは、マルチモーダル情報を使用して最終提案を最適化する統合的な方法と見ることができます。概略図を以下に示します。 非対称融合最後のタイプの強力な融合は非対称融合であり、これは 1 つのブランチのターゲット レベルの情報と他のブランチのデータ レベルまたは機能レベルの情報の融合を指します。上記の 3 つの融合方法は、マルチモダリティの各ブランチを平等に扱いますが、非対称融合では、少なくとも 1 つのブランチが支配的な位置を占め、他のブランチは最終結果を予測するための補助情報を提供することを強調します。下の図は非対称融合の概略図です。提案段階では、非対称融合には 1 つのブランチの提案しかありませんが、融合後はすべてのブランチの提案になります。 6 弱い融合強い融合との違いは、弱い融合法ではマルチモーダルブランチからのデータ、特徴、またはターゲットを直接融合するのではなく、他の形式でデータを処理することです。下の図は、弱い融合アルゴリズムの基本的なフレームワークを示しています。弱い融合ベースの方法では通常、ルールベースの方法を使用して、あるモダリティのデータを別のモダリティの相互作用をガイドするための監視信号として利用します。たとえば、画像ブランチの CNN からの 2D 提案により、元の LiDAR ポイント クラウドが切り捨てられる可能性がありますが、弱い融合により、元の LiDAR ポイント クラウドが LiDAR バックボーンに直接入力され、最終的な提案が出力されます。 7 その他の統合方法モデル設計の枠組みの中で複数の融合手法を使用しているため、上記のいずれのパラダイムにも属さない研究もいくつかあります。たとえば、[39]はディープフュージョンとポストフュージョンを組み合わせ、[77]はプレフュージョンを組み合わせています。これらの方法は、融合アルゴリズム設計の主流の方法ではなく、この記事では他の融合方法としてまとめて分類されています。 8 マルチモーダル融合の機会近年、自動運転認識タスクのためのマルチモーダル融合手法は、より高度な特徴表現からより複雑なディープラーニングモデルまで、急速に進歩しました。しかし、まだ解決すべき問題がいくつか残っており、本稿では、今後の改善の方向性として考えられるいくつかの点を以下のようにまとめています。 より高度な融合方法現在の融合モデルは、不整合と情報損失の問題を抱えている[13、67、98]。さらに、フラット融合操作は、知覚タスクのパフォーマンスのさらなる向上を妨げます。要約すると:
複数の情報源からの情報を活用する前方を向いた単一フレーム画像は、自動運転の認識タスクの典型的なシーンです。しかし、ほとんどのフレームワークは限られた情報しか利用できず、運転シーンの理解を容易にするための補助タスクを詳細に設計していません。要約すると:
センサー固有の問題ドメイン偏差と解像度は、現実世界のシナリオとセンサーに大きく依存します。これらの欠陥は、自動運転のためのディープラーニング モデルの大規模なトレーニングとリアルタイムのパフォーマンスを妨げます。
9 参考文献[1] https://zhuanlan.zhihu.com/p/470588787 オリジナルリンク: https://mp.weixin.qq.com/s/usAQRL18vww9YwMXRvEwLw |
>>: 実践的な NLP 問題: LSTM (RNN) と Transformer モデルに基づく
「シンギュラリティ」は、人工知能(AI)の将来展望とその社会的影響を説明する重要な概念です。 AIの...
量子コンピューティングは、おそらく現在最もエキサイティングな(そして話題になっている)研究分野の 1...
音声テキスト変換(STT)システムは、話した言葉をテキストに変換できる方法です。私たちがよく使うWe...
AI は登場以来、タスクの自動化や業務の効率化、より優れたテクノロジーの構築、エンドユーザー エクス...
自動運転技術は、人工知能、ビジュアルコンピューティング、レーダー、監視デバイス、全地球測位システムを...
アメリカン・エキスプレスは長年にわたり、人工知能と認知技術のリーダーとして活躍してきました。大規模で...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
紙: http://wanghao.in/paper/NatureMedicine21_MSA.pd...
今後 10 年間で、ディープラーニングは自然科学に革命をもたらし、自然現象をモデル化して予測する能力...
スマートサーマルイメージングカメラは、屋外の資産を保護するための侵入者検知ソリューションとして急速に...
現代の IT ネットワークは、ファイアウォール、ルーター、スイッチ、サーバー、ワークステーション、そ...
高速かつ経済的なソートアルゴリズムスペースを無駄にせず、より高速なソートアルゴリズムはありますか?そ...