マルチモーダル融合は、知覚ベースの自動運転システムにおける基本的なタスクであり、最近多くの研究者の関心を集めています。しかし、生データのノイズ、情報利用率の低さ、マルチモーダルセンサーの不整合などにより、十分に良好なパフォーマンスを達成することは容易ではありません。この論文では、マルチモーダル自動運転認識タスクの既存の方法に関する文献レビューを行います。カメラや LIDAR を含む 50 件以上の論文を分析し、物体検出とセマンティック セグメンテーションのタスクを解決します。従来の融合モデルの分類方法とは異なり、著者らは融合段階の観点からより合理的な分類方法によって融合モデルを 2 つの主要カテゴリと 4 つの副次カテゴリに分類します。さらに、現在の核融合アプローチが検討され、潜在的な研究機会が議論されます。 最近、クロスモーダル特徴表現やより信頼性の高いモーダルセンサーから、より複雑で堅牢なマルチモーダル融合ディープラーニングモデルや技術まで、自動運転認識タスクのためのマルチモーダル融合方法が急速に発展しています。しかし、マルチモーダル融合手法そのものの方法論に焦点を当てた文献レビューはごくわずかであり、文献のほとんどは、データレベル、機能レベル、提案レベルを問わず、ディープラーニングモデルにおける機能の融合段階に焦点を当て、融合前、ディープ(機能)融合、融合後という3つのカテゴリーに分けるという従来のルールに従っています。まず、この分類法では、各レベルでの機能表現が明確に定義されていません。 2 番目に、LIDAR とカメラの 2 つのブランチの処理が常に対称的であり、LIDAR ブランチの提案レベルの特徴とカメラ ブランチのデータ レベルの特徴の融合がわかりにくいことを示しています。要約すると、従来の分類は直感的かもしれませんが、最近登場したマルチモーダル融合方法の増加をまとめるには遅れており、研究者が体系的な観点からそれらを研究および分析することを妨げています。 以下は自動運転認識タスクの概略図です。 ディープラーニング モデルは、入力の表現に制限されます。このモデルを実装するには、生データをモデルに入力する前に、複雑な特徴抽出器で前処理する必要があります。 画像ブランチに関しては、既存のほとんどのメソッドは、下流モジュールへの入力と同じ形式の生データを保持します。ただし、LiDAR ブランチはデータ形式に大きく依存しており、さまざまな特性が強調され、下流のモデル設計に大きな影響を与えます。したがって、ここでは、異種のディープラーニング モデルに対応するために、ポイントベース、ボクセルベース、および 2D マッピング ベースのポイント クラウド データ形式にまとめられています。 データレベルの融合または事前融合方法は、空間的な位置合わせを通じて、さまざまなモダリティからの生のセンサーデータを直接融合します。特徴レベルの融合またはディープ融合の手法では、連結または要素ごとの乗算を通じて、特徴空間内のクロスモーダル データを混合します。ターゲットレベルの融合方式では、各モダリティ モデルの予測結果を組み合わせて最終的な決定を下します。 新しい分類方法では、すべての融合方法を強い融合と弱い融合に分類します。図は、2 つの関係を示しています。 パフォーマンス比較のため、KITTIベンチマークの3D検出と鳥瞰図オブジェクト検出。次の 2 つの表は、それぞれ BEV および 3D KITTI テスト データセットに対するマルチモーダル融合法の実験結果を示しています。 LIDAR とカメラのデータ表現のさまざまな組み合わせ段階に応じて、強力な融合は、フロント融合、ディープ融合、バック融合、非対称融合の 4 つのカテゴリに分類されます。最も研究されている核融合方法として、強核融合は近年多くの優れた成果を達成しています。 図に示すように、強力な融合の各サブクラスは、カメラ データではなく、LIDAR ポイント クラウドに大きく依存します。 融合前。データレベルの融合は、生データ レベルでの空間的な位置合わせと投影を通じて、各モダリティのデータを直接融合する方法です。対照的に、事前融合は、データ レベルで LIDAR データとデータ レベルまたはフィーチャ レベルでカメラ データを融合します。例を図に示します。 LIDAR ブランチでは、ポイント クラウドは、反射率マップ、ボクセル化されたテンソル、正面図/範囲図/鳥瞰図、疑似ポイント クラウドの形式になります。これらのデータはすべて固有の特性が異なり、LiDAR バックボーンとの関連性が高いですが、疑似ポイント クラウドを除いて、そのほとんどはルールベースの処理によって生成されます。さらに、この段階のデータは、特徴空間埋め込みと比較してまだ解釈可能であるため、これらすべての LIDAR データ表現は直感的で視覚的です。 画像分野では、厳密なデータレベルの定義には RGB やグレースケールなどのデータのみが含まれるべきであり、これでは普遍性と合理性が欠けています。従来のフロント フュージョンの定義と比較すると、カメラ データはデータ レベルと機能レベルのデータに緩和されます。特に、3D オブジェクトの検出に有益な画像セマンティック セグメンテーション タスクの結果は、これらの「オブジェクト レベル」の特徴がタスク全体の最終的なオブジェクト レベルの提案とは異なるため、ここでは特徴レベルの表現として提示されます。 深い統合。ディープ フュージョン方式では、LIDAR ブランチの特徴レベルでクロスモーダル データを融合しますが、画像ブランチのデータ レベルと特徴レベルの両方で融合します。たとえば、いくつかの方法では、特徴抽出器を使用して、LIDAR ポイント クラウドとカメラ画像の埋め込み表現を個別に取得し、一連の下流モジュールを通じて両方のモダリティからの機能を融合します。ただし、他の強力な融合方法とは異なり、ディープ フュージョンでは、生のセマンティック情報と高レベルのセマンティック情報の両方を活用するカスケード方式で機能を融合する場合があります。ディープフュージョンの例を図に示します。 融合後。ポスト融合はターゲット レベル融合とも呼ばれ、各モダリティのパイプラインの結果を融合する方法を指します。たとえば、一部のポストフュージョン方法では、LIDAR ポイント クラウド ブランチとカメラ イメージ ブランチの出力を利用し、両方のモダリティの結果に基づいて最終的な予測を行います。両ブランチの提案のデータ形式は最終結果と同じになるはずですが、品質、量、精度が異なることに注意してください。ポストフュージョンは、マルチモーダル情報を使用して最終提案を最適化するアンサンブル手法です。以下は、融合後の例です。 非対称融合。早期融合、深層融合、後期融合に加えて、いくつかの方法では、異なる権限を持つクロスモーダル ブランチを処理し、1 つのブランチのオブジェクト レベルの情報と他のブランチのデータ レベルまたは機能レベルの情報を融合します。これは非対称融合として定義されます。強力な融合における他のアプローチでは、2 つのブランチを同等であるかのように扱いますが、非対称融合では、少なくとも 1 つのブランチが支配的になり、他のブランチは最終タスクを実行するための補助情報を提供します。この図は非対称融合の例です。同じ抽出された特徴に提案がある場合もありますが、非対称融合では 1 つのブランチからの提案が 1 つだけであるのに対し、後方融合ではすべてのブランチからの提案があります。 強い融合とは異なり、弱い融合方法では、ブランチからのデータ/機能/ターゲットを複数の方法で直接融合するのではなく、他の方法でデータを操作します。弱い融合に基づく方法では通常、ルールベースの方法を使用して、1 つのモダリティからのデータを他のモダリティの相互作用をガイドするための監視信号として利用します。図は弱い核融合モードの基本的な枠組みを示しています。 画像ブランチの CNN からの 2D 提案により、元の LIDAR ポイント クラウドに錐台が形成される可能性があります。ただし、画像特徴の組み合わせの非対称融合とは異なり、弱い融合では、選択された生の LiDAR ポイント クラウドを LiDAR バックボーン ネットワークに直接入力して、最終的な提案を出力します。 一部の作業は、上記のいずれかのタイプの融合として単純に定義することはできません。ディープ融合とポスト融合の組み合わせ、プレ融合とディープ融合の組み合わせなど、モデルフレームワーク全体で複数の融合方法が使用されます。これらの方法はモデル設計に冗長性があり、融合モジュールの主流ではありません。 解決すべき問題についての分析がいくつかあります。 現在の融合モデルは、不整合と情報損失の問題を抱えています。さらに、フラット融合操作は、知覚タスクのパフォーマンスのさらなる向上を妨げます。要約すると:
正面図の単一フレーム画像は、自動運転の認識タスクの典型的なシーンです。しかし、ほとんどのフレームワークは限られた情報しか利用しておらず、運転シーンをさらに理解するための補助タスクを詳細に設計していません。要約すると:
ドメイン偏差とデータ解像度は、実際のシナリオとセンサーに大きく依存します。これらの欠陥は、自動運転のためのディープラーニングモデルの大規模なトレーニングと実装を妨げます。
|
<<: 一人称視点でガンダムを運転する? !コックピットに直接座り、VRを操作して材料を掴む。掘削機よりも柔軟。
>>: 2022 年にゲームを変える AI と ML テクノロジーのトップトレンド
多項式回帰は線形回帰の改良版です。線形回帰を知っていれば、簡単に理解できるでしょう。そうでない場合は...
国内アプリプロモーション機関APPYINGはこのほど、アップルのApp Store Chinaランキ...
新興テクノロジーは何千もの業界に影響を及ぼしています。近年、AI+自動化はますます多くの企業や組織で...
人工知能の多くの利点はよく知られ、理解され、宣伝されていますが、その限界も明らかです。しかし、あまり...
11月21日、Deepmindは楽器とボーカルで音楽を生成できるLyriaというオーディオモデルをリ...
効果的なプロンプトを書くことは、AI とのやり取りを成功させるための鍵となります。優れたプロンプトは...
[[122758]]ロード ホストは、スケジューリング メソッドまたはアルゴリズムと呼ばれる多くの負...
AI 戦略を導入する前に、企業はプライバシーを保護し、セキュリティ標準への準拠を確保するために新しい...
モバイル コンピューティングのトレンドにより、企業はスマートフォンから情報にアクセスし、タスクを完了...
[[330335]]画像出典: Panoramic Vision 「小型化」は生活をより便利にする...