2022年2月6日にarXivにアップロードされたレビュー論文「自動運転認識のためのマルチモーダルセンサーフュージョン:調査」の著者は、UCLA、上海AI研究所(pjlab)、北京理工大学(BIT?)、華東師範大学の研究者です。 マルチモーダル融合は、知覚ベースの自動運転システムにおける基本的なタスクであり、最近多くの研究者の関心を集めています。しかし、生データのノイズ、情報利用率の低さ、マルチモーダルセンサーの不整合などにより、十分に良好なパフォーマンスを達成することは容易ではありません。この論文では、マルチモーダル自動運転認識タスクの既存の方法に関する文献レビューを行います。カメラや LIDAR を含む 50 件以上の論文を分析し、物体検出とセマンティック セグメンテーションのタスクを解決します。従来の融合モデルの分類方法とは異なり、著者らは融合段階の観点からより合理的な分類方法によって融合モデルを 2 つの主要カテゴリと 4 つの副次カテゴリに分類します。さらに、現在の核融合アプローチが検討され、潜在的な研究機会が議論されます。最近、クロスモーダル特徴表現やより信頼性の高いモーダルセンサーから、より複雑で堅牢なマルチモーダル融合ディープラーニングモデルや技術まで、自動運転認識タスクのためのマルチモーダル融合方法が急速に発展しています。しかし、マルチモーダル融合手法そのものの方法論に焦点を当てた文献レビューはごくわずかであり、文献のほとんどは、データレベル、機能レベル、提案レベルを問わず、ディープラーニングモデルにおける機能の融合段階に焦点を当て、融合前、ディープ(機能)融合、融合後という3つのカテゴリーに分けるという従来のルールに従っています。まず、この分類法では、各レベルでの機能表現が明確に定義されていません。 2 番目に、LIDAR とカメラの 2 つのブランチの処理が常に対称的であり、LIDAR ブランチの提案レベルの特徴とカメラ ブランチのデータ レベルの特徴の融合がわかりにくいことを示しています。要約すると、従来の分類は直感的かもしれませんが、最近登場したマルチモーダル融合方法の増加をまとめるには遅れており、研究者が体系的な観点からそれらを研究および分析することを妨げています。以下は自動運転認識タスクの概略図です。 ディープラーニング モデルは、入力の表現に制限されます。このモデルを実装するには、生データをモデルに入力する前に、複雑な特徴抽出器で前処理する必要があります。 画像ブランチに関しては、既存のほとんどのメソッドは、下流モジュールへの入力と同じ形式の生データを保持します。ただし、LiDAR ブランチはデータ形式に大きく依存しており、さまざまな特性が強調され、下流のモデル設計に大きな影響を与えます。したがって、ここでは、異種のディープラーニング モデルに対応するために、ポイントベース、ボクセルベース、および 2D マッピング ベースのポイント クラウド データ形式にまとめられています。 データレベルの融合または事前融合方法は、空間的な位置合わせを通じて、さまざまなモダリティからの生のセンサーデータを直接融合します。特徴レベルの融合またはディープ融合の手法では、連結または要素ごとの乗算を通じて、特徴空間内のクロスモーダル データを混合します。ターゲットレベルの融合方式では、各モダリティ モデルの予測結果を組み合わせて最終的な決定を下します。新しい分類方法では、すべての融合方法を強い融合と弱い融合に分類します。図は、2 つの関係を示しています。 パフォーマンス比較のため、KITTIベンチマークの3D検出と鳥瞰図オブジェクト検出。次の 2 つの表は、それぞれ BEV および 3D KITTI テスト データセットに対するマルチモーダル融合法の実験結果を示しています。 LIDAR とカメラのデータ表現のさまざまな組み合わせ段階に応じて、強力な融合は、フロント融合、ディープ融合、バック融合、非対称融合の 4 つのカテゴリに分類されます。最も研究されている核融合方法として、強核融合は近年多くの優れた成果を達成しています。 図に示すように、強力な融合の各サブクラスは、カメラ データではなく、LIDAR ポイント クラウドに大きく依存します。 融合前。データレベルの融合は、生データ レベルでの空間的な位置合わせと投影を通じて、各モダリティのデータを直接融合する方法です。対照的に、事前融合は、データ レベルで LIDAR データとデータ レベルまたはフィーチャ レベルでカメラ データを融合します。例を図に示します。 LIDAR ブランチでは、ポイント クラウドは、反射率マップ、ボクセル化されたテンソル、正面図/範囲図/鳥瞰図、疑似ポイント クラウドの形式になります。これらのデータはすべて固有の特性が異なり、LiDAR バックボーンとの関連性が高いですが、疑似ポイント クラウドを除いて、そのほとんどはルールベースの処理によって生成されます。さらに、この段階のデータは、特徴空間埋め込みと比較してまだ解釈可能であるため、これらすべての LIDAR データ表現は直感的で視覚的です。 画像分野では、厳密なデータレベルの定義には RGB やグレースケールなどのデータのみが含まれるべきであり、これでは普遍性と合理性が欠けています。従来のフロント フュージョンの定義と比較すると、カメラ データはデータ レベルと機能レベルのデータに緩和されます。特に、3D オブジェクトの検出に有益な画像セマンティック セグメンテーション タスクの結果は、これらの「オブジェクト レベル」の特徴がタスク全体の最終的なオブジェクト レベルの提案とは異なるため、ここでは特徴レベルの表現として提示されます。深い統合。ディープ フュージョン方式では、LIDAR ブランチの特徴レベルでクロスモーダル データを融合しますが、画像ブランチのデータ レベルと特徴レベルの両方で融合します。たとえば、いくつかの方法では、特徴抽出器を使用して、LIDAR ポイント クラウドとカメラ画像の埋め込み表現を個別に取得し、一連の下流モジュールを通じて両方のモダリティからの機能を融合します。ただし、他の強力な融合方法とは異なり、ディープ フュージョンでは、生のセマンティック情報と高レベルのセマンティック情報の両方を活用するカスケード方式で機能を融合する場合があります。ディープフュージョンの例を図に示します。 融合後。ポスト融合はターゲット レベル融合とも呼ばれ、各モダリティのパイプラインの結果を融合する方法を指します。たとえば、一部のポストフュージョン方法では、LIDAR ポイント クラウド ブランチとカメラ イメージ ブランチの出力を利用し、両方のモダリティの結果に基づいて最終的な予測を行います。両ブランチの提案のデータ形式は最終結果と同じになるはずですが、品質、量、精度が異なることに注意してください。ポストフュージョンは、マルチモーダル情報を使用して最終提案を最適化するアンサンブル手法です。以下は、融合後の例です。 非対称融合。早期融合、深層融合、後期融合に加えて、いくつかの方法では、異なる権限を持つクロスモーダル ブランチを処理し、1 つのブランチのオブジェクト レベルの情報と他のブランチのデータ レベルまたは機能レベルの情報を融合します。これは非対称融合として定義されます。強力な融合における他のアプローチでは、2 つのブランチを同等であるかのように扱いますが、非対称融合では、少なくとも 1 つのブランチが支配的になり、他のブランチは最終タスクを実行するための補助情報を提供します。この図は非対称融合の例です。同じ抽出された特徴に提案がある場合もありますが、非対称融合では 1 つのブランチからの提案が 1 つだけであるのに対し、後方融合ではすべてのブランチからの提案があります。 強い融合とは異なり、弱い融合方法では、ブランチからのデータ/機能/ターゲットを複数の方法で直接融合するのではなく、他の方法でデータを操作します。弱い融合に基づく方法では通常、ルールベースの方法を使用して、1 つのモダリティからのデータを他のモダリティの相互作用をガイドするための監視信号として利用します。図は弱い核融合モードの基本的な枠組みを示しています。 画像ブランチの CNN からの 2D 提案により、元の LIDAR ポイント クラウドに錐台が形成される可能性があります。ただし、画像特徴の組み合わせの非対称融合とは異なり、弱い融合では、選択された生の LiDAR ポイント クラウドを LiDAR バックボーン ネットワークに直接入力して、最終的な提案を出力します。一部の作業は、上記のいずれかのタイプの融合として単純に定義することはできません。ディープ融合とポスト融合の組み合わせ、プレ融合とディープ融合の組み合わせなど、モデルフレームワーク全体で複数の融合方法が使用されます。これらの方法はモデル設計に冗長性があり、融合モジュールの主流ではありません。解決すべき問題についての分析がいくつかあります。 現在の融合モデルは、不整合と情報損失の問題を抱えています。さらに、フラット融合操作は、知覚タスクのパフォーマンスのさらなる向上を妨げます。要約すると:
正面図の単一フレーム画像は、自動運転の認識タスクの典型的なシーンです。しかし、ほとんどのフレームワークは限られた情報しか利用しておらず、運転シーンをさらに理解するための補助タスクを詳細に設計していません。要約すると:
ドメイン偏差とデータ解像度は、実際のシナリオとセンサーに大きく依存します。これらの欠陥は、自動運転のためのディープラーニングモデルの大規模なトレーニングと実装を妨げます。
|
[[407981]]著者テンセント研究所の上級研究員、周丹氏趙雲傑 テンセント研究所 研究助手20...
21 金融ニュースは、日刊金融ニュース (ncjs111)、網易科技、創業報 (ichuangye...
12年後の2030年、現在の小中学生が就職を控える頃の世界は、1.現在の職業の多くが消滅し、2.2...
[[125412]]クラウド サービスの停止が発生すると、通常はフェイルオーバー メカニズムがアクテ...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
背景モノのインターネット (IoT) の継続的な発展は、ここ数年にわたって現実のものとなってきました...
[51CTO.comからのオリジナル記事] 近年、生体認証技術はますます成熟し、私たちの生活の中に...
Adobe の最新の Digital Intelligence Briefing によると、トップク...
1. リレーショナルデータはSQLから分離される最新のエッジ コンピューティング、IoT、GenAI...
英国人映画監督が人工知能(AI)を使って外国映画の鑑賞方法に革命をもたらそうとしている。俳優の顔をデ...
執筆者 | Yifeng 2月中、ソラは当然のAIスターとなり、彼が公開した2つのAIビデオは数え切...
[[431487]]サプライチェーン管理で機械学習を使用すると、日常的なタスクを自動化できるため、企...