この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。 複雑なシナリオでのターゲット検出タスクは自動運転にとって非常に重要であり、ミリ波レーダーとビジョンフュージョンは正確な障害物検出を保証するための主流のソリューションです。本稿では、ミリ波レーダーとビジョンフュージョンに基づく障害物検出手法を、タスク紹介、評価基準、データセットの 3 つの側面から詳細に紹介します。 ミリ波レーダーとビジョンの融合プロセスの 3 つの部分、つまりセンサーの配置、センサーのキャリブレーション、センサーの融合 (融合方法は、データ レベル、決定レベル、機能レベルの融合方法に分かれています) について概要を説明し、説明しました。 さらに、3次元(3D)ターゲット検出、自動運転におけるLIDARとビジョンの融合、マルチモーダル情報の融合についても紹介し、展望を示します。 背景より高度な自動運転車が直面している課題の 1 つは、複雑なシーンでの正確な物体検出です。現在の視覚物体検出アルゴリズムは、実際には非常に複雑な状況に直面するため、パフォーマンスの限界に達しています。 自動運転のシナリオでは、障害物には主に歩行者、自動車、トラック、自転車、オートバイが含まれ、視界範囲内の障害物はスケールとアスペクト比が異なります。さらに、障害物間の遮蔽度合いはさまざまであり、大雨、雪、霧などの極端な気象条件により、障害物の外観がぼやけて、検出性能が大幅に低下する可能性があります[13]。研究によると、CNNは訓練されていないシーンに対しては一般化能力が低いことが分かっています[14]。 カメラだけでは自動運転の認識タスクを単独で完了するには不十分である。視覚センサーと比較して、ミリ波レーダーの検出性能は極端な天候の影響を受けにくい[15]、[16]。さらに、ミリ波レーダーは距離を測定するだけでなく、移動物体からの反射信号のドップラー効果を利用して速度ベクトルを測定することもできる[17]、[18]。しかし、ミリ波レーダーではターゲットの輪郭情報を提供できず、比較的静止したターゲットを区別することが困難です。この観点から、視覚センサーとミリ波レーダーの検出能力は互いに補完し合うことができます。ミリ波レーダーとビジョンフュージョンに基づく検出アルゴリズムは、自律走行車の認識能力を大幅に向上させ、複雑なシーンでのターゲット検出タスクに車両がより適切に対応できるようにします。 ミリ波レーダーとビジョンフュージョンに基づくターゲット検出プロセスを下の図に示します。ミリ波レーダーとビジョンフュージョンプロセスには、センサー選択、センサーキャリブレーション、センサーフュージョンの 3 つの部分が含まれます。ミリ波レーダーとビジョンフュージョンによるターゲット検出の期待されるパフォーマンスを達成するには、次の課題を解決する必要があります。
近年、ほとんどのレビューは視覚検出に焦点を当てており、レーダーカメラ融合に関する論文はほとんどありません。レーダーと視覚融合の詳細な分析が不足しています。この論文では、低コストのミリ波レーダーと視覚融合ソリューションに焦点を当てます。 検出タスクの定義2 次元 (2D) オブジェクト検出では、2D ボックスを使用して車両の視覚画像内で検出された障害物オブジェクトを選択し、オブジェクトを分類して位置を特定します。ここでの位置特定とは、現実世界の車両に対するターゲットの位置特定ではなく、画像内のターゲットの位置特定を指します。 3 次元 (3D) 物体検出では、3D ボックスを使用してターゲットの位置を特定します。これにより、画像内のターゲットの位置が特定されるだけでなく、現実世界におけるターゲットの姿勢と位置も特定されます。 評価基準AP と AR は主に、ターゲット検出における精度と再現率を評価するために使用されます。再現率と精度値をそれぞれ横軸と縦軸に取ることで、精度再現率 (PR) 曲線が得られます。平均精度 (mAP) は検出モデルの総合結果を表し、すべてのカテゴリの平均 AP 値を計算することで得られます。 自動運転KITTIデータセットを例にとると、2D物体検出の場合、検出境界ボックスと真の境界ボックス間のIoUが閾値より大きいかどうかを比較することで、ターゲットの位置決めの正確性が判断されます[22]。しかし、自動運転の研究では、3D 物体検出の方が現在は魅力的です。 KITTIは、車両の場合、正しい予測には予測された3Dボックスが実際の3Dボックスと70%以上重なることが必要であり、歩行者と自転車の場合、3Dボックスの重なりは50%である必要があると正式に規定しています[24]。 関連データセット関連するデータセットには、主に、Apolloscape、KITTI、Cityscapes、Waymo Open Dataset、nuScenes などが含まれます。 アポロスケープ2017 年に Baidu が作成した Apollo Open Platform の一部として、Reigl LIDAR を使用して点群を収集します。Reigl によって生成される 3D 点群は、Velodyne によって生成される点群よりも正確で密度が高くなります。現在、ApolloScape は、知覚分類や道路ネットワーク データを含む、ピクセル レベルの意味的に注釈が付けられた 147,000 フレームの画像を公開しています。 キティドイツのカールスルーエ工科大学と米国のトヨタ研究所が作成したKITTIデータセット[22]は、現在最も一般的に使用されている自動運転データセットです。研究チームは、カメラとベロダイン・ライダーを搭載したフォルクスワーゲンのバスを使い、ドイツのカールスルーエで6時間走行し、交通情報を記録した。データセットは、各シーケンスの元の画像と正確な 3D ボックスおよびクラス ラベルを提供します。クラスには主に自動車、バン、トラック、歩行者、自転車、路面電車が含まれます。 都市景観ドイツの 3 つの研究所 (ダイムラー、マックス・プランク情報科学研究所、ダルムシュタット工科大学) が共同で提供しています。これは意味理解画像 - 都市街路シーンデータセットであり、主に 50 以上の都市の都市環境における運転シーンの 5,000 枚の高品質ピクセルレベルの注釈付き画像 (トレーニング用に 2,975 枚、評価用に 500 枚、テスト用に 1,525 枚、合計 19 のカテゴリ) が含まれています。さらに、大まかに注釈が付けられた画像が 20,000 枚あります。 Waymo オープンデータセットWaymo データセットは、Alphabet Inc. 傘下の自動運転企業 Waymo のオープンソース プロジェクトです。これは、25 都市を網羅した 1,000 万マイルを超える自動運転走行距離データを含む、さまざまな条件下で Waymo の自動運転車が収集したキャリブレーション データで構成されています。データセットには、LIDAR ポイント クラウドと視覚画像が含まれています。車両、歩行者、自転車、標識には細心の注意を払ってラベルが付けられ、チームは 1,200 万を超える 3D 注釈と 120 万を超える 2D 注釈を完成させました。 ニューシーンnuTonomyが作成したNusceneデータセット[29]は、利用可能な最大の自動運転データセットであり、完全自動運転車用のセンサーを搭載した最初のデータセットです。このデータセットは、カメラとライダーのデータだけでなく、レーダーのデータも提供します。現在、レーダーのデータを含む唯一のデータセットです。 nuScenes が提供する 3D 境界ボックス注釈には、23 のクラスだけでなく、歩行者の姿勢、車両の状態などを含む 8 つの属性も含まれています。 センサーの展開自動車メーカーの大半は、レーダーとカメラを組み合わせたセンサー構成を採用しています。テスラ以外にも、ライダー、ミリ波レーダー、カメラを組み合わせたフュージョンセンシング技術を採用しているメーカーがあります。レーダーとカメラが相補的な特性を持っていることが主な理由で、レーダーとビジョンの融合を使用したセンシングソリューションが、自律走行車の障害物検出の分野で現在主流の傾向にあると結論付けることができます。 現場シナリオにおけるセンサー展開の概要: 3 種類のセンサー (LiDAR、レーダー、カメラ) のパフォーマンス比較: ミリ波レーダーは、長距離検出、低コスト、動的ターゲット検出機能などの特徴を備え、自律走行車に一般的に搭載される必須のセンサーです。これらの利点により、車両の感知能力と安全性が向上します[37]。ライダーと比較したミリ波レーダーの利点は、主に悪天候にも対応できることと導入コストが低いことにある[36]。さらに、次のような利点もあります。
ミリ波レーダーと比較して、ライダーには次のような利点がある[38],[39]。
レーダーは距離と視線速度を検出するのに最適なセンサーです。特に夜間でも問題なく動作することを考慮すると、「全天候型」機能を備えています。しかし、レーダーは色を区別することができず、ターゲットの分類能力が低い[36]。このカメラは色彩認識能力と分類能力に優れており、角度解像度はLIDARに劣らない[36]。しかし、速度と距離の推定には限界がある[40]。さらに、画像処理は搭載チップの計算能力に依存しており、ミリ波レーダーからの情報処理は必要ありません。レーダーセンシング情報を最大限に活用することで、コンピューティングリソースを大幅に節約できます[36]。レーダーとカメラの特性を比較すると、多くの補完的な機能があることがわかります。したがって、レーダーと視覚融合の認識技術を障害物検出の分野に適用すると、認識精度を効果的に向上させ、自律走行車のターゲット検出能力を高めることができます。ミリ波レーダーまたはライダーとビジョンフュージョンはどちらも有用です。 センサーの校正異なるセンサーは空間位置とサンプリング周波数が異なり、同じターゲットに対する異なるセンサーのセンシング情報が一致しない場合があります。そのため、異なるセンサーの感知情報を校正する必要があります。ミリ波レーダーから返される検出情報はレーダーポイントであり、カメラは視覚画像を受け取ります。 nuScenes[29]のカメラとmmWaveレーダーのデータを例に挙げてみましょう。このデータセットで提供されるデータはフレーム同期処理されているため、時間同期は必要ありません。下の図の効果は空間座標変換によって得られます。レーダーポイントのRGB値は、横方向速度、縦方向速度、距離の3つの物理量から変換され、レーダーポイントの色は、レーダーポイントに対応する物体の物理的状態を表します。一般的に、センサーのキャリブレーションには、座標キャリブレーション[42]~[48]、レーダーポイントフィルタリング[43]、[45]、およびエラーキャリブレーション[49]~[51]が含まれます。 座標系の調整座標キャリブレーションの目的は、レーダー ポイントを画像内のターゲットと一致させることです。座標キャリブレーションでは、最も一般的に使用される方法は、座標変換法[45]、[46]、センサー検証法[42]、[44]、[47]、およびビジョンベースの方法[43]、[52]に分けられます。 座標変換方式は、行列演算によりレーダー情報と視覚情報を同じ座標系に統合します。 [46] ミリ波レーダーと視覚センサーの空間位置座標に基づいて、座標変換法によって空間校正が完了する。異なるセンサーのサンプリングレートによって生じる時間の不整合を解消するため、スレッド同期方式を採用し、画像フレームとミリ波レーダーデータの同時取得を実現します。 [45]は、最小二乗法を用いて座標変換行列を得る擬似逆行列に基づく点配置法を使用した。従来の座標変換では、ターゲットの正確な位置を生成できないため、最終結果に誤差が生じます。 [53] 王らは、特別なツールやレーダー反射強度を使用せずに実際の座標をレーダー検出マップに投影する校正実験を提案し、校正誤差への依存性を弱めました。 センサー検証方法では、同じオブジェクト上の異なるセンサーの検出情報を使用して、複数のセンサーを相互に調整します。 [42]では、センサー検証は2つのステップで構成されています。まずレーダーによってターゲット リストが生成され、次に視覚情報によって検証されます。 [47] レーダー座標変換後、まず画像を大まかに検索し、次にレーダー情報と比較します。比較結果により、ターゲットは一致するターゲットと一致しないターゲットの 2 つのカテゴリに分類されます。 [44]では、Streubelらは、同じ時間スロットでレーダーと視覚によって検出された物体を一致させるための時間スロット融合法を設計した。 視覚ベースの方法:[52]はモーションステレオ技術を使用してレーダーターゲットと画像ターゲットのマッチングを実現します。 [43] Huangらは適応型背景差分法を用いて画像中の移動目標を検出し、候補領域を生成し、目標が存在するかどうかを判断することで目標レーダー点が候補領域内にあるかどうかを検証した。 レーダーポイントフィルタリングレーダー ポイント フィルタリングの目的は、ノイズや無駄な検出結果をフィルタリングして、これらのレーダー ポイントによって生じる誤判定を回避することです。 [45] Guoらは、フレーム内クラスタリングとフレーム間追跡情報を用いたノイズフィルタリングと効果的なターゲット抽出法を提案した。 [43]では、ミリ波レーダーから得られる速度と角速度の情報を使用してレーダーポイントをフィルタリングします。無効なレーダー ポイントはフィルタリングされ、樹木や橋などの固定ターゲットがミリ波レーダーに与える影響が軽減されます。 エラー校正較正されたレーダー ポイントには、センサーまたは数学的計算のエラーによるエラーが含まれる場合があります。いくつかの記事では、これらのエラーを修正する方法が提案されています。 [50]では、視覚画像上に投影されたレーダーポイントの最終的な補正を実行するための対話型の微調整ベースの方法が提案されました。 [51]の著者らは、異なるセンサーの測定誤差をモデル化するために改良された拡張カルマンフィルタ(EKF)アルゴリズムを提案した。 [49]では、様々な座標が検出結果に与える影響を分析し、すべての情報をホスト車両とともに移動する座標系に変換する半統合直交座標表現法を提案した。現在、オープンソース データセットを使用する場合、エラー調整は必要ありません。ただし、データセットが自家製の場合、レーダーフィルタリングとエラー修正は必要な技術的ステップです。 センサーフュージョンに基づく検出タスク一般的に、ミリ波レーダーとビジョンの融合は、データ層、決定層、機能層の 3 つのレベルに分かれています。データレベルの融合は、ミリ波レーダーとカメラによって検出されたデータを融合したもので、データ損失は最小限に抑えられ、信頼性は最高レベルです。決定レベルの融合は、ミリ波レーダーとカメラの検出結果を融合することです。特徴レベルの融合では、レーダー特徴情報を抽出し、それを画像特徴と融合する必要があります。 データレイヤーの融合データレベルの融合は成熟した融合ソリューションですが、まだ主流の研究トレンドではありません。しかし、異なるセンサーからの情報を融合するというアイデアは、依然として参考価値があります。下の表に示すように、データレベルの融合ではまずレーダーポイント[42]、[45]、[54]、[55]に基づいて関心領域(ROI)を生成します。次に、ROI に従って視覚画像の対応する領域が抽出されます。最後に、特徴抽出器と分類器[45]、[47]、[53]、[55]-[61]を使用してこれらの画像に対して物体検出が行われます。 いくつかの文献では、物体の検出と分類にニューラルネットワークが使用されています[61]、[62]。データレベルの融合では、有効なレーダーポイントの数が最終的な検出結果に直接影響します。画像の特定の部分にレーダー ポイントがない場合、その部分は無視されます。このソリューションは、ターゲット検出の検索スペースを削減し、コンピューティング リソースを節約しますが、セキュリティ リスクも残ります。データ レベルの融合プロセスを図 4 に示します。 ROI生成 ROIは画像内の選択された領域である。純粋な画像処理方式と比較して、データレベルの融合方式ではレーダーポイントを使用してROIを生成するため、ROI生成速度が大幅に向上する[42]。初期ROIの大きさは障害物とミリ波レーダー間の距離によって決まる[45]。 物体検出 画像内のターゲットの位置とサイズが不確実であるため、ビジョンベースのオブジェクト検出では通常、スライディングウィンドウとマルチスケール戦略が採用されますが、これにより多数の候補ボックスが生成され、検出効率が低下します。ミリ波レーダーとビジョン融合ソリューションは、スライディング ウィンドウ方式を回避し、計算コストを削減し、検出効率を向上させます。 意思決定レベルの統合意思決定レベルの融合は、現在主流の融合ソリューションです。プロセスを次の表に示します。 レーダーの利点は縦方向の範囲にあり、視覚センサーの利点は水平視野にあります。意思決定レベルの融合により、両方の側面の利点を考慮し、センサー情報を最大限に活用できます。決定レベルの融合フィルタリングアルゴリズムの課題は、2つの検出情報の結合確率密度関数をモデル化することです。決定レベルの融合は主に、センサー情報処理[65]–[69]、[71]と決定融合[66]、[72]–[78]、[84]の2つのステップで構成されます。 センサー情報処理 センサー情報の処理には、レーダー情報と視覚情報が含まれます。レーダー検出結果から物体のリストが生成され、その中に物体の速度や距離などの情報が含まれます[65],[66]。視覚情報処理では、画像に対してターゲット検出アルゴリズムを実行し、2D位置を特定します。 意思決定の融合 車両検出の決定レベルの融合は、異なるセンサーの検出結果を統合します。主流のフィルタリングアルゴリズムは、ベイズ理論[72]、[73]、カルマンフィルタリングフレームワーク[74]-[76]、およびデンプスター・シェーファー理論[66]を適用します。いくつかの文献では、レーダー検出ターゲットリストを使用して視覚検出結果を検証しています[77]、[78]。さらに、参考文献[84]では、最終的な検出結果を調整および改良するためのモーションステレオアルゴリズムが提案されています。 ベイズ理論に基づく融合法 文献[72]では、ベイズ理論に基づいて確率的推論法を用いてマルチセンサーデータ融合問題を解決する方法、ベイズ計画を提案した。新しいセンサーが追加されると、従来のマルチセンサー融合アルゴリズムは適用できなくなります。 [73]では融合アルゴリズムがモジュール化され一般化され、ベイジアンネットワークに基づく動的融合方式が提案され、各融合アルゴリズムの再利用性が向上しました。 カルマンフィルタに基づく融合法 [74] リー群のEKFフレームワークに基づいて、特殊ユークリッド群を用いた決定レベル融合フィルタが提案された。文献[75]では、3D空間と2D画像平面で検出された物体を同時に追跡できる融合フレームワークが提案されている。カルマン フィルターに似た不確実性駆動型のメカニズムを使用して、さまざまな品質のセンシング結果を均等化します。 [76]では、レーダーはまず与えられた画像を検出して大まかに目標物を探索します。次に、トレーニングされたポイント検出器を使用して、オブジェクトの境界ボックスを取得します。カルマン フィルタ ベースの情報融合アプローチを採用して、集中型と分散型の情報融合スキームの機能的同等性を実証します。 デンプスター・シェーファー理論に基づく融合法 文献[66]は、デンプスター・シェーファー理論に基づく決定レベルの融合を提案した。これは、複数のセンサーの検出リストを入力として、そのうちの1つを一時的な証拠グリッドとして使用し、それを現在の証拠グリッドと融合するものである。最後に、クラスタリング処理を実行して、証拠グリッド内のターゲットを識別する。 レーダー検証に基づく融合法 文献[77]は、視覚検出とレーダー検出によって生成されたターゲットリストを重ね合わせて、一意の車両リストを生成している。レーダーデータは視覚検出結果を検証するために使用され、レーダーデータ内に視覚検出結果と一致するオブジェクトがある場合は、青いボックスが強い仮説としてマークされます。それ以外の場合、ターゲットが存在しない場合は破棄されません。緑色のボックスが弱い仮説としてマークされます。文献[78]では、レーダー散乱中心の追跡スコアを評価することで追跡対象のリストをリアルタイムで修正できるマルチターゲット追跡(MTT)アルゴリズムが提案されている。ステレオビジョン情報を使用して対象車両の輪郭をフィッティングし、対象車両に一致するレーダーターゲットを使用して位置を補正します。 機能レベルの融合機能レベルの融合は、近年登場した新しいソリューションです。そのプロセスを次の表に示します。 特徴レベルの融合法[79]-[83]では、追加のレーダー入力ブランチを使用するのが一般的なアプローチであり、CNNベースの物体検出モデルは画像の特徴情報を効果的に学習することができます。レーダー検出情報を画像形式に変換することで、検出モデルはレーダーと視覚特徴情報を同時に学習し、特徴レベルの融合を実現できます。特徴レベルの融合プロセスを次の図に示します。 CNNベースの融合フレームワーク レーダー情報は画像情報と直接融合できないため、レーダー特徴抽出の目的はレーダー情報を変換することです。レーダー特徴抽出では、主にレーダーポイントを画像平面に変換してレーダー画像を生成する方法が使用されます。マルチチャンネル変換後のレーダー画像には、レーダーによって検出されたすべての環境特徴が含まれており、各チャンネルは距離、縦方向速度、横方向速度などの物理量を表します。文献[83]では、レーダーセンサーの測定データを使用して、レーダーセンサーによって検出されたすべての環境特徴を含むカメラのような画像を生成する新しい条件付きマルチジェネレータ生成敵対ネットワーク(CMGGAN)が提案されている。 [80]は、レーダースパース画像と呼ばれる新しいレーダー特徴記述法を提案した。レーダースパース画像は416×416の3チャンネル画像であり、そのサイズは視覚画像のサイズに直接対応する。3つのチャンネルには、レーダーポイントの速度と深度の特徴情報が含まれている。 [82]では、Changらはレーダー点の深度、水平、垂直情報を異なるチャネルの真のピクセル値に変換した。レーダーポイントがないエリアについては、ピクセル値を 0 に設定し、レーダーポイントを中心とした円を使用してレーダー画像をレンダリングしました。 [81]では、レーダー検出結果に高さ情報が欠けていることを考慮して、Nobisらは投影されたレーダー点を垂直方向に引き伸ばし、画像とよりよく統合しました。レーダー情報の特徴は、ピクセル値の形式で拡張画像に保存されます。さらに、無効なレーダーポイントを除去するためのグラウンドトゥルースノイズフィルターが提案されています。 機能の融合 基本的な機能融合方法は、カスケードと要素ごとの追加の 2 つのカテゴリに分けられます。前者はレーダー特徴マトリックスと画像特徴マトリックスをマルチチャネルマトリックスに接続し、後者は 2 つのマトリックスを 1 つのマトリックスに結合します。 [79]はカスケード法と要素ごとの加算法という2つの融合法を確立した。実験結果では、両方の融合法で検出性能が向上することが示された。要素ごとの追加方法は手動で注釈が付けられたテスト セットでより優れたパフォーマンスを発揮しますが、カスケード メソッドは生成されたテスト セットでより優れたパフォーマンスを発揮します。 [82]では、空間注意融合(SAF)と呼ばれるセンサー特徴融合のための新しいブロックが提案されました。注意重みマトリックスは、レーダーと視覚の特徴を融合するために SAF ブロックを使用して生成されます。同時に、[82]はSAF法を3つの要素ごとの加算、乗算、連結法と比較し、その結果SAF法が最高の性能を持つことを示しました。さらに[82]はFaster R-CNNの一般化実験を行い、SAFモデルも検出性能を向上させた。 課題と今後の動向課題物体検出タスクに関しては、現在の研究結果は優れたパフォーマンスを達成していますが、これらの結果のほとんどは 2 次元の物体検出です。実際の自動運転のシナリオでは、複雑な交通環境では通常、環境情報をより正確に認識するために 3D ターゲット検出が必要です。現在の 3D オブジェクト検出ネットワークのパフォーマンスは、2D 検出よりもはるかに低いです。したがって、3D 物体検出の精度を向上させることは、自動運転の分野における課題であるだけでなく、物体検出タスクにおける大きな課題でもあります。 ミリ波レーダーとビジョンの融合には依然として課題が残っており、それがこの記事の焦点となっています。ミリ波レーダーの最大の欠点は、レーダーの機能が乏しいことです。視覚画像と比較すると、ミリ波レーダーは提供する情報が非常に少なく、大幅なパフォーマンスの向上をもたらすことはできません。さらに、ミリ波レーダーとビジョンの特徴情報をさらに統合できるかどうか、またそれらの間の関連する相互情報がマイニングされているかどうかについては、まだ研究の余地があります。したがって、ミリ波レーダービジョンフュージョンは、スパースな知覚情報とより効果的なフュージョンという 2 つの大きな課題に依然として直面しており、これらはマルチセンサーフュージョンの分野における 2 つの大きな課題でもあります。 今後の動向著者らは、3 つの主なトレンドがあり、その 1 つが 3D オブジェクトの検出であると考えています。3D オブジェクト検出の精度を向上させることが、主要な研究トレンドになるでしょう。残りの 2 つのトレンドは、レーダーとビジョンの融合に関するものです。一方では、自動運転において優れた性能を発揮するLIDARなどの新しいセンサーを追加し、新たなセンサー情報を統合する必要があり、他方では、マルチモーダル融合など、センサー情報融合の新しい手法を模索する必要がある。 マルチセンサー融合に基づく 3D ターゲット検出では、ビジョンベースのターゲット検出ネットワークにレーダー入力ブランチと情報融合モジュールも追加されます。文献[91]では、特徴レベルの融合に似た方式を使用して、最初に2D検出によってレーダーポイントを長方形領域にマッピングし、次に3D検出を実行しました。また、LiDARは豊富な特徴を持っているため、物体の輪郭を再構築し、3Dボックスをより簡単に推定することができます。そのため、LiDARをマルチセンサー融合3D物体検出に使用する研究が数多く行われています。 LiDARのコストが下がるにつれて、LiDARを搭載した自動運転車がトレンドになってきました。しかし、LIDARは独自の利点を持つミリ波レーダーに取って代わることはできません。 LiDAR は検出精度が高く、互いに補完し合います。LiDAR と視覚の融合は、自動運転において非常に価値あるものになりつつあります。ミリ波レーダーでもライダーでも、センシング情報はモードが違っても同じ環境情報です。レーダーセンシング情報と視覚情報もまた異なるモダリティの情報です。レーダービジョン融合をマルチモーダル情報融合として考えると、より良い解決策が得られる可能性があります。また、自動運転の分野では、データセットで提供されるミリ波レーダーデータは後処理されたデータとなります。ただし、情報保護の観点からは、後処理されたレーダー データに含まれる情報量は、元のデータに比べて失われる必要があります。生のレーダー検出データと視覚画像を 2 つの異なるセンサー情報様式と見なして融合すると、より豊富なセンサー情報を取得できます。マルチモーダル情報融合の課題は、異なるモダリティからの情報とそれらが運ぶノイズをいかに完璧に組み合わせるか、そして同じことを理解するのに役立つ関連情報をいかにマイニングするかにあります。 オリジナルリンク: https://mp.weixin.qq.com/s/Oc_rKRgxiYdA8JkJGILHVg |
>>: 教育における人工知能は2032年までに882億ドルに達する
[[400684]]製造品に対する世界的な需要が高まり続ける中、製造組織とサプライチェーン内のセキュ...
スペインの新聞「ヴァングアルディア」によると、アップルは2025年にハンドルもペダルもない自動車を発...
【51CTO.comオリジナル記事】序文最近、Bespin Globalの共同創設者であるBrad ...
未来の工場はどのようなものになるでしょうか? AI を主要な原動力として、工場はより機敏かつカスタマ...
[[357814]]これを読んでいるあなたは、目の前のウェブサイトから CT スキャンの読み取りまで...
[[330768]] 【51CTO.com クイック翻訳】世界中でデータの爆発的な増加がしばらく続...
1. 背景1.1 ブースティングブースティング[1]は、アンサンブルモデルを訓練するための古典的な手...
ほとんどの機械学習プロセスでは、トレーニングと推論に使用するデータを前処理する必要があります。前処理...
[[286539]]ビッグデータダイジェスト制作著者: 張大毓如、陳若夢春節が近づいてきました!叔母...
[[350388]]人工知能のトレンドの 1 つは、「クラウド」から「エッジ」へと急速に移行している...
インテリジェント コンピューティング センターを「誰でもアクセス可能かつ無料」にする時が来ています。...