この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。 序文と個人的な理解協調センシング技術は、障害物による妨害、視野角の制限、遠距離認識能力の弱さなど、単体認識に存在する問題を効果的に解決できます。しかし、実際のシナリオでは、ネットワークの輻輳や遅延などの問題があり、協調知覚に影響を与え、パフォーマンスが著しく低下し、単独知覚よりもさらに低下します。 NeurIPS 2023の最新の研究論文「鳥瞰フローによる非同期堅牢な協調認識」では、協調情報のタイムスタンプがずれている協調認識タスクを非同期協調認識(非同期協調認識)と定義しています。上海交通大学、南カリフォルニア大学、上海人工知能研究所の研究者らは、この論文で、鳥瞰フロー(BEVフロー)に基づく時間同期かつ堅牢な協調認識システムであるCoBEVFlowを提案しました。実験結果は、CoBEVFlow がタイミングの非同期の影響を効果的に軽減できることを示しています。
CoBEVFlowの出発点近年、自動運転の分野は学界と産業界の両方で大きな注目を集めています。しかし、現実世界の道路状況は複雑かつ変化しやすく、歩行者、非自動車、交通ルールを守らない道路参加者、稀に動物も存在します。これらの特殊な状況は、自動運転技術の応用に大きな課題をもたらします。単一車両に搭載されたセンサー(カメラ、ライダー、ミリ波レーダーなど)の場合、単一車両センサーに基づくターゲット検出の方法は単一車両認識と呼ばれます。単体知覚はほとんどの場合うまく機能しますが、このタイプの知覚には固有の制限があります。単体認識は独自のセンサーに依存しており、その認識能力はセンサーの視野角、有効距離、精度によって制限されます。たとえば、センサーが遮られて視野角が制限されると、知覚能力が大幅に低下し、インテリジェントエージェントのその後の認識と意思決定に安全上の危険が生じます。さらに、遠くにある物体の場合、LIDAR によって生成される点群はまばらすぎて有効な位置情報を提供できず、認識システムが長距離の環境を認識することが困難になります。下の写真は、視界が遮られることで人間のドライバーにとって「ゴーストの覗き見」問題が頭痛の種となっている現実のシナリオを示しています。 図 1. 視界が遮られることで生じる「ゴースト ピーキング」の問題は、人間のドライバーにとっても頭痛の種です。 複数のエージェント間の協調知覚は、単一エージェント知覚に存在するこれらの問題の解決策を提供します。通信技術の発展により、複数のインテリジェントエージェントが通信を利用して互いの情報を共有できるようになりました。各インテリジェントエージェントは、自身のセンサー情報と他のインテリジェントエージェントの情報を組み合わせて、周囲の環境を認識できます。インテリジェント エージェント間の連携により、各エージェントは自身の死角や可視距離を超えた情報を取得できるため、各エージェントの認識能力と意思決定能力が向上します。さらに、協調的知覚により、インテリジェント エージェントの高精度長距離センサーへの依存度も低減できます。低精度、低コストのセンサーを使用する複数のインテリジェント エージェントの連携により、単一のインテリジェント エージェントの知覚能力を達成したり、さらに上回ったりすることができます。現実の世界では、通信の遅延、輻輳、中断、クロックのずれ、一貫性のないサンプリング周波数などの問題により、エージェントが受信する共同情報のタイムスタンプが一貫していないことは避けられません。図に示すように、青い車両は自我エージェントを表し、他の 2 台の車両は連続したタイムライン上の異なる瞬間に協力情報を送信します。この場合、メタエージェントによって収集される情報は、不揃いのタイムスタンプで発生します。 図 2. 非同期通信の概略図。異なるエージェントからの共同メッセージのタイムスタンプは、連続したタイムライン上の任意の値です。 この問題により、マルチエージェント融合プロセスで情報の不一致が発生します。異なるエージェントからの共同情報では、同じ移動ターゲットの位置情報が異なるため、共同認識によって得られる認識結果が単一エージェントのものよりもさらに悪くなります。この問題を無視して従来の協調センシング方法を使用した場合、協調センシングの結果は図に示されています。 図 3. 共同情報の不一致なタイムスタンプが共同認識に与える影響。赤は認識された結果を表し、緑は実際の値を表します。左の図は、コラボレーションが矛盾している場合に CoBEVFlow を使用しない場合の結果を示し、右の図は CoBEVFlow で処理した後の結果を示しています。 赤いボックスは検出結果を表し、緑のボックスは真の値を表します。「間違った」共同情報は、メタエージェントの単一エージェント知覚情報に干渉し、単一エージェント知覚結果よりもさらに悪い結果をもたらします。つまり、タイムスタンプの不一致の問題により、コラボレーションが無意味になります。 CoBEVFlowの問題定義研究者らはまず、非同期協調知覚課題の数学的定義を示した。 シーン内のエージェントの場合、各エージェントは他のエージェントと共同メッセージを送受信し、任意のエージェントの最大履歴フレームからメッセージを保存できます。番目のエージェントの場合、およびはそれぞれ現在の時刻 における生の観測値と真実です。ここで、 はエージェント の 番目のタイムスタンプであり、 は時刻 にエージェントからエージェントに送信された共同メッセージです。非同期設定の鍵となるのは、各コラボレーション メッセージのタイムスタンプが連続した値であり、他のエージェントからのこれらのメッセージは整列されていない、つまり、2 つの連続するタイムスタンプ間の時間間隔が固定されていないことです。したがって、各エージェントは他のエージェントから送信された協力メッセージをいつでも受信します。したがって、非同期コラボレーション認識のタスクは次のように表現できます。 ここで、 は知覚評価指標、 は時刻 におけるエージェントの知覚結果、 は訓練可能なパラメータを持つ協調知覚ネットワーク、 $t_m^{j-k+1}}t_m^{j-k+2}}\cdots<t_m^j\le t_n^i}} です。他のエージェントからの協力メッセージが整列し、連続する 2 つのタイムスタンプ間の時間間隔が規則的である場合、つまり、すべてのエージェントのペア「$m,n$」に対して「$t_m^i="t_n^i$」があり、すべてのエージェント「$n$」に対して「$t_n^i-t_n^{i-1}$」が定数である場合、タスクは理想的なタイミング同期による協力センシングに退化することに注意してください。 <="" p=""> CoBEVFlowの手法の紹介非同期協調センシングの本質的な問題は、複数のエージェントからの協調情報によって、同じ移動ターゲットの位置情報が、異なる時間に記録される可能性があることです。したがって、研究者によって提案された CoBEVFlow は、この問題を解決するために 2 つの中心的なアイデアを使用します。
これら 2 つのアイデアにより、直接的な特徴の変更が回避され、背景の特徴が維持されるため、CoBEVFlow は不要なノイズを導入しません。 CoBEVFlowの全体的なフレームワーク図4. CoBEVFlowフレームワーク図。 CoBEVFlow フレームワーク図に示されているように、元の知覚情報はエンコーダーを介して渡され、特徴が取得されます。メッセージパッキングモジュールでは、特徴はROIジェネレーターに渡されてROIセットが取得され、同時にマスクとして使用され、スパース特徴が取得されます。各エージェントはROIセットとスパース特徴を連携情報としてパッケージ化し、送信します。エージェントは、他のエージェントから送信されたコラボレーション情報を受信した後、メッセージ フュージョン モジュールでコラボレーション情報を処理します。同一エージェントからの過去フレーム情報に基づき、フロージェネレータを介して鳥瞰フローマップ(BEVフローマップ)を生成し、フローマップを使用してスパース特徴マップ上の特徴を現在の位置に移動し、つまり移動した特徴を取得します。処理された特徴は、それ自身の特徴と融合されて融合特徴が得られ、それがランダムにデコーダーに入力されて最終的な認識結果が得られます。 メッセージのパッキングBEV 特徴マップ上に ROI セットを生成し、これらのセットと対応するスパース特徴を送信します。 ROI ジェネレーターが使用するネットワーク アーキテクチャはデコーダーのアーキテクチャと一致していますが、ネットワーク パラメーターは一致している必要はありません。この目的は、ROI ジェネレーターがモノマー知覚の特徴分布についてさらに学習できるようにすることです。 メッセージ融合これらの ROI の移動傾向を捉えることを BEV フロー マップと呼びます。BEV フローは、非同期情報を現在の瞬間に合わせて統合するために使用されます。 BEVFlow の生成には、次の 2 つの重要なステップが含まれます。
図 5. BEV フロー マップの生成には、ROI マッチングとフロー生成プロセスが含まれます。 隣接フレームの ROI マッチング: 目標は、同じエージェントによって 2 つの連続するタイムスタンプで送信された情報内の関心領域 (ROI) を一致させることです。一致した ROI は、基本的に異なるタイムスタンプでの同じターゲットです。マッチングは、コスト マトリックスの構築、貪欲マッチング、後処理の 3 つのプロセスで構成されます。まず、コスト マトリックスが構築されます。各値は 2 つのタイムスタンプにおける 2 つの ROI 間のマッチング コストを表し、マトリックス内の各値は角度と距離に基づいて計算されます。次に、貪欲なマッチング戦略を使用して、一致する ROI を検索します。最後に、大きすぎる値で表されるペアを削除することで、後処理で無効な一致を回避します。 図6. BEVフロー推定の概略図。 BEV フロー推定: 一連の不規則なタイムスタンプで各 ROI の履歴位置を取得します。このモジュールは、これらの不規則な軌道セグメントを使用して、メタエージェントの現在のタイムスタンプにおけるこれらの ROI の位置と方向を予測し、対応する BEV フローを生成する、注意ベースのモジュールです。定期的な通信遅延を処理するためにリカレント ニューラル ネットワークを使用する SyncNet (ECCV'22) と比較して、結果として得られる BEV Flow には 2 つの利点があります。i) 注意ベースの推定と適切な時間的エンコーディングにより、不規則な非同期状況を処理し、ii) 動きの傾向に基づいて特徴を移動し、特徴マップ全体の再生成を回避します。 実験結果CoBEVFlow の有効性を検証するために、研究者らは IRV2V と DAIR-V2X という 2 つのデータセットで実験を実施しました。その中で、IRV2V は、本論文で提案された最初の非同期協調知覚データセットであり、さまざまな程度の時間的非同期性を含み、DAIR-V2X は実際のデータセットです。実験のタスクは、ポイントクラウドに基づくオブジェクト検出です。検出性能は、Intersection-over-Union (IoU) しきい値 0.50 および 0.70 を使用して評価され、平均精度 (AP) が評価メトリックとして使用されました。 CoBEVFlow(赤の実線)は非同期の場合に大幅に堅牢である図 7. 0~500 ms の範囲の時間間隔の期待値に対する CoBEVFlow のパフォーマンスを他のベースライン メソッドと比較した図。 CoBEVFlow は、両方のデータセットですべてのベースライン メソッドを上回り、あらゆる非同期レベルでも優れた堅牢性を発揮します。 研究者らは、さまざまなレベルの非同期性において、既存の協調知覚 SOTA 手法の知覚結果を CoBEVFlow と比較しました。図に示すように、赤い点線はコラボレーションなしの単体検出を表し、赤い実線は CoBEVFlow を表します。すべてのメソッドは PointPillars ベースの機能エンコーダーを使用します。時間的な非同期性をシミュレートするために、研究者らは二項分布を使用して受信メッセージのフレーム間隔をサンプリングし、ランダムで不規則な時間間隔を取得しました。この図は、IRV2VとDAIR-V2Xにおける異なる程度の時間的非同期下での提案CoBEVFlow方式とSOTA方式の検出性能(AP@IoU=0.50/0.70)の比較を示しています。ここで、x軸は最新の受信情報の遅延時間間隔と隣接フレーム間の間隔の期待値、y軸は検出結果です。 x 軸が 0 の場合、非同期のない標準的な協調センシングを表すことに注意することが重要です。次のことがわかります: i) あらゆる程度の非同期性において、CoBEVFlow はシミュレートされたデータセット (IRV2V) と実際のデータセット (DAIR-V2X) の両方で最高のパフォーマンスを実現します。 IRV2V データセットでは、300 ミリ秒の予想間隔で、CoBEVFlow は [email protected] と [email protected] でそれぞれ 23.3% と 35.3% 最良の SOTA 方式を上回ります。同様に、500 ミリ秒間隔の期待値では、それぞれ 30.3% と 28.2% の改善が達成されます。 DAIR-V2X データセットでは、CoBEVFlow は依然として良好なパフォーマンスを発揮します。 ii) CoBEVFlow は優れた非同期堅牢性を示します。図の赤い線で示されているように、異なる非同期条件下では、CoBEVFlow は IRV2V データセットの [email protected] と [email protected] で 4.94% と 14.0% の減少しか受けません。これらの結果は、極端な非同期の場合でも、単一オブジェクト検出のパフォーマンスをはるかに上回ります。 図 8. IRV2V データセットにおける CoBEVFlow と SOTA 手法の視覚的な比較。赤は予測結果、緑は実際の値です。図 9. DAIR-V2X データセットにおける CoBEVFlow と SOTA 手法の視覚的な比較。赤は予測結果、緑は実際の値です。 図 10. 時系列非同期の場合の where2comm を使用した直接協調センシングの結果 (左) と、CoBEVFlow を使用した協調センシングの結果 (右) を比較したものです。赤は予測結果、緑は実際の値です。 CoBEVFlow(赤の実線)は通信帯域幅を大幅に節約します図 11. 認識されるパフォーマンスと通信帯域幅の関係(予想されるタイミングの非同期は 300 ミリ秒)。 研究者たちは、通信帯域幅に関してさまざまな方法のパフォーマンスを比較しました。図に示すように、赤い実線は CoBEVFlow を表します。時間的非同期の期待値が 300 ミリ秒の場合、CoBEVFlow のパフォーマンスは通信量の増加に伴って着実に向上し続けますが、where2comm と SyncNet のパフォーマンスは非同期情報によって変動します。 CoBEVFlow が通信帯域幅を大幅に節約できる理由は、コラボレーション情報に、機能マップ全体を使用するのではなく、ROI 領域と ROI セット内のスパース機能のみが含まれているためです。 CoBEVFlowは追加のノイズの発生を回避できる図12. BEVフローマップの効果の視覚化。 (a) と (b) はそれぞれ修正前と修正後の中間特徴の視覚化です。(c) は BEV フロー マップの視覚化です。(d) はマッチング結果の視覚化です。 CoBEVFlow は、過去のコラボレーション情報を使用して鳥瞰図のフロー マップ (BEV フロー マップ) を生成し、そのフロー マップに基づいて、BEV 機能マップ上の「グリッド」機能に対応する新しいインデックスを見つけます。このプロセスの考え方は、特徴の数値変換を伴わずに、非同期の特徴を現在の瞬間に対応する位置に「移動」し、追加のノイズの導入を回避することです (実際、特徴を移動するプロセスでは、ワープ操作に PyTorch の組み込み関数が使用され、わずかな差異エラーが発生します)。研究者らは、図のサブ画像(a)と(b)に示すように、元の特徴と移動した特徴をそれぞれ視覚化しました。同時に、生成されたBEVフローマップとROI領域のペアリング結果が、図のサブ画像(c)と(d)に示すように視覚化されます。図からわかるように、本論文で提案した鳥瞰図フローマップ生成器は、異なるフレーム内のROI領域を効果的にペアリングできるため、ROI領域の動きの傾向を捉え、フローマップを生成して特徴マップを修正することができます。 図 13. 鳥瞰フローグラフの連続マルチフレーム視覚化結果。 BEVフローマップは融合後よりも融合中の方が優れている表 1 IRV2V データセットにおけるアブレーション実験の結果。 生成された BEV フロー マップは ROI の動きの傾向を正確に捉えることができるので、検出ボックスの位置を直接修正してみませんか?研究者らはアブレーション実験においてこの問題に関する実験的検証も行った。表の3行目と5行目を比較すると、特徴の補正の方が検出フレームの位置の補正よりも優れていることがわかります。研究者らは、関心領域は単一車両検出の完全なオブジェクトではないかもしれないが、複数車両融合後の特徴マップには複数の協力者からの情報が含まれていると推測している。したがって、単一車両の観点から「不確実な」ターゲットの場合、中間融合は中間特徴を操作する上でより多くの利点を持つことになる。さらに、時間エンコーディングとさまざまなマッチングアルゴリズムの効果もアブレーション実験で検証されました。 要約するCoBEVFlow は、協調センシングにおけるタイミングの非同期問題の解決に重点を置いています。提案されている中核的なアイデアは 2 つあります。まず、各インテリジェント エージェントによって送信される共同情報には、関心領域に対応するスパース特徴マップが含まれている必要があります。次に、協調知覚中に、収集された履歴情報に基づいて BEV フローが生成され、タイミングの非同期の特性を「修正」するために使用されます。これら 2 つの重要なアイデアにより、CoBEVFlow は、機能グラフに追加のノイズを導入することなく、遅延、中断、一貫性のないサンプリング周波数などによって引き起こされるタイミングの非同期の問題を効果的に処理できます。 オリジナルリンク: https://mp.weixin.qq.com/s/BNFPPrQB4dVhm66p_ikqjA |
かつては企業にとって「空約束」と考えられていた人工知能(AI)と機械学習(ML)が、今では主流になっ...
OpenAIの共同創設者であるヴォイチェフ・ザレンバ氏はポッドキャストで、OpenAIがロボット工学...
4月22日、「情報セキュリティ技術の顔認識データのセキュリティ要件」国家標準の草案が正式に公開され、...
[[417111]] AI と IoT ほどエキサイティングで重要なテクノロジーの組み合わせはほと...
少し前、あるニュースが大きな衝撃を与えた。3年前の母親殺害事件の容疑者、呉謝宇が重慶江北空港で逮捕さ...
2006 年 12 月、国際的に有名な学術組織である IEEE 国際データマイニング会議 (ICD...
ディープラーニング対応ソフトウェアから自動運転車、スマートロボットから IoT アプリケーションまで...
[[422829]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...
自動運転車は自動車業界にとって非常に破壊的な技術です。現在、多くのメーカーが物流、自動運転タクシー、...
10月10日、「人工知能のゴッドファーザー」として知られるジェフリー・ヒントン氏は、人工知能は危険で...
AI を使用したソーシャル メディアの監視により、仕事、大学入学、賃貸住宅などを失う恐れがあり、本...
人工知能は、IoT の機能を実現する上で重要な役割を果たします。 AI と IoT の融合を推進し、...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...