FMCW レーダー位置認識をエレガントに実装する方法 (IROS2023)

FMCW レーダー位置認識をエレガントに実装する方法 (IROS2023)

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

皆さんこんにちは。私の名前はYuan Jianhaoです。IROS2023でレーダー位置認識に関する私たちの取り組みを共有するためにHeart of Autonomous Drivingプラットフォームに参加できることを大変嬉しく思います。

周波数変調連続波 (FMCW) レーダーを使用した測位は、厳しい環境に対する固有の耐性により、ますます注目を集めています。ただし、この有望なセンサー モダリティの安全で信頼性の高い適用を確保するには、レーダー測定プロセスの複雑なアーティファクトに対して適切な不確実性の推定が必要です。本研究では、埋め込み空間で学習した分散特性に基づいて、さらなるローカリゼーションのための「最適な」マップを構築するマルチセッション マップ管理システムを提案します。同じ分散特性を使用して、おそらく不正確なローカリゼーションクエリを内省的に拒否する新しい方法も提案します。この目的のために、私たちは、走行経路に沿ったレーダーデータの短期スケールの変動を活用し(データ増強のため)、メトリック空間ベースの場所認識における下流の不確実性を予測するために、堅牢なノイズ認識メトリック学習を適用します。私たちは、Oxford Radar RobotCar および MulRan データセットでの広範な相互検証テストを通じて、私たちのアプローチの有効性を実証します。ここでは、最近傍クエリを 1 つだけ使用して、レーダー位置を識別するための現在の最先端技術やその他の不確実性を考慮した方法を上回ります。また、不確実性に基づいてクエリを拒否する際の困難なテスト環境でもパフォーマンスが向上することが示されていますが、これは競合する不確実性を考慮した場所認識システムでは確認されていません。

Off the Radarの出発点

位置認識と位置特定は、システムが環境を理解して移動できるようにするため、ロボット工学と自律システムの分野における重要なタスクです。従来の視覚ベースの位置認識方法は、照明、天候、遮蔽などの環境条件の変化の影響を受けやすく、パフォーマンスが低下します。この問題に対処するため、このような敵対的な環境に対する堅牢なセンサーの代替として FMCW レーダーを使用することに関心が高まっています。

既存の研究では、FMCW レーダーの位置認識における手作業による特徴抽出方法と学習ベースの特徴抽出方法の両方の有効性が実証されています。既存の研究は成功しているものの、自動運転などの安全性が重要視されるアプリケーションへのこれらの方法の導入は、校正の不確実性推定によって依然として制限されています。この領域では、考慮すべき点がいくつかあります。

  1. セキュリティでは、イントロスペクション拒否を可能にするために、不確実性の推定を誤検出率で適切に調整する必要があります。
  2. リアルタイム展開には、単一スキャンの不確実性に基づく高速推論機能が必要です。
  3. 長期の自律走行における繰り返しのルート移動には、オンラインでの継続的なマップのメンテナンスが必要です。

VAE は生成タスクによく使用されますが、その確率的潜在空間は位置認識のための効果的なメトリック空間表現として機能し、データノイズ分布に関する事前の仮定を行うことができ、これにより正規化された偶然性不確実性の推定も提供されます。したがって、本稿では、変分対照学習フレームワークを活用し、自動運転における FMCW レーダーの信頼性と安全性を実現するための、統一された不確実性ベースのレーダー位置識別方法を提案します。

システムプロセスの概要

オフラインフェーズでは、変分対照学習フレームワークを使用して、類似のトポロジー位置からのレーダースキャンが互いに近くなり、その逆も成り立つように、推定された不確実性を持つ潜在的な埋め込み空間を学習します。オンラインフェーズでは、推論とマップ構築のために継続的に収集されたレーダースキャンを処理するための 2 つの不確実性ベースのメカニズムを開発します。同じルートを繰り返して通過する場合、不確実なスキャンをより確実なスキャンに置き換えることで、マップの統合辞書を積極的に維持します。不確実性の低いクエリ スキャンの場合、メトリック空間距離に基づいて辞書から一致するマップ スキャンを取得します。逆に、不確実性が高いスキャンの予測は拒否します。

オフ・ザ・レーダー法の紹介

この論文では、位置認識における不確実性を説明するために、レーダー位置認識のための変分対照学習フレームワークを紹介します。主な貢献は次のとおりです。

  1. 不確実性を考慮した対照学習フレームワーク。
  2. 調整された不確実性の推定に基づく内省的なクエリ メカニズム。
  3. 変化する環境に対応するオンライン再帰マップメンテナンス。

変分対照学習

[^Lin2018dvml] に基づく変分対照学習フレームワークの概要。メトリック空間は、認識のための決定論的埋め込みと、不確実性尺度としての分散を持つ多変量ガウス分布をモデル化する一連のパラメータという 2 つの再パラメータ化された部分を持つエンコーダー/デコーダー構造を介して学習されます。全体的な学習は、再構成と対照損失によって共同で推進され、レーダースキャンの有益な隠された表現と識別的な隠された表現の両方を保証します。

この作業のこの部分は、私たちの中核的な貢献を実現する重要な要素であると同時に、深層変分メトリック学習とレーダー位置認識の斬新な統合であり、位置認識における不確実性を特徴付ける新しい方法でもあります。図に示すように、レーダースキャンの埋め込みを、予測とは無関係な不​​確実性の原因の分散を捉えるノイズ誘起の可変部分と、シーン表現の本質的な特徴を表す意味的に不変の部分に分解する構造を採用しています。変数部分は、後で事前多変量等二乗ガウス分布からサンプリングされ、不変部分に追加されて全体的な表現が形成されます。変数出力は不確実性の尺度として直接使用されます。不確実性の主な原因として、データに内在する曖昧さとランダム性によって引き起こされるモデル予測の偶然の不確実性のみを考慮すると仮定します。特にレーダースキャンの場合、スペックルノイズ、飽和、一時的な閉塞などが原因となることがあります。標準的なメトリック学習法では、選択された損失関数に関係なく、正のサンプルのペア間の潜在的な差異を無視しながら、それらのサンプルのペア間で同一の埋め込みを強制する傾向があります。ただし、これにより、モデルが小さな特徴に鈍感になり、トレーニング分布に過剰適合する可能性があります。したがって、ノイズ分散をシミュレートするには、構造内の追加の確率分散出力を使用して偶然の不確実性を推定します。このようなノイズを考慮したレーダー認識表現を構築するために、全体的なトレーニングをガイドする 4 つの損失関数を使用します。

1) タスクに関係のないノイズをレーダーセマンティクスから分離し、不変埋め込みに十分な因果情報が含まれるようにするための決定論的表現(Z_I)上の不変コントラスト損失

2) バリアントコントラスト損失は、全体的な表現 (Z) 上に意味のあるメトリック空間を構築します。両方の対照的な損失は次の形式をとります。

バッチの 1 つは m 個のサンプルで構成され、「回転」戦略を使用して、回転のフレーム拡張を時間的に近似して合成します。これは、回転不変性のための回転拡張にすぎません。私たちの目標は、拡張されたサンプルが元のインスタンスとして認識される確率を最大化し、逆の場合の確率を最小化することです。

ここで、埋め込み (Z) は、式 1) および 2) で説明されているように、(Z_I) または (Z) です。

3) Kullback–Leibler (KL) ダイバージェンスは、学習したガウス分布と標準的な等方性多変量ガウス分布の間にあり、これはデータ ノイズに関する事前の仮定です。これにより、すべてのサンプルに対してノイズが同じ分布になることが保証され、変数出力の絶対値の静的参照が提供されます。

4) 抽出された特徴マップ (M) とデコーダー出力 (MR) の間に再構成損失が適用され、全体的な表現 (Z) に再構成するのに十分な元のレーダースキャンからの情報が含まれるようになります。ただし、ピクセルレベルのレーダースキャンの再構築ではなく、デコード処理中の計算コストを削減するために、より低次元の特徴マップのみを再構築します。

KL ダイバージェンスと再構成損失のみによって駆動されるバニラ VAE 構造も潜在分散を提供しますが、事後崩壊と分散消失の問題がよく知られているため、不確実性の推定には信頼できないと考えられています。この非効率性は、主にトレーニング中の 2 つの損失の不均衡によるものです。KL ダイバージェンスが優勢な場合、潜在空間事後分布は事前分布と等しくなるように強制されますが、再構築損失が優勢な場合、潜在分散はゼロに押し下げられます。しかし、私たちのアプローチでは、追加の正則化子としてバリアント対照損失を導入することで、より安定したトレーニングを実現します。この場合、分散は、メトリック空間内のクラスター中心間の堅牢な境界を維持するように駆動されます。その結果、レーダー知覚の根本的な偶然性不確実性を反映する、より信頼性の高い潜在空間変動が得られます。私たちは、特徴増強損失設定における不確実性の学習に対する私たちの特定のアプローチの利点を実証することを選択します。この分野では、レーダー位置認識の最新技術では、多数の(つまり、2 個を超える)負のサンプルによる損失が使用されているため、これを拡張します。

継続的なマップメンテナンス

私たちの目標は、自律走行車の運転中に取得されたスキャンデータを最大限に活用し、再帰的にマップを改善することであるため、継続的なマップメンテナンスはオンラインシステムの重要な機能です。以前に走査されたスキャンで構成された親マップに新しいレーダー スキャンをマージするプロセスを以下に示します。各レーダースキャンは、潜在表現と不確実性尺度によって表されます。マージ プロセス中に、新しいスキャンごとに、トポロジ距離がしきい値を下回る一致する正のサンプルを検索します。新しいスキャンの不確実性が低い場合は、親マップに統合され、一致するスキャンが置き換えられます。そうでない場合は破棄されます。

マップメンテナンスの概略図: 赤いノードと緑のノードは、それぞれ不確実性が高いレーダースキャンと低いレーダースキャンを表します。当社では、不確実性が最も低いスキャンのみで構成された、各場所の位置基準となる親マップを常に維持しています。破線のエッジは親マップの初期状態を表し、実線のエッジは親マップの更新されたバージョンを表すことに注意してください。

メンテナンスプロセスを繰り返し実行することで、統合された親マップの品質を徐々に向上させることができます。したがって、メンテナンス アルゴリズムは、同じルート トラバーサルの複数の経験を継続的に活用して認識パフォーマンスを向上させながら、一定の親マップ サイズを維持し、計算コストとストレージ コストを予算内に抑えることができるため、効果的なオンライン展開戦略として機能します。

イントロスペクションクエリ

標準ガウス分布による測定のモデル不確実性のため、推定された分散はすべての次元で 1 に近くなります。したがって、2 つのハイパーパラメータ \Delta と N を使用して、不確実性除去のスケールと解像度を完全に定義できます。結果として得られるしきい値 T は次のように定義されます。

m次元の潜在分散を持つスキャンが与えられた場合、すべての次元を平均してスカラー不確実性尺度を得る。

拒否を予測する

推論時に、内省的なクエリ拒否を実行します。この場合、定義されたしきい値を超える変動を持つクエリスキャンは認識のために拒否されます。 STUN や MC Dropout などの既存の方法では、バッチ サンプルの不確実性の範囲をしきい値レベルに動的に分割します。ただし、推論中に複数のサンプルが必要となり、特にサンプル数が少ない場合には拒否パフォーマンスが不安定になる可能性があります。対照的に、当社の静的しきい値設定戦略は、サンプルに依存しないしきい値レベルを提供し、一貫した単一スキャンの不確実性の推定と拒否を実現します。この機能は、運転中にレーダースキャンがフレームごとに取得されるため、場所認識システムをリアルタイムで展開するために不可欠です。

実験の詳細

この論文では、1) Oxford Radar RobotCar と 2) MulRan の 2 つのデータセットを使用します。どちらのデータセットも、CTS350-X Navtech FMCW スキャン レーダーを使用しています。レーダー システムは 76 GHz ~ 77 GHz の範囲で動作し、4.38 cm の解像度で最大 3,768 の距離測定値を生成できます。

ベンチマーク 認識性能は、オリジナルのVAE、Gaddなど、いくつかの既存の方法と比較されます。  その他 提案された最先端のレーダー位置認識方法 (BCRadar と呼ばれる) と、学習をベースとしない方法 RingKey (回転の改良のない ScanContext の一部)。さらに、不確実性を考慮した場所認識のベースラインとして使用される MC Dropout および STUN とパフォーマンスを比較します。

アブレーション研究提案された内省的クエリ (Q) およびマップメンテナンス (M) モジュールの有効性を評価するために、次のように OURS(O/M/Q/QM) と表記されるさまざまな方法を比較することにより、アブレーション研究を実行します。

  1. O: マップのメンテナンスやイントロスペクションクエリは不要
  2. M: マップメンテナンスのみ
  3. Q: イントロスペクションクエリのみ
  4. QM: マップメンテナンスとイントロスペクティブクエリ。具体的には、OとMの認識性能と、QとQMの不確実性推定性能を比較します。

共通設定公平な比較を保証するために、すべての対照学習ベースの方法に共通のバッチ対照損失を採用し、ベンチマーク全体で一貫した損失関数を実現します。

実装の詳細

スキャン設定<br>すべての方法で、A = 400 方位角、B = 3768 グリッドの極地レーダー スキャンを、各ボックス サイズが 4.38 cm、辺の長さが W = 256、ボックス サイズが 0.5 m の直交スキャンに変換しました。

ハイパーパラメータのトレーニング<br>背景特徴抽出器として VGG-19 [^simonyan2014very^] を使用し、抽出された特徴をより低い埋め込み次元 d=128 に投影するために線形レイヤーを使用します。私たちは オックスフォード レーダー ロボットカー すべてのベースラインは10エポックでトレーニングされました。  マルラン 反復回数は15、学習率は1e{-5}、バッチサイズは8です。

評価指標

場所認識性能を評価するために、   Recall@N (R@N)  メトリックは、N 個の候補のうち少なくとも 1 つの候補が GPS/INS によって示された実際の値に近いかどうかを判断することによって決定される位置特定精度です。これは、システムの誤検出率の調整を反映するため、自動運転アプリケーションの安全性の保証にとって特に重要です。また、   Average Precision (AP)  すべての再現レベルにわたって平均精度を測定します。最後に、   F-scores  そして  \beta=2/1/0.5  全体的な認識性能を評価するための総合的な指標として、再現率の重要度レベルを精度に割り当てます。

さらに、不確実性推定性能を評価するために。私たちは  Recall@RRでは、内省的なクエリ拒否を実行し、さまざまな不確実性閾値レベルで評価します。   Recall@N=1   -- スキャンの不確実性がしきい値より大きいすべてのクエリを拒否します。したがって、クエリの 0 ~ 100% を拒否しました。

結果の要約

位置認識性能

Oxford Radar RobotCar 実験の表 1 に示されているように、私たちの方法は、メトリック学習モジュールのみを使用して、すべてのメトリックで最高のパフォーマンスを達成します。具体的には、   Recall@1  一方、私たちの方法OURS(O)は、変分対比学習フレームワークを介して学習された分散分離表現の有効性を実証し、90.46%を超える認識性能を達成しました。さらに マルラン 実験結果は、表2に示すように、我々の方法が  Recall@1 、全体  F-scores  そして  AP  それは他のすべての方法よりも優れています。にもかかわらず マルラン 実験では、VAE   Recall@5/10  私たちの方法は、どちらの設定でも私たちの方法よりも優れています。   F-1/0.5/2  そして  AP  私たちの方法は、より高い精度と再現率を持ち、より正確で堅牢な認識性能を実現することが示されています。

Oxford Radar RobotCar の認識性能。最良と 2 番目に良い結果は、それぞれ太字と __下線__ で表示されます。

マルラン氏はパフォーマンスを識別します。上記と同じ形式です。

さらに、オックスフォードレーダーロボットカーの継続的な地図メンテナンスをさらに活用することで、   Recall@1  さらに93.67%まで向上し、現在の最先端手法であるSTUNを4.18%上回ります。これは、場所認識パフォーマンスを向上させるための効果的な不確実性尺度および不確実性に基づく地図統合戦略としての学習された分散の有効性をさらに実証しています。

不確実性推定パフォーマンス

不確実なクエリの拒否率が高くなると、認識性能は特に  Recall@1 オックスフォード レーダー ロボットカー 実験では、図1に示すように、  マルラン 実験は図2に示されています。注目すべきことに、私たちのアプローチは、両方の実験設定において不確実なクエリの拒否率の増加に伴って認識パフォーマンスが一貫して向上することを示す唯一のアプローチです。 MulRan 実験では、拒否率が増加するにつれて着実に改善するのは OURS(Q) だけです。   Recall@RR  インジケーター方式。我々の手法と同様にモデルの不確実性を推定するVAEやSTUNと比較すると、OURS(Q)は  Recall@RR=0.1/0.2/0.5  一方、VAE と STUN は +(1.32/3.02/8.46)% の改善を達成しましたが、VAE と STUN はそれぞれ -(3.79/5.24/8.80)% と -(2.97/4.16/6.30)% 減少しました。

Oxford Radar RobotCar の内省的なクエリ拒否パフォーマンス。拒否された不確実なクエリの割合が増加すると、 Recall@1増加/減少します。 VAE のパフォーマンスは他の方法と比較して比較的低いため (具体的には、 Recall@RR=0.1/0.2/0.5 0.2/0.5 の場合 (48.42/48.08/18.48)%)、視覚化は実行されません。

Mulran のイントロスペクション クエリ拒否パフォーマンス。上記と同じ形式です。

一方、MCドロップアウトと比較すると、後者はデータバイアスとモデル誤差による認識論的不確実性を推定するが、   Recall@1  は増加しますが、そのパフォーマンスは一般に私たちのものよりも低く、拒否率がさらに増加すると大きな改善は達成されません。最後に、オックスフォードレーダーロボットカー実験でOURS(Q)とOURS(QM)を比較すると、   Recall@RR  変化のパターンは似ていますが、その間にはかなりのギャップがあります。これは、内省的なクエリとマップ維持メカニズムがそれぞれ独立して場所認識システムに貢献し、それぞれが不確実性の尺度を統合的に活用していることを示唆しています。

Off the Radar についての議論

定性分析と視覚化

レーダー知覚における不確実性の原因を定性的に評価するために、私たちの方法を使用して推定された 2 つのデータセットからの高/低不確実性サンプルの視覚的な比較を提供します。図に示すように、不確実性が高いレーダー スキャンでは通常、モーション ブラーが顕著で、検出されない領域がまばらですが、不確実性が低いスキャンでは、通常、ヒストグラムに強い強度を持つ明確な特徴が含まれます。

さまざまな不確実性レベルでのレーダースキャンの視覚化。左側の 4 つの例は Oxford Radar RobotCar Dataset からのものであり、右側の 4 つの例は MulRan からのものです。不確実性が最も高い (上) / 最も低い (下) 上位 10 件のサンプルを表示します。レーダースキャンは、コントラストが強調された直交座標で表示されます。各画像の下のヒストグラムは、すべての方位角から抽出された強度の RingKey 記述子の特徴を示しています。

これは、レーダー認識における不確実性の原因に関する私たちの仮説をさらに裏付けるものであり、私たちの不確実性測定がこのデータノイズを捉えていることの定性的な証拠となります。

データセットの違い

ベンチマーク実験では、2 つのデータセット間の認識パフォーマンスにかなりの違いが見られました。利用可能なトレーニング データのサイズが、もっともらしい理由であると考えられます。 Oxford Radar RobotCar のトレーニング セットには 300 km を超える運転経験が含まれていますが、MulRan データセットには約 120 km しか含まれていません。ただし、RingKey 記述子アプローチのパフォーマンス低下も考慮されます。これは、レーダーシーン認識には本質的に区別できない特徴がある可能性があることを示唆しています。たとえば、オープンエリアがまばらな環境では、スキャン結果が同一になり、認識パフォーマンスが最適にならないことがよくあります。このデータセットでは、これらの高い不確実性の下でシステムとさまざまなベースラインに何が起こるかを示します。

オリジナルリンク: https://mp.weixin.qq.com/s/wu7whicFEAuo65kYp4quow

<<:  自律走行レースのためのマルチモーダルセンサーフュージョンとターゲット追跡

>>: 

ブログ    
ブログ    

推薦する

...

AI によるマインドリーディング: コンピューターはどのようにして脳波を復元するのか?

[[255490]]画像出典: Visual China 「私の体は潜水鐘のように重いが、私の心は...

GPT-4 は AGI のきっかけとなるだけでしょうか? LLMは最終的に廃止され、世界モデルが未来となる

人間の認知においては、汎用人工知能(AGI)を人工知能の究極の形、およびその開発の究極の目標として設...

まるで平らな地面を歩いているようです!ボストンダイナミクスアトラスはパルクールを学習しますが、舞台裏の映像は長編映画よりもさらにエキサイティングです

ステージ上の1分、ステージ外の10年間の努力。ボストン・ダイナミクスのロボット「アトラス」は新たなス...

ディープラーニングに基づく画像マッチング技術の概要

画像マッチング応用:ターゲット認識、ターゲット追跡、超解像度画像再構成、視覚ナビゲーション、画像ステ...

ChatGPT を助手席に乗せましょう!清華大学、中国科学院、MITが共同でCo-Pilotヒューマン・コンピュータ・インタラクション・フレームワークを提案:乗客の意図を完璧に制御

今年の人工知能分野における最も重要なブレークスルーの一つとして、大規模言語モデルの研究は常に主要な関...

Linux オブジェクトアロケータ スラブアルゴリズム

[[414991]]この記事はWeChatの公開アカウント「Linux Kernel Things」...

ボストン ダイナミクスが CES で楽しいひとときを過ごし、ロボット犬の Spot がメタバースに登場します。

CES 2022 で、ボストン ダイナミクスは Spot ロボット犬をメタバースに導入しました。こ...

30億枚の写真データベースを持つ顔認識スタートアップがハッカーの攻撃を受ける! 600以上の法執行機関と銀行の情報が盗まれた

多数の法執行機関と契約している顔認識会社が、ハッキングされ顧客リスト全体が盗まれたと報告した。デイリ...

いいえ!機械学習は単なる美化された統計ではありません。

ビッグデータダイジェスト制作編集者: JIN、Hope、Jiang Baoshangタイトル画像のパ...

...

ナレッジグラフをビッグモデルの仲間にしよう

大規模言語モデル (LLM) は、非常に流暢で一貫性のあるテキストを短時間で生成できるため、AI 会...

海外メディア:人間はますます余暇を持ち、AIは資本主義を排除する

ベストセラー作家のバーナード・マー氏はフォーブス誌に「人工知能はいかにして資本主義を殺すか」と題する...

一枚のポートレートからビデオを生成しましょう!中国チームが3D顔動画生成モデルを提案、SOTAを達成

[[417461]]人間の顔を使って面白いビデオを生成するにはどうすればいいでしょうか? [[417...