イメージフリーの認識がさらに一歩前進！ ScalableMap: 大規模高精度地図に向けた新しいソリューション!

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

著者の個人的な理解

今年はまさにマップレス認識の爆発的な成長の年です。最近、オンラインのローカル高精度マップ構築アルゴリズムである ScalableMap が arxiv でリリースされました。ScalableMap は、オンラインの長距離ベクトル化された高精度マップを純粋に視覚的に構築するための新しいエンドツーエンドのパラダイムを提案しました。 HD マップのベクトル化された表現では、ポリラインとポリゴンを使用してマップ要素を表し、それが下流のマップ構築に適用されます。しかし、動的物体検出用に設計されたこれまでの提案では、線形マップ要素内の構造的制約が無視されており、長距離シナリオではパフォーマンスが低下します。そこで本稿では、マップ要素の特性を利用してマップ構築のパフォーマンスを向上させる。 ScalableMap は、線形構造のガイダンスの下でより正確な鳥瞰図 (BEV) 機能を抽出し、ベクトル化されたマップ要素のスケーラビリティをさらに活用するための階層的なスパースマップ表現を提案し、この表現に基づいて段階的なデコードメカニズムと監視戦略を設計します。 ScalableMap は、nuScenes データセットで、特に長距離シーンにおいて SOTA パフォーマンスを達成し、以前の最先端モデルを 6.5 mAP 上回りながら 18.3 FPS を達成しました。

オープンソースリンク: https://github.com/jingy1yu/ScalableMap

要約すると、ScalableMap の主な貢献は次のとおりです。

ScalableMap は、エンドツーエンドのリモートベクトル化マップ構築パラダイムを初めて実現したものです。著者らは、マップ要素の構造特性を利用してより正確な BEV 機能を抽出し、スケーラブルなベクトル化要素ベースの HSMR を提案し、それに応じてプログレッシブデコーダーと監視戦略を設計します。これらの改良により、モデルの知覚パフォーマンスが大幅に向上しました。
著者らは、広範な実験を通じて、nuScenes データセットにおける ScalableMap のパフォーマンスを評価しました。 ScalableMap は、大規模な HD マップ学習において最先端の結果を達成し、既存のマルチモーダル手法を 6.5 mAP 上回りながら 18.3 FPS を達成しました。

高精度地図構築に関する関連研究

車線検出: 車線検出タスクは、長年にわたって注目されている研究テーマです。初期のアプローチでは、最終結果を得るために複雑な後処理を必要とするセグメンテーションスキームに依存することが多かったです。構造化された情報を取得するために、曲線の統一された表現を見つけることを目的とするスキームもあれば、アンカーベースのスキームを利用して開いた形状のマップ要素を抽象化するスキームもあります。上記のソリューションと比較すると、私たちの考え方は、構造化されたポリラインを直接出力する HRAN に近いと言えます。しかし、これは計算効率が悪いことが知られている再帰ネットワークに依存しています。 ScalableMap は、複雑な幾何学的構造を持つ実際のマップ要素を処理できますが、前述の方法では単一のタイプまたは通常の形状しか処理できません。

境界抽出: 境界抽出は、画像内のオブジェクトの多角形の境界を予測することを目的としています。ポリゴン RNN は再帰構造を使用して各境界をキャプチャしますが、これはリアルタイム要件のあるシナリオには適していません。いくつかの研究では境界抽出において良好な結果が得られていますが、それらは通常、画像空間内のポリゴン用に設計されており、地図構築タスクには適していません。この論文に最も近いアプローチは BoundaryFormer です。これはクエリを使用してポリゴンの頂点を予測し、ベクトル化されたポリゴンの境界を取得します。ただし、画像空間内の閉じた形状の要素に対して定義される微分可能損失は、動的なオブジェクトと比較して特徴があまり集中していないため、開いた形状の線形要素が支配的なマップ要素には適用できません。

ベクトル化された HD マップの構築: 最近の研究では、センサーデータから直接ベクトル化された HD マップを取得しようとしています。 HDMapNet は時間のかかるヒューリスティックな後処理方法を使用してベクトル化されたマップを生成しますが、VectorMapNet は、低速の自己回帰デコーダーを使用して頂点を再帰的に予測するエンドツーエンドのパラダイムを備えた 2 段階のフレームワークを提案します。 InstaGraM は、複数のビューに表示されるマップ要素の一部の頂点については推測が難しい可能性があるインスタンスと頂点の関係を推論するために、頂点とエッジのヒートマップベースのグラフモデリングアプローチを提案します。任意の形状や要素内のさまざまな頂点数を処理するという課題を考慮して、MapTR は固定数の補間を使用して単一の表現形式を取得することでこれに対処します。ただし、MapTR の階層型クエリ設計は、主に初期化フェーズでの要素の構造的関連付けに重点を置いているため、収束が遅くなり、認識範囲が広がるにつれてパフォーマンスに影響します。 SuperFusion のみが、リモートベクトル化 HD マップ構築に関する関連作業であり、これも後処理を使用してベクトル化された結果を取得します。 ScalableMap は、プロセス全体を通じてマップ要素の構造特性を活用し、大規模なベクトル化マップを構築するための初のエンドツーエンドソリューションです。

スケーラブルマップ

概要

ScalableMap は、一連の周囲画像が与えられた場合に、一定の範囲内の M 個のローカルマップ要素 {{車線、道路の境界、横断歩道など}} をリアルタイムで予測することを目指します。各マップ要素は、順序付けられた頂点の疎なセットによって表されます。

ScalableMap のアーキテクチャを図 1 に示します。主に次の 3 つのコンポーネントで構成されます。

構造ガイドによるハイブリッド BEV 特徴抽出。
プログレッシブデコーダー。
漸進的な監督;

BEV特徴抽出

マップ要素の拡張性と線形性により、2D-3D 変換の不適切性が悪化し、フィーチャの不整合や不連続が生じます。ハイブリッド BEV 機能を取得するために、著者らは 1 つのブランチを使用して位置認識 BEV 機能を抽出し、別のブランチを使用してインスタンス認識 BEV 機能を抽出します。これらのブランチは、マップ要素の構造特性に従って融合されます。

パースペクティブビューコンバーター。モデルはまず ResNet を通じて画像の特徴を抽出します。位置認識型 BEV 特徴は、BEVFormer によって提案された方法を使用して取得されます。この方法は、変形可能な注意を利用して、事前定義された 3D グリッドとキャリブレーションパラメータに基づいて、BEV クエリと対応する画像特徴との間の空間的な相互作用を実現します。さらに、インスタンス認識型 BEV 特徴を取得するためにいくつかの MLP が使用されます。これは、画像空間で連続的な特徴を保持するのに効果的であるためです。 k 個の MLP を使用して、k 個の画像特徴をそれぞれトップビュー画像に個別に変換します。ビュー間の特徴の連続性をさらに向上させるために、著者らは線形レイヤーを使用してトップビューの特徴を統合された BEV 特徴に変換します。

構造誘導特徴融合。正確なマップ構築に向けた特徴の堅牢性を高めるために、比較的正確なマップ頂点位置データを持つ特徴と、マップ要素の包括的な形状情報を持つ特徴という 2 つの異なる特徴からの情報を活用する相互修正戦略をさらに提案します。これらの機能を直接追加することで、更新された機能がさらに得られます。さらに、セグメンテーションヘッドが導入され、走行可能な領域に焦点を合わせて変換スケールを学習するようにガイドします。その後、精製されたものと連結され、畳み込み層を通じてそれらの融合が実行されます。この融合プロセスにより、ずれが修正され、豊かさと精度が向上したハイブリッド BEV 機能が得られます。

プログレッシブデコーダー

ベクトル化されたマップ要素のさまざまな形状は、境界ボックスベースやアンカーポイントベースの方法などの従来の抽象化スキームに課題をもたらします。この問題を解決するために、本論文では HSMR を紹介します。 HSMR は、高速な推論をサポートしながら、要素の実際の形状を正確に記述するスパースで統一された表現を提供します。これに基づいて、DETR パラダイムに触発されたプログレッシブデコーダーが設計されます。さらに、最初に構造化されたクエリを生成し、次にクエリを動的に挿入するモジュールが統合されており、さまざまな密度マップを接続する重要なブリッジとして機能します。

階層的スパースグラフ表現。マップ要素のポリライン表現は通常、曲率がしきい値を超えるポイントをサンプリングすることによって取得され、その結果、要素ごとに頂点の数が異なります。一貫した表現を確保するために、各要素を形成する頂点の数をマップ密度として定義します。この密度に基づいて、頂点が多すぎる要素には均一なポイントサンプリングを使用し、必要な密度よりも頂点が少ない要素には、元の頂点間の距離に基づいてポイントサブサンプリングを実行します。このアプローチにより、任意の密度で同じ要素の表現を取得できます。 DETR パラダイムの反復最適化の考え方とベクトル化されたマップの動的に調整可能な密度を組み合わせることで、低密度マップを高密度マップの抽象表現として階層的に利用します。低密度マップは、マップ要素の形状を適切に捉えるのに十分なほどまばらです。 HSMR とそのパフォーマンスの視覚的な説明を図 4 に示します。

デコーダーレイヤー。著者らはさらに、n 番目の要素を担当する m 番目の頂点のクエリを定義します。マップ要素の階層的なスパース表現を利用して、最初に少数のクエリが生成され、各マップ要素のおおよその形状が取得されます。各クエリは、インスタンス埋め込みと位置埋め込みを追加することによって形成されます。私たちの方法のプログレッシブマップ要素デコーダーは複数のデコーダーレイヤーで構成され、各レイヤーには 2 種類のアテンションメカニズムが含まれています。これらの注意メカニズムは、頂点間の情報交換を容易にし、各頂点とそれに対応する BEV 機能間の相互作用を可能にします。頂点間の交換はマルチヘッド自己注意を使用して実装され、もう 1 つは変形可能注意を使用します。

構造化クエリの生成と動的クエリの挿入。異なる密度を処理するレイヤーを接続するために、同じ要素内の隣接する頂点間の位置制約を利用してマップの密度を高めます。エッジを共有する 2 つの隣接するクエリの平均を取得し、これら 2 つのクエリの間に新しいクエリを動的に挿入することで、新しいクエリを導入します。具体的には、多数のクエリを同時に初期化して反復的に更新するという従来の方法を採用するのではなく、限られた数のクエリのみで各要素を初期化し、レイヤーごとにマップ密度を徐々に高めていく戦略を採用しています。これにより、モジュールは元のスパースインスタンス機能に焦点を当て、ベクトル化されたマップ要素の構造特性を活用して、強力な大規模認識機能を確保できます。

進歩的な監督戦略

一般的な二部マッチング戦略を使用して、真の値と予測を一致させます。

焦点損失は、要素カテゴリと運転可能領域を監視するために使用されます。追加の損失項は、次の損失関数に含まれています。

頂点損失。 HSMR にはサブサンプリングプロセスが含まれることを考慮して、元の頂点と新しく追加された頂点の監視を区別します。進行性ポリライン損失の監視メカニズムの視覚的表現を図 2 に示します。 L1損失を使用して最適化します。

限界損失。エッジ損失は、新しく追加された頂点までの距離や隣接するエッジによって形成される角度など、エッジの形状を監視するために使用されます。距離メトリックは L1 損失で監視され、傾斜と角度のコンポーネントはコサイン類似度で監視されます。各要素の限界損失の計算式は次のとおりです。

実験的検証

主な結果

ベースラインとの比較。 ScalableMap のパフォーマンスは、nuScenes 検証テストで最先端の方法と比較して評価されます。表 1 に示すように、カメラモダリティでは、ScalableMap は MapTR よりもわずかに優れたパフォーマンスを発揮し、Y 軸に沿った従来の認識範囲 [-30.0m、30.0m] で 1.9 高い mAP とより高速な推論速度を達成しています。同じモデルを[-60.0m、60.0m]のシーンに直接適用すると、ScalableMapは45.6mAPと18.3FPSを達成しますが、MapTRの対応する値はそれぞれ39.1と11.2になります。 SuperFusion は、この範囲で実験結果を公開した唯一の方法であることは注目に値します。ただし、LiDARと単眼カメラの融合モデルです。同じベンチマークで、私たちの方法は SuperFusion よりも 16.2 高い mAP を達成し、ほぼリアルタイムの推論速度でマルチカメラモードでも優れたパフォーマンスを示します。結果は、私たちの方式がオンラインマップ構築タスクのリアルタイム要件を効果的に満たし、従来の知覚範囲テストとリモートテストの両方で優れた精度を備えていることを示しています。

定性的な結果の視覚化。 nuScenes 検証データセットに対する ScalableMap の定性的な結果は、図 3 に示すように大規模なテストで視覚化されています。より困難なシーンの視覚化結果は、より困難なシーンに関する付録 B に記載されています。当社のモデルは、カーブ、交差点、混雑した道路、夜景でも優れたパフォーマンスを発揮します。図 4 は、MapTR* と ScalableMap の 6 つのデコーダーレイヤーのうち 3 つを視覚化したものです。私たちの戦略は、段階的な反復によってより正確な要素の形状が生成されながら、インスタンス機能に迅速に焦点を合わせる能力を示しています。

アブレーション実験

提案された方法と異なる設計のコンポーネントの有効性を検証するために、nuScenes 検証セットでアブレーション実験を実施します。すべての実験の設定は、前述のとおり同じままでした。

表 2 は、提案されたコンポーネントの影響を示す実験結果を示しています。 HSMR は、スパース表現による長距離知覚において効果的なパフォーマンスを示します。 SQG と DQI はマップ要素の構造情報を強化し、SGFF モジュールはパフォーマンスを大幅に向上させます。

頂点の数に関するアブレーション実験。各要素を形成する頂点の数が各デコーダー層における大規模知覚に与える影響を表3に示します。実験結果によると、本論文で提案された HSMR に基づくと、頂点の数が増えてもモデルのパフォーマンスは非常に安定しています。精度と速度のバランスを取りながら適切なパラメータを選択します。

ScalableMapの結論と今後の改善

この論文で提案されている ScalableMap は、長距離のベクトル化された高精度の地図を構築するための新しいパラダイムです。著者らは、マップ要素の固有の構造を利用して正確な BEV 機能を抽出し、スケーラブルなベクトル化マッピングに基づく HSMR の概念を提案し、それに応じてプログレッシブデコーダーと監視戦略を設計して、高速収束を保証します。これらの設計により、ScalableMap は長距離情報を効果的に取得できます。 nuScenes データセットの実験結果は、特により広範囲の認識シナリオにおける SOTA パフォーマンスを実証し、現実世界の環境でのリアルタイムの適用性と有効性を確認しています。

将来の方向性: ScalableMap はリアルタイムの視覚認識のみに依存しているため、そのパフォーマンスはシーンの可視性に依存し、交通渋滞や極端な気象条件などの状況では制限される可能性があります。さらに、この方法はカメラの内部および外部の正確なパラメータに依存しているため、実際の展開には制限が生じる可能性があります。将来の研究では、パラメータフリーの方法を開発したり、オンラインキャリブレーション方法を組み合わせたりすることで、センサーの内部および外部パラメータへの依存を減らすことができます。マップ要素間の位置制約の統合を検討したり、事前の知識としてグローバルな粗いマップを活用したりすることで、堅牢性と精度をさらに高めることができます。

論文リンク: https://arxiv.org/abs/2310.13378

オリジナルリンク: https://mp.weixin.qq.com/s/Ch-iktorUlVErabSouuvOg

<<: 生成AIは私たちの生活をどのように変えるのでしょうか?

>>: 人工知能市場は2024年までに5,543億ドルに達する