ビジュアル高精度マップ構築を徹底レビュー!画像のない認識の実装ソリューションを見てみましょう(清華大学と滴滴出行)

ビジュアル高精度マップ構築を徹底レビュー!画像のない認識の実装ソリューションを見てみましょう(清華大学と滴滴出行)

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

序文と著者の個人的な理解

近年、自動運転への注目が高まっており、高精度の地図は自動運転技術の重要な要素となっています。これらの地図は道路網の詳細な情報を提供し、車両の位置特定、ナビゲーション、意思決定などの重要なタスクに不可欠な入力として機能します。視覚センサーは、広く入手可能で手頃な価格であることから、自動運転車に不可欠な要素となっています。このレビューの目的は、HD マップ構築における最近の進歩についての包括的な概要と要約を研究者に提供することです。この記事ではまず、カメラ センサーを使用して HD マップを作成する際の主要なフレームワークと背景情報を簡単にまとめます。続いて、オフラインとオンラインの両方の方法を含む、地図作成に使用される調査方法についての包括的な調査が行われました。特に、ネットワークベースのマッピング手法は、HD マッピングの分野で重要な研究分野となっています。この急速に発展する傾向に対処するために、私たちはこの特定の分野におけるさまざまな研究作業の包括的かつ詳細な概要を紹介します。最後に、関連する問題と将来の課題について議論し、研究者がこの分野の現在の傾向と一般的な方法を理解できるようにすることを目指します。

要約すると、この論文の主な貢献は次のとおりです。

  • 1) カメラベースの方法に特に焦点を当てて、HD マップ構築に関する既存の文献をレビューします。これらの方法の長所と限界を分析し、リアルタイムの自動運転アプリケーションにおける有効性と適用可能性についての洞察を得ます。
  • 2) ニューラルネットワークを使用したエンドツーエンドのマッピングの新たなトレンドが強調され、リアルタイムの HD マップ生成の可能性を示しています。それらの基本原理、アーキテクチャ、パフォーマンスについて議論し、現場での実現可能性と有用性を明らかにします。
  • 3) カメラベースの HD マップ構築における主要な課題と未解決の研究課題が特定されます。

関連する背景についてお話ししましょう

HD マップは、自動運転車が移動する物理的な環境を完全かつ正確に記述するデジタル自動車マップ表現です。これらのマップは、カメラや LIDAR センサーなどのさまざまなデータ ソースを使用して作成されます。カメラ センサーの費用対効果と意味的堅牢性を考慮すると、それらの統合は自律走行車のセンサー スイートの必須コンポーネントになっています。このセクションでは、HD マップ構築のタスク定義を明確にし、この分野で使用される手法の体系的な分類を示します。

A. 高精度地図構築のタスク定義

高精度地図の構築は、物理環境を正確に表現する3次元モデルを生成し、視覚センサーのデータを充実させることで、高い精度を実現します。カメラベースの HD マップでは、車両に搭載された 1 台以上のカメラを使用して道路環境の画像をキャプチャし、それらの画像を処理して必要な情報を抽出します。

まず、取得した画像に対して、車線標示、交通標識、道路境界などの識別を含む地図要素抽出手法が実行されます。通常、この目的には、エッジ検出、オブジェクト検出、セマンティックセグメンテーションなどのコンピュータービジョンアルゴリズムが使用されます。抽出されたマップ要素は道路環境の 3D 表現を構築するために使用され、HD マップの生成に役立ちます。これには、2D 要素を 3D モデルにマッピングして、道路環境の詳細な説明を作成することが含まれます。最後に、生成された HD マップは検証され、その正確性と完全性を確保するために定期的に更新されます。

基本的に、HD マップを構築するプロセスでは、データの収集、処理、マップ生成など、複数のテクノロジと手法の統合が必要です。これらのテクノロジーに固有の課題と制限に対処することで、HD マップ作成の精度と信頼性を向上させ、より安全で効率的な自律走行車の開発を促進することができます。

B. HDマップ構築の分類

可視化の方法は、時間コスト要件、データ処理パイプライン、コンピューティング リソースに基づいて、オフライン方式とオンライン方式に大別できます。同様に、HD マップ構築で使用されるデータ処理フレームワークに基づいて、視覚的な方法は、ルールベースの方法とネットワークベースの方法に大別できます。

1) オフライン方式とオンライン方式: 「オンライン」マッピングと「オフライン」マッピングという用語は SLAM の分野で生まれたもので、リアルタイムのオンボード プロセスと外部で実行されるプロセスを区別するために使用されます。オンラインとオフラインの選択は、センサー データの処理方法、アルゴリズムの実行時間がリアルタイム要件を満たしているかどうか、およびコンピューティング機器の使用状況によって決まります。この命名法はさまざまな方法で広く採用されてきました。 HDMapNet が、ローカル マップを作成するためにオンボード センサーとハードウェアの使用を重視し、オンラインでの高精度マップ構築の概念を導入したことは注目に値します。このアプローチは、オフサイトでの注釈付けに人的リソースに大きく依存する従来のソリューションとは異なります。

図 4 に示すように、オフライン マッピング方法では、詳細で高精度なマップを取得するためにサーバー上で長時間の計算が必要になりますが、オンライン マッピング方法では、車両内で直接セマンティック マップが生成されます。地球規模の高精度地図の構築は、通常、オフラインのプロセスです。主な目標は、自動運転に使用できる詳細かつ正確な地図を生成することです。オフライン処理では、より多くのセンサー データ、より複雑なアルゴリズム、より長い処理時間が可能になり、精度と完全性が向上します。 SLAM は、車両の位置を推定し、同時に地図を描画するためにリアルタイム処理を必要とするオンライン マップ構築方法です。コンピュータビジョンタスクの発展に伴い、地図はニューラルネットワークが学習できるターゲットとしてモデル化され、オンラインでエンドツーエンドの高精度な地図を構築できるネットワークが徐々に登場してきました。

2) ルールベースおよびネットワークベースのモデル: ルールベースの HD マップは、事前に定義されたアルゴリズムとルールを使用して、色のしきい値設定やハフ変換などの手法でマップを構築します。これらの方法はシンプルですが、正確性、安定性、さまざまな環境への適応性が欠けている可能性があります。対照的に、ネットワークベースの方法は、複雑なシーンを管理し、複雑なパターンを学習して精度を向上させる優れた能力を示しています。ただし、これらは注釈付きデータと膨大な計算リソースに依存しており、そのフィッティング機能によりグローバル HD マップの生成が制限されます。ハイブリッド方式では、それぞれの方式の優れた点を活かして、他の方式を組み合わせます。たとえば、セマンティック セグメンテーション ネットワークはマップ要素を抽出できますが、3D 構築段階ではキーポイント マッチングなどのルールベースの 3D 再構築が好まれます。

C. 関連データセット

データ駆動型ネットワーク方式を使用する場合でも、ルールベースの方法を使用する場合でも、高精度のマップを構築するには大量のデータが必要です。関連するデータセットは、2次元データセット、3次元データセット、高精度地図データセットに大別できます。

  • 2D データセット: 一般的な 2D データセットには、Cityscapes、Mapillary Vistas などがあります。
  • 3Dデータセットは表1に示されています。
  • HD マップ データセット: 最も一般的な HD マップ データセットは、nuScenes、Argoverse2、OpenLane-V2 などです。
  • 車線データセットを表2に示します。

視覚に基づくオフラインでの高精度グローバル地図構築

高価な取得車両と低コストのセンサーベースのビジュアルクラウドソーシングソリューションに基づく従来の集中型 HD マップ構築では、自律走行車の車両側で HD マップは構築されません。クラウドまたはサーバー上で HD マップを構築するこの方法は、オフライン HD マップ構築に分類されます。つまり、車両側でデータ収集が完了した後、センサー データを車両側から離れた場所でマップに処理する必要があります。このセクションでは、まず HD マップをオフラインで構築する理由について説明します。次に、高精度マップのオフライン構築における共通手順である、マップ要素の抽出、3D ベクトル化再構築、マップ要素の更新について詳しく紹介します。最初のステップはマップ要素の抽出です。これには、車線、街灯柱、ランドマークなど、マップ上のさまざまなマップ要素インスタンスを識別して分離することが含まれます。このプロセスは、セマンティックセグメンテーションやオブジェクト検出アルゴリズムなどのさまざまな手法を使用して実現できます。これらのアルゴリズムは、受信した視覚センサーデータを分析して、さまざまな要素を抽出して分類します。プロセスの 2 番目のステップは、マップ要素の 3D 再構築です。マップ要素が識別され分離されたら、次のステップはこれらの要素の 3D 表現を作成することです。多くの場合、3D 環境を再構築するためにコンピューター ビジョン技術が使用されます。これらの方法により、各マップ要素の非常に正確な 3D モデルを作成できるため、詳細で正確なマップを作成できます。近年、3D 検出タスクの発展に伴い、センサー入力から 3D オブジェクトの位置と形状情報を直接推定する研究が数多く行われています。マップ要素は、3D マップ要素情報を直接取得するための 3D 検出アルゴリズムの研究対象として使用することもできます。しかし、3D マップ要素のエンドツーエンドの抽出に関する研究は限られており、3D レーンの抽出に関する研究とデータセットしかありません。 HD マップは、3D マップ要素、場所、ベース マップ、その他の情報を融合することで構築または更新できます。一般的に、オフラインで高精度の地図を構築するプロセスは非常に複雑で、地図要素の正確な位置と形状情報、および効果的な融合が必要です。

A. なぜオフラインで高精度の地図を作成するのですか?

HD マップは高精度であるため、センサー データからマップ作成までのプロセスでは、大量のセンサー データを処理し、3 次元マップ内のマップ要素を可能な限り正確にして、広範囲をカバーする HD マップを取得するための高度なアルゴリズムが必要です。したがって、高精度の地図を作成するには、大量のデータと複雑な作成手順の課題を克服するために、強力なプロセッサなどの多くのコンピューティング リソースが必要です。しかし、必要なコンピューティング リソースを自律走行車のオンボード ハードウェアに実装することは困難です。特に自動運転車の場合、コンピューティング ハードウェアには、運転の安全性と信頼性を確保するために多くのリソースを必要とする、より現実的な車両認識アルゴリズムが搭載されているためです。自動運転車にインストールされているアルゴリズム間の優先順位の制約により、マッピングに使用できるコンピューティング リソースの量は十分ではありません。センサーデータをリモート サーバーに送信して処理することで、車両のネットワーク接続とストレージ容量の負荷を軽減できます。さらに、他のサーバー上でオフラインで HD マップを構築すると、複数の車両が同じマップを共有し、共同で構築できるようになります。これにより、作業の重複が削減され、マップの精度と完全性が向上します。高精度の地図をオフラインで構築することが、依然として地図を描く主な方法です。この投稿では、カメラベースのアルゴリズムについてのみ説明します。

B. オフライングローバル高精度地図構築パイプライン

カメラベースのオフライン高精度地図作成プロセスは、画像データの入力から始まり、地図要素の抽出、地図要素の 3 次元再構築、位置決め、マッピングに分けられます。

マップ要素の抽出は、カメラ センサーからマップを構築する最初のステップです。このステップでは主に、入力された生画像データに対する一連の操作を通じて、画像平面内の構造化マップ要素に関する正確な情報を取得します。当初、これはハフ変換に基づく車線抽出などの単純なコンピュータ グラフィックス アルゴリズムを使用して実装されました。今年は画像アルゴリズムの発展により、物体検出やセマンティックセグメンテーションが広く研究されました。マップ要素は、セマンティックセグメンテーションやオブジェクト検出などの従来のコンピュータービジョンタスクの研究対象として使用できます。マップ要素に注釈を付けることができ、それに応じてニューラル ネットワークをトレーニングすることで、マップ要素の抽出結果を取得できます。ニューラル ネットワークを通じてマップ要素を抽出する方法により、マップ要素抽出アルゴリズムがより堅牢かつ柔軟になり、人間の介入が減り、マップ構築の効率が大幅に向上します。具体的には、Segment Anything の研究は、ニューラル ネットワークを使用して画像オブジェクトを抽出する、より包括的で洗練された時代の到来を告げ、マップ要素を抽出するためのより強力な機能を提供します。

3D 要素モデリングは、遠近法でマップ要素を抽出する作業に密接に従います。このステップでは、透視変換を通じてカメラ空間内のマップ要素を 3D 空間内のマップ要素に変換します。従来の方法では、通常、LIDAR データを使用してキャリブレーションを通じてこの変換関係を取得し、簡単な計算で直接透視変換を実行します。最近では、ニューラル ネットワークを通じて 2D 画像入力から 3D 空間へのマップ要素の抽出を探求する手法が増えています。近年、Nerf の提案により、3D マップの再構築のために空間的な視点関係を暗黙的にエンコードするニューラル ネットワークが徐々に検討されるようになっています。

データ融合は、高精度マップのオフライン構築における最後のステップです。この作業では通常、複数のフレーム間の一貫性を利用して、各フレームの抽出されたマップ要素データを融合します。複数のデータフレームを融合することで、最終的に完全なグローバル高精度マップが得られます。

C. マップ要素の抽出

地図特徴抽出は、高精度の地図構築において最も重要なリンクです。これは、生の視覚センサーデータから正確な構造化された地図要素情報を抽出することであり、高精度の地図構築の基本的なタスクです。図 2 に示すように、従来の集中型の高精度マップ構築方式では、マップ要素の抽出は通常、ハフ変換、多項式フィッティング、しきい値設定などのルールベースの方法によって完了します。

2013年以降、ディープラーニングの急速な発展に伴い、畳み込みニューラルネットワークに基づく手法が徐々に主流になってきました。マップ要素の抽出は通常、自動運転の認識タスクのパラダイムに従い、マップ要素を従来の視覚タスクの本体として扱います。畳み込みニューラル ネットワークは、さまざまなスケールで特徴を抽出できることが実証されています。構造内にさまざまな種類のネットワーク層を設計することで、特徴抽出、分類、セマンティックセグメンテーション、オブジェクト検出などのタスクを単一のネットワークモデルにシームレスに統合し、包括的なトレーニングと最適化を実現できます。近年、ViT の導入により、トランスフォーマー構造に基づく特徴抽出バックボーンもいくつか登場しています。上記のバックボーン ネットワークは通常、抽出された画像の特徴を一連の分類確率にマッピングする画像分類タスク用に設計されています。実際のアプリケーションの視覚化タスクはより複雑です。

バックボーンを通じて特徴抽出が完了した後、通常、タスク要件に応じてさまざまなデコード ネットワークが設計され、必要なデータ パターンが出力されます。さまざまな出力形式に応じて、ビジョンタスクは、画像分類、セマンティックセグメンテーション、オブジェクト検出、インスタンスセグメンテーションに分けられます。

1) マッピングのためのセマンティックセグメンテーション: セマンティックセグメンテーションは、画像をさまざまなカテゴリのオブジェクト (道路、歩道、車線、交通標識など) に対応する領域に分割するタスクです。これは通常、ラベル付けされた画像の大規模なデータセットでトレーニングされたネットワークに基づいており、さまざまな種類のオブジェクトをリアルタイムでセグメント化する際に高い精度を実現できます。

2) マッピングのためのオブジェクト検出: オブジェクト検出タスクは、画像またはビデオフレーム内の関心のあるオブジェクトを検出して特定することです。当初は 2 段階のプロセスで構成され、最初に一連の領域提案を生成し、次に各提案を特定のオブジェクト クラス (車、歩行者、交通標識など) に分類していました。オブジェクト検出は、Faster R-CNN、YOLO、SSD、CenterNet、CornerNet などのさまざまな CNN アーキテクチャに基づいて行うことができます。いくつかの物体検出方法の比較を表IVに示します。

近年、ViT の発明により、物体検出タスクの機能がさらに向上しました。このメカニズムにより、モデルが画像全体に焦点を合わせる能力が効果的に強化され、より高い精度を実現できます。 DETR によって表されるモデルは、オブジェクトを事前に設定されたクエリにマッピングし、エンドツーエンドのオブジェクト検出をより効率的にします。これは 1 つの段階にすぎません。

オブジェクト検出方法では通常、特定のオブジェクト タイプの境界ボックス情報が提供されますが、HD マッピングに不可欠な正確な形状情報が欠けているのが一般的です。したがって、オブジェクト検出は主に、詳細な形状表現ではなく、主に位置とカテゴリに関する情報を必要とする地面の矢印、街灯柱、信号機などの要素を認識するために使用されます。オブジェクト検出技術の限界により、HD マップ内の形状関連要素を正確に記述することは依然として課題となっています。

3) マッピングのためのインスタンスセグメンテーション: セマンティックセグメンテーションはピクセルレベルのセマンティックカテゴリを提供しますが、同じカテゴリの異なるインスタンスを区別するには不十分であり、HDマップの更新や自動運転タスクの運転空間の構築の要件を満たすには不十分です。したがって、インスタンスセグメンテーションは、画像データから要素カテゴリ、形状情報、および位置の詳細を効果的かつ正確に取得するためのセマンティックセグメンテーションの拡張として研究されており、自動運転アプリケーションで重要な役割を果たします。インスタンス セグメンテーションでは、画像データを処理して、画像内の各対象個体のピクセル レベルのマスクを取得します。同じセマンティック カテゴリを持つ個体には、共有セマンティック ラベルとともに異なるインスタンス番号が割り当てられます。このタスクでは、個々のカテゴリ、正確な位置情報、および対応する形状の詳細を同時に抽出できます。

D. 3D再構築

画像内の地図要素情報を抽出した後、通常は、図 8 に示すように、ベクトル抽出や透視変換などの方法を使用して、高精度地図の 3 次元空間で地図要素をモデル化する必要があります。一般的な 3D 再構築方法の 1 つは写真測量法です。これは、さまざまな角度から撮影した写真を使用して 3D モデルを作成するものです。この技術は、写真内の物体が空間内の位置によって異なるという事実を利用して、物体の 3 次元座標を計算することを可能にします。写真測量は、写真内の特徴を自動的に識別して一致させ、その一致に基づいて 3D モデルを生成する専用のソフトウェア ツールを使用して実行できます。

E. HDマップの構築

HD マップの構築には、異なるフレームまたは異なるカメラ センサーからのさまざまなマップ要素と、それらに対応する 3D 空間関係を融合する必要があります。このプロセスは、マップ領域の均一で正確な表現を作成するように設計されています。これは本質的に、古典的なマルチセンサー マルチソース融合の課題を構成します。最近では、オンライン マップ ニューラル ネットワークの開発に伴い、オフライン マップ融合用のネットワーク構造も設計されています。 MVMap は、マルチビュー フィーチャ パースペクティブによって提供されるグローバルな一貫性を活用して、複数のフレームからのマップ出力を統合した HD マップに統合します。検出の精度が低い、または検出が明確でないフレームの影響を軽減するために、モデルには信頼性推定モジュールが組み込まれています。このモジュールは、より正確な推定値を持つフレームに高い重みを割り当て、信頼スコアに基づいて HD マップ パッチの加重平均を容易にします。 NeMO は、書き込み可能で読み取り可能な大規模なマップ、学習ベースの融合モジュール、およびそれらの間の相互作用を考慮して設計されています。すべての BEV グリッドにわたって一貫した特徴分布を仮定することにより、共有重みニューラル ネットワークが適用され、大規模なマップが更新されます。この革新的なパラダイムにより、広範な時系列データの融合と、BEV の拡張範囲ローカル マップの作成が可能になります。

HD マップのコストのかかる注釈付けの課題に対処するために、ベクトル化マップ注釈 (VMA) フレームワークが開発されました。分割統治注釈戦略を組み合わせて、HD マップ作成における空間スケーラビリティの問題に対処します。 VMA は、一連の幾何学的パターンを含む、マップ要素を統一されたポイント シーケンス表現に簡素化します。

表 V は、IoU を精度メトリックとして使用して、nuScenes データセットで評価されたさまざまなセマンティック グラフ構築方法のパフォーマンスをまとめたものです。これらの方法を比較すると、特に横断歩道の精度向上に関しては、まだ改善の余地があることがわかります。

視覚ベースのオンラインローカル高精度マップ構築

A. なぜオンラインで高精度の地図を構築するのですか?

オンラインで高精度の地図を構築するということは、リアルタイムで地図を生成することを意味します。このアプローチにはいくつかの重要な利点があります。まず、オンライン構築により、高精度の地図が常に最新のデータで更新されます。これにより、道路状況が頻繁に変化する動的な環境でも、地図の精度が維持されます。このリアルタイム更新機能により、車両は障害物を回避して事故を回避するためのインテリジェントな判断を下すことができます。 2 番目に、オンライン構築により、マップ作成のためにさまざまなデータ ソースを統合する柔軟性が提供されます。コネクテッドカーからのリアルタイムデータは既存の地図情報を補完し、精度と適応性を向上させます。 3 つ目は、オンラインでの HD マップ構築により、オフラインでの処理と保存の必要性がなくなるため、全体的なコストを削減できる可能性があることです。これは、コスト効率の高いソリューションが重要となる、多数の自動運転車が関係するシナリオで特に有益です。

B. ベクトル化された例のないオンラインマッピング手法

1) オンボードビジュアル SLAM: SLAM 問題は、1986 年に国際ロボット工学およびオートメーション会議 (ICRA) で初めて提案されました。 SLAM は、未知の環境の未知の位置に置かれたロボットが、マップ内での自分の位置をリアルタイムで決定しながら、環境の一貫したマップを徐々に構築できるかどうかとして説明されます。マップ構築問題を解決するには、特定のセンサーを装備した対象が、環境に関する事前情報なしに自分の動きをリアルタイムで推定し、同時に環境のマップを構築する必要があります。

2) ネットワークを占領する: ネットワークを占領するというタスクは、最初にテスラによって提案されました。この方法では、周囲の環境をボクセル グリッドに分割し、ボクセルの属性には占有確率、意味情報、占有フロー情報が含まれます。ボクセル表現を通じて、移動中の車両は周囲の状況を綿密に理解し、認識します。 NeRF からインスピレーションを得て、占有ネットワークには暗黙的にクエリ可能な MLP デコーダーが含まれています。デコーダーは任意の座標値 (x、y、z) を処理して、前述の属性情報を含むその空間内の位置に関する詳細を抽出できます。この機能により、占有ネットワークは 3D 占有マップの柔軟な解像度を実現できます。

要約すると、SLAM は広範囲に研究されているトピックであり、占有ネットワークは環境の 3D 表現をリアルタイムで作成し、高密度なセマンティック マップを作成する最新の進歩を表しています。どちらのタイプの方法でも、歩行者、車両、木など、地図以外の要素のカテゴリにさらに注意を払う必要があります。この情報は実際の車両運転には必要ですが、世界規模の高精度地図を構築するには多少冗長です。さらに、マップ要素のインスタンスレベルの情報はまだ不足しています。

C.オンボードベクトル化HDマップネットワーク

ニューラル ネットワークを使用してベクトル化されたマップ要素のインスタンスを直接モデル化する革新的なアプローチを採用した HDMapNet の登場により、この分野への関心が高まり、新しい研究のトレンドが生まれました。このアプローチは、ベクトル化された静的マップ要素のインスタンスを分析することに重点を置いており、最終的にはニューラル ネットワークを適用して車両カメラ データから直接ベクトル化されたマップを生成します。

1) ベクトル化された HD マップ ネットワークの一般的なパイプライン: ベクトル化された HD マップ構築専用のニューラル ネットワークの一般的なプロセスは、図 10 のいくつかの主要部分にまとめられています。図 10 に示すように、サラウンド ビュー画像が入力された後、HD マップ構築ネットワークの全体的なアーキテクチャは、バックボーン、視点変換、マップ デコーダーのさまざまな部分に分割できます。これら 3 つのコンポーネントは、視覚マッピング ネットワークの基本的なフレームワークを構成し、さまざまな関連方法で共有される共通構造です。マッピングのパフォーマンスを向上させるために、いくつかの方法では、補足的な後処理手順、時間情報の挿入、および補助的な監視ブランチが組み込まれています。これらの追加の方法は、視覚的なマッピングには必要ありません。

2) 後処理を使用したマップ コンポーネントの学習: HDMapNet は、セマンティック マップ構築のタスクにディープ ニューラル ネットワークを直接適用した最初のシステムです。具体的な構造を図11に示します。ネットワーク構造は、視覚センサーからのデータ入力とTransformerネットワークモデルを使用して、BEVの観点からマルチビューデータを直接デコードおよび融合し、最終的に車線ラインのセマンティックセグメンテーション、インスタンス埋め込みの学習、車線ライン方向の予測のための3つのネットワークブランチを生成します。車線線にセマンティックセグメンテーションを実行することで、車線線に属する鳥瞰図の透視ピクセルを取得し、インスタンス埋め込み量と方向予測フィールドを介して各データフレームの車線開始点を接続して、車線線インスタンスを生成します。 3つの分岐データの組み合わせを後処理することで、最終的に方向情報を含むインスタンスレベルの鳥瞰図からの車線結果が生成され、シンプルな地図のリアルタイム構築が実現します。

ただし、HDMapNet では、まだ多くの後処理手順を実行する必要があります。上記のボトムアップインスタンス抽出方法の紹介から、この方法は時間がかかり、後処理が不安定で、車両側でリアルタイムにマップを構築することが不可能であることがわかります。

CVPR2023自動運転チャレンジにおいて、MachMapはArgoverse2ベンチマークで83.5 mAPを達成し、その優れたパフォーマンスでマップチャレンジで1位を獲得しました。 MachMap は、タスクをポリラインの線検出とポリゴンのインスタンスのセグメンテーションに分割します。

3) エンドツーエンドのマッピング ネットワーク: エンドツーエンドのオンライン マッピングについては、さまざまな方法で検討されてきました。 VectorMapNet は、高精度の地図を直接出力できる最初のネットワークです。 VectorMapNet は、ディープ ニューラル ネットワークを通じてネットワーク コーディングの視点変換機能を抽出し、鳥瞰図の深層特徴を取得します。次に、マップ要素をクエリ入力として設定し、マップ要素検出器を通じてキー ポイントで表されたマップ要素を検出し、鳥瞰図とキー ポイントの深層特徴を統合し、曲線生成モデル構造を設計してキー ポイントに接続情報を割り当て、最後にベクトル化された 3 次元マップ結果を直接出力します。 MapTRの具体的な構造を図12に示します。その後、MapTRv2、InsightMapper、InstaGraM、Pivo​​tNet、Bi-Mapper などの一連のアルゴリズムが開発されました。

4) 時系列融合: 上記の方法では、視覚センサーを使用してベクトル化された高精度のマップを生成します。ただし、単一の入力フレームのみに依存するため、制限があります。この制約は、主に時間的コンテキストの欠如により、特にオクルージョンなどの複雑なシーンでは堅牢性と有効性に影響します。さらに、知覚範囲が拡大される状況に適用すると、パフォーマンスが低下する傾向があります。これを基にローカルマップを構築するために時間情報を導入するのは自然なプロセスです。一方、時間的な連続性は、障害物による遮蔽の課題に対する効果的な解決策を提供します。一方、空間情報の回復が強化され、PV から BEV への変換の精度が向上します。さらに、時間的な連続性により、包括的なローカルマップを簡単に生成できるようになります。 StreamMapNet は、オンライン マップに時間情報を導入した最初の作品です。図 13 に示すように、メイン予測器は基本的に他の単一フレーム ネットワーク構造と同じで、BEV エンコーダーとマップ デコーダーで構成されています。違いは、伝播されたメモリ特性を保存するためにメモリ バッファーを使用することです。

5) ベクトル化されたマップ構築ネットワークの研究状況と比較: 表VIは、nuScenesデータセットにおける最近のいくつかの研究のパフォーマンスをまとめたものです。前述の最先端の研究では、特定のルールを持つポイント セットをモデリング マップ要素として使用することに重点を置いています。この研究では、ニューラル ネットワークの強力な学習能力を利用して、レイヤーごとの可変電圧デコーダーを介して事前設定されたマップ要素インスタンスを照会し、エンドツーエンドのベクトル化されたレーン マップを出力します。これにより、エンドツーエンドの車線マップをリアルタイムで構築できるようになります。ただし、この研究はまだ初期段階にあり、マップ要素に典型的な広範な意味的および位相的な論理的関連性が欠けていることに注意することが重要です。また、時間情報を活用する研究は多くなく、時間を考慮したタスクが多数存在することが参考になる。したがって、この分野を調査するにはさらなる研究が必要です。

マッピングに関連するその他のタスク

トポロジー予測

車線マップは、高度な自動運転におけるオフライン高精度マップの基本的な構成要素です。道路網は計画やナビゲーションに非常に役立ちます。したがって、道路網予測のタスクは地図の一部になることができます。図14に示すように、車線の中心線、対応する交差点、信号制御信号などが高精度地図の重要な情報です。

STSU は最初にオンライン レーン トポロジの抽出を提案し、そのタスクをセンターライン抽出とレーン接続を含むように拡張しました。その後、LaneGap[17]などの研究では、接続関係を検出のための走行可能な経路としてモデル化しました。この側面は MapTRv2 にも含まれています。次に、交通要素と車線の対応関係を導入して、シーン構造の理解をさらに深めます。たとえば、OpenLanev2データセットとその対応するアルゴリズムトポネット。 MFVは、OpenLanev2データセットのトポロジチャレンジで最初にランク付けされました。さらに、Road Genomeは、トポロジカル推論のための新しいベンチマークを導入します。

このタイプの作業の課題は、道路ネットワークのトポロジカル構造をニューラルネットワークで学習できる価値のセットとしてモデル化する方法と、道路ネットワーク構造の関係をモデル化することに基づいて適切なネットワークを設計する方法と、トラフィックライトと標識の情報を効果的に利用する方法です。ただし、既存のデータセットと調査は不足しており、接続関係の問題に限定されており、シーン構造のさらなる理解がありません。

事前にマップ

自律運転のHDマップは、既存の道路情報のソースであり、即時のビューを超えて可視性を拡張します。したがって、最近の努力は、以前の情報としてマップデータを利用することに専念しています。

Xiong et al。知識ベースとして以前のマップを悪用する画期的なアプローチが導入されています。この方法は、オンラインマッピングのために周囲の環境のさまざまなリアルタイム情報を積極的に収集します。このオンラインマッピングプロセスから得られた機能は、メモリ機能ライブラリに保存されます。車両が特定の領域を再訪すると、その道路セグメントに対応する以前の機能は、車両の地理的位置に基づいてメモリ機能ライブラリから取得されます。これらの記憶された機能は、オンライン推論から得られた機能とともに、車両の現在のローカルマップを生成する上で重要な役割を果たします。

NERFに触発されたMapnerfは、Map Priorsをニューラル放射輝度フィールドに組み込み、指定されたトラックの外側のドライビングビューを生成し、セマンティックロードの一貫性を確保します。このアプローチは、カメラシミュレーションの偏ったビュー全体でセマンティックの一貫性を維持するという課題に対処します。

マップは貴重な事前の情報を提供しますが、この分野の現在の研究は表面を傷つけただけです。事前知識のソースとして、マップは既存の研究で新しいマップを生成する精度を大幅に改善していません。したがって、この分野でさらに探索するための十分なスペースがまだあります。

結論と考察

課題と将来の見通し

  • 統一されたマップ要素表現モデル。高精度マップは、空間情報と関係を持つマップ要素で構成されています。マップの基本コンポーネントとしてのマップ要素の表現は、さまざまなモジュール間のギャップを克服するために、高精度マップ構造の効率に影響します。この表現は、後続の決定モジュールの構造化された情報形式も決定します。ただし、すべての自律運転パイプラインに統一された普遍的に受け入れられているモデルはありません。狭い車線と極の形、コンパクトなマーキング、ゼブラの形状は、普遍的な表現に困難をもたらします。
  • データセットを事前に処理します。国家の法的制限と高生産コストのため、限られたシーンとまれな注釈は、データセットの構築に影響を与えます。とにかく、スケーラビリティを向上させるために、HDマップデータセットに関するさらなる研究がまだ強い必要性があります。
  • エンドツーエンドモデルとハイブリッドモデル。エンドツーエンドモデルのパフォーマンスは、深刻なスケーラビリティの問題に苦しむトレーニングデータセットによって制限される場合があります。ハイブリッドモデルは、各モデルの入力と出力のギャップによって制限されます。統一されたマップ表現の助けを借りて、オフラインメソッドフレームワークは、ディープラーニングモジュールをハイブリッドモデルとして事前に構築された物理/幾何学モデルに統合することができます。エンドツーエンドモデルは、データセットとコンピューティングパワーに依存しています。どのような仕事が最善であるかは問題のままです。
  • 評価ベンチマークとインジケーターを標準化します。 HDマップの研究者は、適切な評価ベンチマークとメトリックに焦点を当てています。プレゼンテーションフォームが豊富であるため、異なるモードの高精度マップを互いに比較することはできません。統一された評価ベンチマークとメトリックは、高精度マップ研究に必要な条件です。
  • マップ要素の一般的なカテゴリ。地図の構築に関する多くの研究がありましたが、ほとんどの研究は、レーンラインや横断歩道などの最も単純なマップ要素に依然として限定されています。道路矢印、テキスト、交通標識、信号機ポールなどの3Dマップの基本要素は、構築をマッピングするために同様に重要です。したがって、3次元空間におけるより広く、より包括的なマップ要素を考慮することも、MAP構築に重要です。
  • リアルタイムシーンの理解。 SLAMの密なセマンティックグラフも単純なベクトル化グラフも、意思決定アルゴリズムに非常に信頼性の高い認知情報を提供できません。マップと意思決定を密接にリンクする方法は問題のままです。
  • 高精度の課題。より高い精度は、常に地図の構築において重要な課題でした。より正確な結果は、移動車両が現在の道路状況をより正確に理解するのに役立ちます。

結論は

このホワイトペーパーでは、カメラセンサーを使用したHDマップの構築に関する文献、特にマップビルディングにニューラルネットワークを使用することについて調べます。コンピューティングハードウェア、ニューラルネットワークベース、アルゴリズムベースとルールベースに基づいて、マッピング方法をオフラインおよびオンラインに分割し、主流の技術ルートの主要なプロセスを要約します。最後に、これらのモデルの評価環境と設計動向について説明します。

参照する

[1]視覚センサーに基づく高解像度マップ構築:包括的な調査

オリジナルリンク:https://mp.weixin.qq.com/s/73qothznz4euo0icekpc6q

<<:  ChatGPTアプリストアがついにオンラインになり、ネットワーク全体で300万以上のGPTが集まり、OpenAIとお金を共有する時が来ました

>>: 

ブログ    

推薦する

TensorFlow 機械学習の初心者向けガイド: 線形回帰を実装するには?

TensorFlow 入門記事: 初心者でも理解できる TensorFlow 入門小学校で受けた理...

新しい機械学習システムがロボットに社会的なスキルを与える

ロボットは大学のキャンパスに食べ物を配達したり、ゴルフコースでホールインワンを達成したりすることがで...

...

メタ啓示: AIはメタバースの重要な変数である

最近、メタバースに新たな水が流れ込んできました。 Metaが開催した研究室でのディスカッションにおい...

...

ヴェノムのように変形・修復可能なロボットが登場、1.5mmの亀裂も楽々通過

映画「ヴェノム」を見たことがある友人なら、「シンビオート」が液体の形で現れることを知っているでしょう...

基本的なプログラミングアルゴリズムを簡単にマスターする(パート2)

[[121970]]この記事を書く前に、プログラマーの基本的な知識についてお話ししたいと思います。...

新しい顔認識ツール: 少ないデータでも「国際的な顔」を認識

最近、アマゾンの顔認識ツールが米国議会議員28名を犯罪者と誤って照合し、注目を集めた。顔認識ツールは...

...

AI体温測定:仕事再開の波の中で構築された最初の防疫「障壁」

[51CTO.comより] 業務を再開する企業が相次ぐ中、新型コロナウイルス肺炎の流行は「輸入症例...

人工知能によるデータ管理の変革

企業は人工知能 (AI) を適用する新しい方法を見つけています。 AI プロジェクトの主な障害の 1...

TransformerはAI分野を支配するのでしょうか?結論を出すのは時期尚早だ

自然言語処理タスクから始まり、画像分類と生成の分野で活躍する無敵のトランスフォーマーは、次の伝説とな...

米政府、AIの競争力と倫理について助言する委員会を設立

[[422878]]海外メディアCNETによると、米商務省は水曜日、人工知能の研究開発についてジョー...

顔認識エンジンのトップ 5 (テキストにイースター エッグあり)

[51CTO.com クイック翻訳] ご存知のとおり、顔の特徴は指紋ほどユニークで永続的ではありま...

...