初めてmAP70%を突破! GeMap: ローカル高精度マップ SOTA が再び更新されました

初めてmAP70%を突破! GeMap: ローカル高精度マップ SOTA が再び更新されました

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

序文と著者の個人的な理解

センサーデータに基づいてベクトル化された高精度マップをリアルタイムで構築することは、予測や計画などの下流タスクにとって非常に重要であり、リアルタイムパフォーマンスが低いというオフラインの高精度マップの欠点を効果的に補うことができます。ディープラーニングの発展に伴い、オンラインでベクトル化された高精度の地図構築が徐々に登場し、HDMapNetやMapTRなどの代表的な作品が次々と登場しました。しかし、既存のオンラインベクトル化高精度マップ構築方法では、マップ要素の幾何学的特性(要素の形状、垂直、平行、その他の幾何学的関係を含む)の調査が欠けています。

ベクトル化された高精度地図の幾何学的特性

ベクトル化された高精度マップは、道路上の要素を高度に抽象化し、各マップ要素を 2 次元の点のシーケンスとして表現します。都市道路の設計には特定の仕様があります。たとえば、横断歩道はほとんどの場合、正方形または平行四辺形です。分岐や合流のない道路区間では、隣接する 2 車線が互いに平行になっています。高精度地図のさまざまな要素にも、多くの類似した特性があります。これらの常識的なルールは、地図要素の形状(長方形、平行四辺形、直線など)や、さまざまな地図要素間の関係(平行、垂直など)など、高精度地図の幾何学的特性に抽象化されています。幾何学的特性は、マップ要素の表現を強く制約します。オンライン モデルが幾何学的特性を完全に理解していれば、より正確な結果が得られます。

高精度地図における幾何学的表現の重要性を提案する

既存のモデルがマップ要素の幾何学的特性を学習することは理論的には可能ですが、幾何学的特性の特性により、少なくとも従来の設計ではモデルが学習するのは容易ではありません。

  • 幾何学的性質の不変性

中央車両が道路を直進したり、車線を変更したり、曲がったりする場合、マップ要素の絶対座標(車両座標系内)は常に変化します。横断歩道、車線、道路境界などの形状は変化しません。同様に、車線間の平行関係も変化しません。地図要素の幾何学的特性は客観的であり、その重要な特性の 1 つは不変性です。より具体的には、それは剛性不変性(回転および並進変換によって変化しない)です。これまでの作業は、単純なポリライン表現を使用する場合でも、制御点を持つ多項式曲線 (ベジェ曲線や区分ベジェ曲線など) を使用する場合でも、絶対座標に基づいており、絶対座標に基づいてエンドツーエンドで最適化されています。絶対座標に基づく最適化目標は本質的に厳密な不変性を持たないため、モデルが当てはまる局所最適解に幾何学的特性の理解が含まれることを期待することは困難です。したがって、幾何学的特性を完全に特徴付けることができ、一定の不変性を持つ表現が必要です。

図 1. 幾何不変性の例。

車両が右折すると、絶対座標が大きく変化します。右側の画像は、対応する実際のシナリオを示しています。

  • 幾何学的特性の多様性

さらに、十分な事前知識があるにもかかわらず、道路の幾何学的特性は依然として多様です。これらの多様な幾何学的特性は、一般に 2 つのカテゴリに分類できます。1 つは単一のマップ要素の幾何学的形状に関するものであり、もう 1 つは異なるマップ要素間の幾何学的関係に関するものです。幾何学的特性は多様であるため、幾何学的特性を網羅的に手動で制約に変換することは不可能です。そのため、モデルが多様な幾何学的特性をエンドツーエンドで自律的に学習できることを期待しています。

GeMapのデザイン

幾何学的表現

上記の 2 つの問題に対処するために、まず表現方法を改善します。私たちは、絶対座標に基づく従来の表現に加えて、以下の要件を満たす適切な幾何学的表現を導入したいと考えています。

  • 地図要素の形状を描写できる
  • 地図要素間の関係を描写できる
  • 剛性

並進不変性を保証するために、相対量、つまり点間のオフセット ベクトルを使用します。さらに回転不変性を保証するために、オフセット ベクトルの長さと、異なるオフセット ベクトル間の角度を選択します。これら 2 つ (長さと角度) が、私たちが提案する幾何学的表現の基礎となります。さらに、形状をより適切に区別して特徴付け、2 つの異なる幾何学的特性を関連付けるために、シンプルさの原則に従ってデザインをさらに改良しました。

形状を特徴付けるために、単一のマップ要素内の隣接するポイント間のオフセット ベクトルを計算し、オフセット ベクトルの長さと隣接するオフセット ベクトル間の角度を計算します。この表現により、任意のポリライン/ポリゴンを一意に識別できます。以下に 2 つの画像の例を示します。

図2. 幾何学的形状の表現。

長方形は直角と 2 組の等しい辺を使用して表すことができます。直線のすべての角度は 0 度または 180 度に等しくなります。

同様に、関連性を特徴付けるために、まず任意の 2 点間の距離を考慮しました。ただし、すべてのポイントツーポイントのオフセット ベクトル間の角度をペアで計算すると、表現の複雑さが高まりすぎて、計算コストが耐えられなくなります。具体的には、マップ要素が全部で 1000 個あり、各要素が点で表現されていると仮定すると、すべての角度のデータ量は TB レベルに達します (1000 を取ると、各角度のデータが 32 ビットの浮動小数点数であると仮定すると、そのような表現だけで占有されるスペースは TB レベルに達します)。実際、一般的な垂直、平行などの関係ではこれは必要ありません。したがって、最初に要素内のオフセットを計算し、次に幾何学的表現の一部としてこれらのオフセット間の角度のみを計算します。この簡略化された関連表現は、平行、垂直、およびその他の関係を記述する機能を保持しながら、対応するデータ量はわずか (上記の条件下では約 4 MB) です。理解しやすくするために、いくつか例も示します。

図3. 幾何学的関連表現。

平行と垂直の関係は、オフセット ベクトル間の角度が 0 度または 90 度として表現され、2 点間の距離は、ある程度車線幅の情報を反映できます。

幾何学的形状と関連する表現を最適化するために、予測とラベルの幾何学的表現を直接計算し、ノルムを最適化目標として使用するという単純なアプローチを採用します。

ここで、 はラベルに基づいて計算された長さと角度を表し、 は予測に基づいて計算された長さと角度を表します。角度を扱うときにはトリックが使用されます。角度を直接計算すると不連続なアークタンジェント関数が使用され、最適化が困難になります (±90 度付近で勾配消失の問題が発生しています)。そのため、実際には角度のコサインとサインを比較します。

幾何学的表現の基礎は角度と距離であるため、対応する幾何学的損失を比喩的に「ユークリッド損失」と呼びます。これは、回転および平行移動の変換に対するこの損失の堅牢性も表します。

幾何学的に解きほぐされた注意

MapTR、Pivo​​tNet などで採用されているアーキテクチャは、マップ要素上の各ポイントを Transformer のクエリにマッピングします。このフレームワークの問題点は、幾何学的特性の 2 つの主要なカテゴリを区別していないことです。

自己注意では、すべてのクエリ (別名「ポイント」) が相互に平等に相互作用します。ただし、マップ要素の形状はクエリのグループに対応します。これらのグループ間の相互作用は、要素の形状を認識する際に負担になります。逆に、要素間の関係性を認識する場合、形状は冗長な要素になります。これは、形状の知覚と関連付けを切り離すと、より良い結果が得られる可能性があることを意味します。

幾何学と関連付けの処理を切り離すために、自己注意を 2 つのステップに分割します。

  • 各マップ要素には以下が含まれますお問い合わせはこちら各クエリ内で幾何学的形状を処理するための注意が実行される
  • 幾何学的関連性を処理するために要素間の注目関係を補足する

幾何学的に分離された注意をより鮮明に表現したものが下の図に示されています。私たちの実装は比較的シンプルで、マスクを直接使用して注目の範囲を制御します。実際、2 種類の注意は補完的であるため、適切な実装により、時間の複雑さは単一の自己注意を実行するのと同等になる可能性があります。

図 4. 幾何学的に解きほぐされた注意。

左側は単一要素内で実行される形状アテンションを示し、右側は要素間で実行される関連付けアテンションを示します。

実験結果

私たちは、nuScenes と Argoverse 2 という 2 つのデータセットで広範な実験を実施しました。どちらも一般的に使用されている大規模な自動運転データセットであり、どちらもマップ注釈を提供します。

主な結果

私たちは nuScenes で 3 セットの実験を実施しました。まず、幾何学的損失とその他の必要な損失(ポイントツーポイント距離、エッジ方向、分類など)のみを含む、比較的純粋な目的関数の組み合わせを使用しました。この組み合わせは、SOTA の結果を過度に追求することなく、提案した幾何学的特性の重要な価値を反映することを目的としています。この場合、私たちの方法は MapTR と比較して mAP を改善できることがわかります。 GeMap の限界を探るために、セグメンテーションや深度推定などの補助的な目標も追加しました。この場合も、SOTA 結果 (mAP の改善) が達成されました。このような改善では推論速度をあまり犠牲にする必要がないことは注目に値します。最後に、追加の LiDAR モーダル入力も導入してみました。追加のモーダル入力のサポートにより、GeMap のパフォーマンスをさらに向上させることができます。

同様に、Argoverse 2 データセットでも、私たちの方法は非常に優れた結果を達成しました。

アブレーション実験

nuScenes でのさらなるアブレーション実験により、ジオメトリ損失とジオメトリ分離注意の価値が実証されます。興味深いことに、予想どおり、幾何学的損失を直接使用すると、実際にはモデルのパフォーマンスが低下します。これは、形状と関連付け処理の構造的結合により、モデルが幾何学的表現を最適化することが困難になるためであると考えられます。幾何学的分離注意と組み合わせると、幾何学的損失が本来の役割を果たします (「+ユークリッド損失」から「完全」へ)。

その他の結果

さらに、nuScenes上で可視化分析も行いました。視覚化の結果は、回転と平行移動に対して堅牢であることに加えて、次の図に示すように、GeMap にはオクルージョンの問題に対処する上でも一定の利点があることを示しています。難しいマップ要素はオレンジ色のボックスで強調表示されます。

図5. 視覚的な比較結果。

遮蔽に対する堅牢性は、雨の日の実験結果でも定量的に検証されています(下表を参照)(雨は自然にカメラを遮るため)。

これは、モデルが幾何学的特性を学習し、遮蔽物がある場合でもマップ要素をより正確に推測できるようになったことで説明できます。たとえば、モデルが車線の形状を理解していれば、残りを推定するためには一部を「見る」だけで済みます。モデルは車線間の平行関係や車線の幅の特性を理解しているため、車線の 1 つがブロックされている場合でも、平行度と幅の要素に基づいてブロックされている部分を推測できます。

要約する

マップ要素の幾何学的特性と、それがオンラインのベクトル化 HD マップの構築に与える価値について説明します。これに基づいて、この値を事前に検証するための強力な方法を提案します。さらに、GeMap の遮蔽に対する堅牢性は、車両と道路の両方が比較的標準的な幾何学的特性を持っているため、幾何学的特性を使用して他の自動運転タスク (検出、占有予測など) で遮蔽を処理するというアイデアの前兆となる可能性があります。もちろん、私たちのアプローチ自体には、さらに探求する余地がたくさんあります。たとえば、異なる複雑さの幾何学的要素を、異なる点を使用して適応的に記述できるでしょうか?幾何学的表現を確率的観点から理解し、ノイズに対してより堅牢にすることは可能でしょうか?要素の関連付けを簡略化したので、幾何学的な関連付けを表現するより良い方法はありますか?これらはすべて、さらなる最適化に向けた方向性です。

オリジナルリンク: https://mp.weixin.qq.com/s/BoxlskT68Kjb07mfwQ7Swg

<<:  RayDF: リアルタイムレンダリング!光線に基づく3D再構成の新しい方法

>>: 

ブログ    
ブログ    
ブログ    

推薦する

人工知能はどのようにしてデジタル経済の新しい時代を導くのでしょうか?デジタルサミットの専門家は言う

[[346344]] 「人類の技術発展の歴史を振り返ると、機械化、電化、情報化の時代を経験し、生産や...

自動運転車の4つの重要な要素:2040年までに市場価値500億ドル

自動運転車は自動車業界にとって非常に破壊的な技術です。現在、多くのメーカーが物流、自動運転タクシー、...

...

Googleの研究者が自撮りカメラ用の顔歪み防止アルゴリズムを開発

最近の調査によると、毎日 9,300 万枚の自撮り写真がソーシャル メディアに投稿されており、Ins...

...

NVIDIA GPU が一戦で神となる!黄仁訓は人工知能に賭け、1兆ドル規模のグラフィックカード帝国を築く

AlexNet ニューラル ネットワークから ChatGPT、生成 AI の爆発的な増加まで、NVI...

...

自分の写真がディープフェイクに使われるのではないかと心配ですか?ボストン大学の新しい研究を試してみてください

顔を入れ替えた動画は、DL を悪用した大きな結果です。インターネット上にあなたの写真がある限り、あな...

...

PyTorch ガイド: ディープラーニング モデルのトレーニングを高速化する 17 のヒント!

PyTorch でディープラーニング モデルをトレーニングする場合、モデルのトレーニングを高速化す...

Googleの創設者が個人的にGeminiのコードを書いたが、これは非常に核心的なものだ

純資産が1,050 億ドルあるにもかかわらず、彼は今でも毎日自分でコードを書いています。 ?彼の名前...

...

人工知能とビッグデータの時代において、一般の人々はどうやってお金を稼ぐのでしょうか?

将来、旅行には自動運転車、食事にはプログラムされたスナックストリート、ヘアカットにはロボット理髪師、...

ジニ不純度: 決定木の構築にジニ不純度をどのように活用するか?

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...