グラフなしの ICLR'24 のための新しいアイデア! LaneSegNet: 車線セグメンテーションを考慮したマップ学習

グラフなしの ICLR'24 のための新しいアイデア! LaneSegNet: 車線セグメンテーションを考慮したマップ学習

序文と著者の個人的な理解

自動運転システムの下流アプリケーションにとって重要な情報である地図は、通常、車線またはセンターラインで表されます。しかし、既存の地図学習の文献は、主にジオメトリベースの車線の検出や中心線の位相関係の感知に焦点を当てています。どちらの方法も、車線とセンターラインの間の本質的な関係を無視します。つまり、車線はセンターラインに拘束されます。 1つのモデルで2種類の車線を単純に予測することは学習目標において相互に排他的ですが、本論文では、幾何学的情報と位相情報をシームレスに組み合わせた新しい表現として車線セグメントを提案し、LaneSegNetを提案します。これは、道路構造の完全な表現を得るために車線セグメントを生成する、初のエンドツーエンドのマッピング ネットワークです。 LaneSegNet には 2 つの重要な変更点があります。1 つは、長距離特徴空間内の重要な領域の詳細をキャプチャするために使用されるレーン アテンション モジュールです。もう 1 つは、参照ポイントに対する同じ初期化戦略であり、車線注意の位置事前学習を強化します。 OpenLane-V2 データセットでは、LaneSegNet は、マップ要素検出 (+4.8 mAP)、車線中心線認識 (+6.9 DETl)、および新しく定義された車線セグメント認識 (+5.6 mAP) という 3 つのタスクで、以前の同等のアプリケーションよりも大きな利点を達成しています。さらに、リアルタイム推論速度14.7FPSも達成しました。

オープンソースリンク: https://github.com/OpenDriveLab/LaneSegNet

要約すると、この論文の主な貢献は次のとおりです。

  • この論文では、新しい地図学習式として、新しい車線セグメント認識を紹介します。幾何学的要素と位相的要素の両方が含まれています。この分野に新たな洞察をもたらすことを期待しています。
  • この論文では、車線セグメント認識のためのエンドツーエンドのネットワークである LaneSegNet を提案します。長距離注意を捕捉するためのヘッドツーリージョン機構を備えたレーン注意モジュールと、レーン注意の位置事前学習を強化するための参照ポイントの同じ初期化戦略を含む、2 つの新しい変更が提案されています。

関連作品レビュー

センターライン認識:車載センサーデータからのセンターライン認識(本論文の車線マップ学習と同じ)は、最近大きな注目を集めています。 STSU[22]は、中心線を検出するためのDETRのようなネットワークと、その接続性を決定するための多層パーセプトロン(MLP)モジュールを提案した。 Can らは STSU に基づいて、重複する行の正しい順序を保証するために追加の最小サイクルクエリを導入しました。 CenterLineDet は中心線を頂点とみなし、模倣学習によってトレーニングされたグラフ更新モデルを設計します。注目すべきは、テスラがレーンマップを文章で表現する「レーン言語」という概念を提案したことだ。彼らの注意ベースのモデルは、車線のマーキングとその接続性を再帰的に予測します。これらのセグメンテーション方法に加えて、LaneGAP では、追加の変換アルゴリズムを使用してレーン グラフを回復するパスベースのアプローチも導入されています。 TopoNet は、ネットワーク内の中心線の接続性を明示的にモデル化して、完全かつ多様な運転シーン グラフを作成し、交通要素をタスクに組み込みます。この研究では、レーングラフを構築するためにセグメントアプローチを採用しています。ただし、レーングラフの頂点としてセンターラインではなくレーンセグメントをモデル化する点で、以前の方法とは異なります。これにより、セグメントレベルの幾何学的情報とセマンティック情報を簡単に統合できます。

マップ要素の検出: これまでの研究では、投影誤差を克服するために、マップ要素の検出をカメラ平面から 3D 空間に引き上げることに重点が置かれていました。 BEV 認識の普及に伴い、最近の研究ではセグメンテーションとベクトル化の方法を使用して HD マップを学習することに重点が置かれています。マップのセグメンテーションでは、車線、横断歩道、走行可能エリアなど、BEV 専用グリッドのセマンティクスを予測します。これらの作業は、主に視点(PV)から BEV 変換モジュールの点で異なります。ただし、セグメント化されたマップでは、下流のモジュールで使用される直接的な情報を提供することはできません。 HDMapNet は、複雑な後処理を使用してセグメント化されたマップをグループ化およびベクトル化することでこの問題に対処します。

高密度セグメンテーションはピクセルレベルの情報を提供しますが、重なり合う要素の複雑な関係には対応できません。 VectorMapNet は、粗いキーポイントを使用して車線の位置を順番にデコードし、各マップ要素をポイントのシーケンスとして直接表現することを提案します。 MapTR は、モデリングの曖昧さを排除し、パフォーマンスと効率を向上させるために、統一された順列ベースのポイント シーケンス モデリング アプローチを検討します。 PivotNet は、アンサンブル予測フレームワークでピボットベースの表現を使用してマップ要素をさらにモデル化し、冗長性を減らして精度を向上させます。 StreamMapNet は、マルチポイント アテンションと時間情報を活用して、長距離マップ要素検出の安定性を向上させます。実際、ベクトル化によって車線の方向情報も充実するため、ベクトル化ベースの方法は、交互監視を通じてセンターライン認識に簡単に適応できます。この研究では、道路上のすべての HD マップ要素 (車線セグメント) の統一された、習得しやすい表現を提案します。

レーンセグネット

車線区分認識タスクの説明

車線セグメントのインスタンスには、道路の幾何学的側面と意味的側面の両方が含まれます。ジオメトリについては、ベクトル化された中心線とそれに対応する車線境界で構成される線分として表すことができます。各線は、3D 空間内の点の順序付けられた集合として定義されます。さらに、ジオメトリは、車線内の走行可能領域を定義する閉じた多角形として記述することもできます。

セマンティクスの観点では、車線セグメント カテゴリ C (車線セグメント、横断歩道など) と左/右車線境界の線の種類 (非表示、実線、破線など) が含まれます: {}。これらの詳細は、自動運転車に減速要件と車線変更の実現可能性に関する重要な洞察を提供します。

さらに、トポロジ情報は経路計画において重要な役割を果たします。この情報を表すために、レーン セグメントのレーン グラフが構築され、G = (V, E) として表されます。各レーン セグメントはグラフ内のノードであり、セット V で表され、セット E のエッジはレーン セグメント間の接続を表します。このレーン グラフを格納するために隣接行列を使用します。行列要素 (i, j) は、j 番目のレーン セグメントが i 番目のレーン セグメントに続く場合にのみ 1 に設定され、それ以外の場合は 0 のままになります。

LaneSegNet フレームワーク

LaneSegNet の全体的なフレームワークを図 2 に示します。 LaneSegNet は、周囲の画像を入力として取り込み、特定の BEV の範囲内の車線セグメントを認識します。このセクションでは、まず、BEV 機能を生成するために使用される LaneSeg エンコーダーについて簡単に紹介します。次に、レーンセグメンテーションデコーダーとレーンアテンションを紹介します。最後に、トレーニング損失とともに車線セグメンテーション予測子を提案します。

レーンセグエンコーダ

エンコーダーは、サラウンドビュー画像をレーンセグメント抽出用の BEV 機能に変換します。標準の ResNet-50 バックボーンを使用して、生画像から特徴マップを導出します。次に、BEVFormer を使用した PV から BEV へのエンコーダー モジュールがビュー変換に使用されます。

レーンセグデコーダー

トランスフォーマーベースの検出方法では、デコーダーを使用して BEV 機能から機能を収集し、複数のレイヤーを通じてデコーダー クエリを更新します。各デコーダー層は、自己注意、交差注意メカニズム、およびフィードフォワード ネットワークを利用してクエリを更新します。さらに、学習可能なロケーションクエリも採用されています。更新されたクエリは出力され、次のステージに送られます。

マップの形状が複雑で細長いため、オンライン マッピング タスクでは長距離の BEV フィーチャを収集することが重要です。これまでの研究では、階層型(インスタンス ポイント)デコーダー クエリと変形可能な注意を利用して、各ポイント クエリのローカル機能を抽出していました。このアプローチでは長距離情報の取得は回避されますが、クエリ数が増加するため計算コストが高くなります。

レーン セグメントは、シーン グラフを構築するためのレーン インスタンス表現として、インスタンス レベルで優れた特性を備えています。マルチポイント クエリを使用する代わりに、単一インスタンス クエリを使用してレーン セグメントを表すことが目標です。したがって、主な課題は、単一のインスタンス クエリを使用してグローバル BEV 機能にクロスフォーカスする方法にあります。

レーンアテンション:物体検出において、変形可能なアテンションはターゲットの位置の事前情報を活用し、プレフィルターとしてターゲット参照点の近くにある少数のアテンション値のみに焦点を当てることで、収束を大幅に加速します。レイヤーの反復処理中、予測されたオブジェクトの中心に参照ポイントが配置され、学習可能なサンプリング オフセットを介して参照ポイントの周囲に散在する注目値のサンプリング位置が調整されます。サンプリング オフセットの意図的な初期化には、2D ターゲットの前のジオメトリが含まれます。そうすることで、図 3a に示すように、マルチブランチ メカニズムは各方向の特徴をうまく捉えることができます。

地図学習の文脈では、Li らは単純な変形可能注意を使用して中心線を予測しました。ただし、図 3b に示すように、参照ポイントの配置が単純すぎるために、孤立した範囲の注意を得られない場合がある。さらに、ターゲットの細長い形状と複雑な視覚的な手がかり(実線と破線の間のブレークポイントを正確に予測するなど)のため、このプロセスではタスクに合わせて追加の適応型設計が必要になります。これらすべての特性を考慮すると、ネットワークには長距離のコンテキスト情報に焦点を当てるだけでなく、ローカルの詳細を正確に抽出する機能も必要です。したがって、長距離情報を効果的に把握するには、サンプリング場所を広い範囲に分散させることをお勧めします。一方、重要なポイントを識別するには、ローカルの詳細を簡単に区別できる必要があります。注目すべきは、単一​​のアテンション ヘッド内の値の特徴は互いに競合しますが、異なるヘッド間の値の特徴はアテンション プロセス中に保持されるということです。したがって、この特性を明示的に活用して、特定の地域のローカルな特徴への注目を促進することが期待されます。

この目的のために、本論文では、ヘッド・ツー・リージョン・メカニズムの確立を提案する。まず、レーンセグメント領域に複数の参照ポイントを均等に分散します。次に、ローカル領域内の各参照ポイントの周囲でサンプリング位置が初期化されます。複雑なローカル詳細を保持するために、図 3c に示すように、各ヘッドがローカル領域内の特定のサンプリング場所のセットに焦点を合わせるマルチブランチ メカニズムを使用します。

ここで、レーン注意モジュールの数学的説明を提供します。 BEV 特徴、i 番目の車線セグメント クエリ特徴 qi、および参照ポイントのセット pi を入力として、車線注目度は次のように計算されます。

参照ポイントの同じ初期化: 参照ポイントの位置は、レーン注意モジュールの機能を決定する要因です。各インスタンス クエリの注目領域を実際の形状と位置に合わせるために、各インスタンス クエリの参照ポイント p は、図 3c に示すように、前のレイヤーの車線セグメント予測に基づいて分散されます。予測を繰り返し改良します。

これまでの研究では、最初のレイヤーに提供される参照ポイントは、位置クエリの埋め込みから導出された学習可能な事前情報を使用して個別に初期化する必要があると主張されています。ただし、位置クエリは入力画像とは独立しているため、この初期化方法では、モデルが幾何学的および位置の事前情報を記憶する能力が制限される可能性があり、誤って生成された初期化された位置もトレーニングの障害となる可能性があります。

したがって、レーン セグメント デコーダーの最初のレイヤーにも同じ初期化戦略を提案します。最初のレイヤーでは、各ヘッドは位置クエリによって生成された同じ参照ポイントを採用します。従来の方法における参照ポイントの分散初期化(つまり、クエリごとに複数の参照ポイントを初期化する)と比較して、同じ初期化により、複雑な幾何学的形状の干渉を除去することで、位置事前確率の学習がより安定します。同一の初期化は直感に反しているように見えるかもしれませんが、機能することが確認されていることに注意してください。

レーンセグ予測

複数の予測ブランチで MLP を使用し、幾何学的、意味的、および位相的側面を考慮して、レーン セグメント クエリから最終的な予測レーン セグメントを生成します。

ジオメトリについては、まず中心線のベクトル化された点の位置を 3D 座標で回帰するための中心線回帰ブランチを設計します。出力の形式は次のようになります。左車線と右車線の境界が対称であるため、オフセットを予測するためのオフセットブランチを導入します。これは という形式になります。したがって、左車線境界座標と右車線境界座標は、およびを使用して計算できます。

車線セグメントを走行可能な領域として概念化できると仮定して、インスタンスセグメンテーションブランチを予測子に統合します。セマンティクスの観点から見ると、3 つの分類ブランチは C の分類スコアと のスコアを並行して予測します。トポロジ ブランチは、更新されたクエリ機能を入力として受け取り、MLP を使用してレーン グラフ G の加重隣接行列を出力します。

トレーニング損失

LaneSegNet は DETR のようなパラダイムを採用し、ハンガリーアルゴリズムを使用して、予測と実際の値の間の 1 対 1 の最適な割り当てを効率的に計算します。次に、分布結果に基づいてトレーニング損失が計算されます。損失関数は、幾何学的損失、分類損失、車線分類損失、およびトポロジカル損失の 4 つの部分で構成されます。

幾何学的損失は、予測された各レーンセグメントの幾何学的構造を監視します。バイナリ マッチングの結果に応じて、予測されたベクトル化されたレーン セグメントごとに GT レーン セグメントが割り当てられます。ベクトル化されたジオメトリ損失は、割り当てられたレーン セグメントのペア間で計算されたマンハッタン距離として定義されます。

実験結果

主な実験構造

車線セグメント認識: 表 1 では、新しく導入された車線セグメント認識ベンチマークで、LaneSegNet といくつかの最先端の方法である MapTR、MapTRv2、TopoNet を比較しています。レーン セグメント ラベルを使用してモデルを再トレーニングします。 LaneSegNet は、mAP において他の方法よりも最大 9.6% 優れており、平均距離誤差が相対的に 12.5% 減少しています。 LaneSegNet-mini は、16.2 という高い FPS で以前の方法を上回ります。

定性的な結果は図 4 に示されています。

マップ要素検出: マップ要素検出方法とのより公平な比較を行うために、LaneSegNet の予測された車線セグメントを車線のペアに分解し、マップ要素検出メトリックを使用して最先端の方法と比較します。削除された車線標示と横断歩道のラベルを、いくつかの最先端の方法に入力して再トレーニングを行いました。実験結果は表 2 に示されており、LaneSegNet がマップ要素検出タスクにおいて一貫して他の方法よりも優れていることがわかります。公平に比較​​すると、LaneSegNet は追加の監視により道路の形状をより適切に復元できます。これは、Lane Segment 学習表現が道路形状情報の取得に適していることを示しています。

センターライン認識: 表 3 では、LaneSegNet と最先端のセンターライン認識方法を比較しています。一貫性を保つために、再トレーニングのために車線セグメントからセンターラインも抽出されます。 LaneSegNet は、車線マップ認識タスクにおいて他の方法よりも大幅に優れたパフォーマンスを発揮すると結論付けることができます。追加の地理的監視により、LaneSegNet は優れたトポロジカル推論機能も発揮します。推論能力は強力な位置特定および検出能力と密接に関連していることが実証されています。

アブレーション実験

車線セグメント定式化: 表 4 では、提案する車線セグメント学習定式化の設計上の利点とトレーニング効率を確認するためのアブレーションを示します。最初の 2 行の個別にトレーニングされたモデルと比較すると、中心線とマップ要素の共同トレーニングでは、行 4 に示すように、両方の主要メトリックで全体的な平均 1.3 の改善がもたらされ、マルチタスク トレーニングの実現可能性が実証されています。ただし、カテゴリを追加して単一のブランチで中心線とマップ要素をトレーニングするという一般的なアプローチでは、パフォーマンスが大幅に低下します。上記の単純な単一分岐法と比較すると、レーン セグメント ラベルを使用してトレーニングされたモデルは、大幅なパフォーマンス向上 (行 3 と 5 の比較で OLS で +7.2、mAP で +4.4) を達成しており、これはマップ学習定式化におけるさまざまな道路情報間の正の相互作用を検証しています。私たちのモデルは、特に中心線の認識の点では、マルチブランチ アプローチよりも優れています (OLS +4.8)。これは、マップ学習定式化において幾何学が位相的推論を導くことができることを示唆しており、マルチブランチ モデルは CL のみのモデルよりもわずかに優れているだけです (行 1 と 4 の間で +0.6 OLS)。小さな低下については、線種分類のエラーによって生じた予測結果の再形成プロセスによるものです。

車線注意モジュール: 注意モジュールの除去については表 5 に示します。公平な比較を容易にするために、フレームワーク内のレーン注意モジュールを代替の注意設計に置き換えます。慎重に設計されたケースでは、レーン アテンションを備えた LaneSegNet はこれらの方法を大幅に上回り、大幅な改善 (Line-1 と比較して mAP で 3.9% の改善、TOPll で 1.2% の改善) を示しました。さらに、階層型クエリ設計と比較すると、クエリ数が減るため、デコーダーのレイテンシをさらに短縮できます (23.45 ミリ秒から 20.96 ミリ秒)。

結論は

この論文では、新しい地図学習定式化として車線セグメント認識を提案し、この問題に特化したエンドツーエンドのネットワークである LaneSegNet を紹介します。ネットワークに加えて、長距離注意を捕捉するためにヘッドツーリージョンメカニズムを採用したレーン注意モジュールと、レーン注意の位置事前学習を強化するための参照ポイントの同一初期化戦略を含む、2 つの革新的な機能強化が提案されています。 OpenLane-V2 データセットでの実験結果は、私たちの設計の有効性を実証しています。

制限事項と今後の課題。計算上の制限により、提案された LaneSegNet をさらに追加のバックボーンに拡張することはできません。車線セグメントの認識と LaneSegNet の定式化は、下流のタスクに役立つ可能性があり、今後の調​​査に値します。

<<:  WidthFormer: リアルタイム自動運転!変圧器ベースのBEVソリューションの量産を支援

>>:  GPU の在庫は 600,000 に達します!ザッカーバーグ氏、新たな目標を確認:汎用人工知能の創出

ブログ    

推薦する

「説明可能な」AIが金融セクターへの信頼を高める

[[423755]]人工知能は、詐欺の特定や金融犯罪の撲滅から、顧客への革新的なデジタル体験の提供に...

これらのよく知られた VR 音声テクノロジー ソリューションをご存知ですか?

最近、Oculus は、VR デバイスを使用する際にユーザーがよりインタラクションできるようにするこ...

...

「現時点で最高のヴィンセント動画AI」が登場!広告や映画に使っても問題ない。ネットユーザー:とてもスムーズ

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

8,500 万の仕事が失われる。労働者はどうやって仕事を維持できるのか?

2020年初頭、突如発生した疫病により、多くの工場が「人手が足りない」状況に直面した。しかし、ロボ...

...

企業で文明的な AI を推進するための 6 つのヒント

「文明化された AI」への期待が高まるにつれ、コンサルタントは公平で偏見のないアルゴリズムを作成する...

データが限られている場合にディープラーニングモデルを最適化する方法

[[198229]]転移学習転移学習とは、ある問題で訓練したモデルを、簡単な調整で新しい問題に適した...

最も偽のGANモデル! Facebook、史上最強の移行機能を備えたIC-GANをリリース

[[425904]] GAN モデルは優れていますが、トレーニング データに対する要件が高すぎるため...

2022 年のエンタープライズ向け人工知能のトップ 10 トレンド

人工知能は主流になりました。さまざまな業界の企業が概念実証を成功させ、AI を本番環境に導入すること...

...

英国、今年末までに無人運転車の公道走行を許可へ

4月29日、外国メディアの報道によると、英国運輸省は水曜日、自動車線維持システム(ALK)を搭載した...