CLRNet: 自動運転における車線検出のための階層的改良ネットワークアルゴリズム

車線は高レベルのセマンティクスを備えた交通標識であり、視覚ナビゲーションシステムでは特に重要です。車線を検出すると、自動運転における視覚ナビゲーションや先進運転支援システム (ADAS) など、多くのアプリケーションにメリットがもたらされ、スマート車両が自らの位置をより正確に把握し、より安全に運転できるようになります。

ただし、車線検出には特定のローカルパターンがあり、ネットワーク画像内の車線情報のリアルタイム予測と、正確な位置決めのためのより詳細な低レベルの特徴が必要になります。したがって、車線検出はコンピュータービジョンにおいて重要かつ困難なタスクであると言えます。

正確な車線検出にはさまざまな特徴レベルを使用することが非常に重要ですが、割引作業はまだ探索段階にあります。この論文では、車線検出のために高レベルと低レベルの両方の特徴を最大限に活用することを目的としたクロスレイヤーリファインメントネットワーク (CLRNet) を紹介します。まず、高レベルの意味的特徴で車線を検出し、次に低レベルの特徴に基づいて車線を改良します。このアプローチでは、より多くのコンテキスト情報を活用して車線を検出し、同時にローカルの詳細な車線機能を活用して位置決め精度を向上させることができます。さらに、ROIGather を通じてグローバルコンテキストを収集することで、車線の特徴表現をさらに強化できます。まったく新しいネットワークを設計することに加えて、車線ラインを全体として回帰させ、位置特定精度を向上させるライン IoU 損失が導入されています。

前述のように、Lane には高レベルのセマンティクスがありますが、特定のローカルパターンがあり、正確な位置決めには詳細な低レベルの特徴が必要です。 CNN でさまざまな特徴レベルを効果的に活用する方法は依然として疑問です。下の図 1(a) に示すように、ランドマークと車線は意味が異なりますが、類似した特徴 (長い白線など) があります。高レベルのセマンティクスとグローバルコンテキストがなければ、それらを区別することは困難です。一方で地域性も重要で、路地は細長く、地域的なレイアウトはシンプルです。

また、高レベルの特徴の検出結果を図1(b)に示します。車線は検出されていますが、その位置は正確ではありません。したがって、低レベル情報と高レベル情報が相互に補完し合い、正確な車線検出を実現できます。

車線検出におけるもう一つの一般的な問題は、車線の存在に関する視覚情報が不足していることです。上の図 1(c) に示すように、車線は車で占められていますが、図 1(d) では、極端な照明条件のために車線を識別することが困難です。

関連研究

これまでの研究では、車線のローカルジオメトリをモデル化してそれをグローバル結果に統合するか、グローバル機能を備えた完全接続レイヤーを構築して車線を予測していました。これらの検出器は、車線検出におけるローカル機能またはグローバル機能の重要性を実証していますが、両方の機能を同時に活用することができないため、検出パフォーマンスが不正確になる可能性があります。たとえば、SCNN と RESA は、グローバルコンテキストを収集するためのメッセージパッシングメカニズムを提案しましたが、これらの方法はピクセルレベルの予測を実行し、レーン全体を単位として扱いません。その結果、その性能は多くの最先端の検出器に比べて遅れをとっています。

車線検出では、低レベルの特徴と高レベルの特徴が補完的です。これに基づいて、本論文では、車線検出に低レベルの特徴と高レベルの特徴を最大限に活用するための新しいネットワークアーキテクチャ (CLRNet) を提案します。まず、ROIGather を通じてグローバルコンテキストが収集され、車線機能の表現がさらに強化されます。この表現は他のネットワークに挿入することもできます。次に、レーン検出に合わせて調整されたライン IoU (LIoU) 損失を提案します。これにより、レーンをユニット全体として回帰し、パフォーマンスを大幅に向上させます。さまざまな検出器の位置特定精度をより適切に比較するために、新しい mF1 インジケーターも使用されます。

車線の表現に応じて、現在の CNN ベースの車線検出は、セグメンテーションベースの方法、アンカーベースの方法、およびパラメーターベースの方法の 3 つのカテゴリに分類できます。

1. セグメンテーションベースの方法

このようなアルゴリズムでは通常、車線検出をセマンティックセグメンテーションタスクと見なすピクセル単位の予測式が採用されます。 SCNN は、車線内に存在する強力な空間関係を捉える、視覚的に検出できないオブジェクトの問題に対処するためのメッセージパッシングメカニズムを提案します。 SCNN は車線検出のパフォーマンスを大幅に向上させますが、この方法はリアルタイムアプリケーションには低速です。 RESA は、ネットワークがグローバルな特徴を収集し、パフォーマンスを向上できるようにするリアルタイムの特徴集約モジュールを提案します。 CurveLane-NAS では、ニューラルアーキテクチャ検索 (NAS) を使用して、曲線車線の検出を容易にするための正確な情報を取得するためのより優れたネットワークを見つけます。ただし、NAS は計算コストが非常に高く、多くの GPU 時間を必要とします。これらのセグメンテーションベースの方法は、画像全体に対してピクセルレベルの予測を実行し、車線を全体として考慮しないため、非効率的で時間がかかります。

2. アンカーベースの方法

車線検出におけるアンカーベースの方法は、ラインアンカーベースの方法と行アンカーベースの方法の 2 つのカテゴリに分けられます。ラインアンカーベースの方法では、正確なレーンを回帰するための参照として事前定義されたラインアンカーを使用します。 Line-CNN は、車線検出に線と弦を使用する先駆的な研究です。 LaneATT は、グローバル情報を集約するための新しいアンカーベースの注意メカニズムを提案します。最先端の結果を達成し、高い有効性と効率性を示します。 SGNet は、新しい消失点ガイド付きアンカージェネレーターを導入し、複数の構造ガイダンスを追加してパフォーマンスを向上させます。行アンカーベースの方法では、画像上の定義済み行ごとに可能なセルを予測します。 UFLD は、レーンアンカーベースのレーン検出方式を初めて提案し、軽量バックボーンネットワークを採用して高速推論を実現しました。シンプルで高速ですが、全体的なパフォーマンスは良くありません。 CondLaneNet は、条件付き畳み込みとラインアンカーベースの定式化に基づく条件付き車線検出戦略を導入します。つまり、最初に車線の開始点を特定し、次にラインアンカーベースの車線検出を実行します。ただし、一部の複雑なシナリオでは、開始点の特定が難しく、パフォーマンスが比較的低下します。

3. パラメータベースの方法

ポイント回帰とは異なり、パラメータベースの方法はパラメータを使用して車線曲線をモデル化し、これらのパラメータを回帰して車線を検出します。 PolyLaneNet は多項式回帰問題を採用し、高い効率を実現します。 LSTR は道路構造とカメラの姿勢を考慮して車線の形状をモデル化し、車線検出タスクに Transformer を導入して全体的な特徴を取得します。

パラメータベースの方法では、回帰に必要なパラメータは少なくなりますが、予測パラメータの影響を受けやすく、たとえば、高次係数の予測ミスによって車線の形状が変化する可能性があります。パラメータベースの方法は推論速度が速いですが、より高いパフォーマンスを達成するのはまだ困難です。

クロスレイヤーリファインメントネットワーク (CLRNet) の方法論的概要

この論文では、車線検出に低レベルと高レベルの両方の特徴を最大限に活用する新しいフレームワーク、Cross-Layer Refinement Network (CLRNet) を紹介します。具体的には、まず高意味的特徴を検出して、大まかに車線の位置を特定します。その後、詳細な特徴に応じて車線位置と特徴抽出を徐々に改良し、高精度の検出結果（より正確な位置）を取得します。視覚では検出できない車線の死角の問題を解決するために、ROI コレクターが導入され、ROI 車線の特徴と特徴マップ全体の関係を確立することで、よりグローバルなコンテキスト情報を取得します。さらに、車線の交差和集合 (IoU) が定義され、車線を全体として回帰するための Line IoU (LIoU) 損失が提案されており、これにより、標準損失 (つまり、スムーズ L1 損失) と比較してパフォーマンスが大幅に向上します。

図2. CLRNetの概要

上の図は、この記事で紹介した車線 IoU 処理用の CLRNet アルゴリズムのフロントエンドネットワーク全体を示しています。このうち、図(a)のネットワークはFPN構造から特徴マップを生成します。続いて、各レーンの事前分布は、高レベルの特徴から低レベルの特徴へと洗練されます。図 (b) は、各ヘッドがレーンの事前特徴を取得するために、より多くのコンテキスト情報を使用することを示しています。図(c)は車線事前分布の分類と回帰を示しています。この論文で提案されている Line IoU 損失は、回帰パフォーマンスをさらに向上させるのに役立ちます。

次のセクションでは、この記事で説明したアルゴリズムがどのように機能するかについて詳しく説明します。

1. 車線ネットワークの表現

ご存知のとおり、実際の道路の車線は細く長いです。この特徴表現には強力な形状事前情報が含まれているため、事前定義された車線事前情報はネットワークが車線をより適切に見つけるのに役立ちます。従来の物体検出では、物体は長方形のボックスで表されます。ただし、長方形のフレームは長い線を表すのに適していません。ここでは、等間隔に配置された 2D ポイントが車線の表現として使用されます。具体的には、車線は点列、つまりP = {(x1, y1), ···,(xN , yN )}として表されます。点の y 座標は画像の垂直方向に均一にサンプリングされます。つまり、H は画像の高さです。したがって、x 座標は対応すると関連付けられており、この表現はレーン優先度と呼ばれます。各レーンの事前確率はネットワークによって予測され、次の 4 つの部分で構成されます。

（１）前景確率と背景確率

（２）車線長優先

（３）車線の開始点と前の車線のX軸との間の角度（x、y、θと呼ばれる）。

（４）Nオフセットは予測値とその真の値との間の水平距離である。

2. クロスレイヤーリファインメントの動機

ニューラルネットワークでは、深い層の高レベルの特徴は、より多くの意味的特徴を持つ道路オブジェクトへのより強いフィードバックを示し、浅い層の低レベルの特徴は、より多くのローカルコンテキスト情報を持ちます。車線オブジェクトが高レベルの機能にアクセスできるようにすると、車線やランドマークの区別など、より有用なコンテキスト情報を活用できるようになります。同時に、細かい詳細機能により、高い位置決め精度で車線を検出できます。オブジェクト検出では、ConvNet 特徴階層のピラミッド形状を活用するために特徴ピラミッドを構築し、異なるスケールのオブジェクトを異なるピラミッドレベルに割り当てます。ただし、レーンには高レベル機能と低レベル機能の両方が重要であるため、レーンを 1 つのレベルのみに直接割り当てることは困難です。 Cascade RCNN にヒントを得て、レーンオブジェクトをすべてのレベルに割り当てることができ、レーンを順番に検出できます。

特に、高レベルの特徴を使用して車線を検出し、大まかに車線の位置を特定することができます。検出された既知の車線に基づいて、より詳細な機能を使用して車線を絞り込むことができます。

3. 構造を洗練させる

アルゴリズム全体の目標は、ConvNet のピラミッド機能階層 (低レベルから高レベルのセマンティクスを含む) を活用し、常に高レベルのセマンティクスを持つ機能ピラミッドを構築することです。残差ネットワーク ResNet がバックボーンとして使用され、{L0、L1、L2} は FPN によって生成された特徴レベルを表すために使用されます。

図 2 に示すように、クロスレイヤーリファインメントは最高レベルの L0 から始まり、徐々に L2 に近づきます。対応する改良は、{R0、R1、R2} を使用して表されます。その後、一連の改良を継続的に構築できます。

ここで、t = 1, · · · , T、T は改良の総数です。

全体的な方法は、高度なセマンティクスを備えた最高レベルからの検出を実行します。ここで、Pt はレーン事前パラメータ (開始点の座標 x、y、角度 θ) であり、インスピレーションを得て自己学習可能です。最初のレイヤー L0 では、P0 が画像平面上に均一に分布し、リファインメント Rt は Pt を入力として取り、ROI レーンの特徴を取得し、次に 2 つの FC レイヤーを実行してリファインメントパラメーター Pt を取得します。レーンの事前情報と特徴情報の抽出を徐々に改良することは、クロスレイヤーの改良にとって非常に重要です。なお、この方法は FPN 構造に限定されず、ResNet のみを使用したり、PAFPN を採用したりすることも適しています。

4. ROIの収集

各特徴マップに対してレーン事前情報を割り当てた後、ROI Align モジュールを使用してレーン事前特徴を取得できます。ただし、これらの機能のコンテキスト情報はまだ十分ではありません。場合によっては、極端な照明条件によりレーンインスタンスが占有されたり、見えなくなったりすることがあります。この場合、車線の存在を示すローカル視覚リアルタイム追跡データが存在しない可能性があります。ピクセルが車線に属しているかどうかを判断するには、近くの特徴を調べる必要があります。最近のいくつかの研究では、長距離依存関係を最大限に活用するとパフォーマンスが向上する可能性があることも示されています。したがって、より有用なコンテキスト情報を収集して、車線の特徴をよりよく学習できるようになります。

このため、まずレーンに沿って畳み込み計算が実行され、レーン内の各ピクセルが近くのピクセルに関する情報を収集し、この情報に基づいて占有部分を強調できるようになります。さらに、レーンの事前特徴と特徴マップ全体との関係が確立されます。したがって、より多くのコンテキスト情報を活用して、より優れた特徴表現を学習することができます。

ROI 収集モジュールの構造全体は軽量で実装が簡単です。なぜなら、特徴マップとレーン事前分布を入力として受け取り、各レーン事前分布には N 個のポイントがあるからです。境界ボックスのROI Alignとは異なり、各車線の事前情報を収集するには、まずROI Alignに従って車線の事前ROI特徴（Xp ∈ RC ^×Np ）を取得する必要があります。 Np 個のポイントがレーン事前分布から均一にサンプリングされ、双線形補間を使用してこれらの位置での入力特徴の正確な値が計算されます。 L1 および L2 の ROI 機能については、前のレイヤーの ROI 機能を接続することで機能表現を強化できます。抽出された ROI 特徴を畳み込むことで、各レーンピクセルの近くの特徴を収集できます。メモリを節約するために、ここでは完全接続を使用してレーン事前特徴 (Xp ∈ R ^C×1 ) をさらに抽出します。ここで、特徴マップのサイズは_Xf ∈ R ^C×H×Wに調整され、さらに_Xf ∈ R ^C×HWに平坦化できます。

車線事前特徴のグローバルコンテキスト情報を収集するためには、まずROI車線事前特徴（Xp）とグローバル特徴マップ（Xf）の間の注目行列Wを計算する必要があります。これは次のように表されます。

ここで、f は正規化関数のソフト最大値です。集約された特徴は次のように記述できます。

出力 G は、Xf のすべての位置から選択された Xf と Xp の重ね合わせを反映します。最後に、出力が元の入力 Xp に追加されます。

ROIGather がネットワーク内でどのように機能するかをさらに実証するために、注目マップの ROIGather 分析を図 3 に示します。これは、レーンの事前 ROI 機能と機能マップ全体の間の注目度を示します。オレンジ色の線は以前の対応するレーンであり、赤い領域は注目度の重みの高スコアに対応しています。

図3. ROIGatherにおける注目度の重みの図解

上の図は、レーン事前分布の ROI 特徴 (オレンジ色の線) と特徴マップ全体との間の注目重みを示しています。色が明るいほど、重量値が大きくなります。提案された ROIGather は、豊富なセマンティック情報を使用してグローバルコンテキストを効果的に収集し、遮蔽下でも前景の車線の特性をキャプチャできることは注目に値します。

5. ユニオンロス上の車線交差点

前述のように、レーン事前分布は、実際の値を使用して回帰する必要がある離散ポイントで構成されます。これらのポイントを回帰するには、smooth-l1 などの一般的に使用される距離損失を使用できます。ただし、この損失はポイントを個別の変数として扱うため、単純化しすぎた仮定となり、回帰の精度が低下します。

距離損失とは対照的に、Intersection over Union (IoU) は車線事前分布を全体として回帰することができ、評価メトリックに合わせて調整されます。ここでは、ライン IoU (LIoU) 損失を計算するためのシンプルで効果的なアルゴリズムを導出します。

下の図に示すように、サンプリングされた xi 位置に応じて拡張セグメントの IoU を積分することで、線分の交差和 (IoU) を計算できます。

図4. ラインIoU図

上の図の式に示されているように、線分の IoU 損失は、2 つの線分間の相互作用と結合の比率である線分の交差と結合の比率 (IoU) の定義から導入されます。図4に示すように、予測レーンの各点について、まずそれを（ ^xpi ）半径eの_線分に延長します。次に、拡張された線分とその真実の間の IoU は次のように計算できます。

このうち、 ^xpi _- e、 ^xpi + _eは^xpiの拡張ポイントであり_、 ^xgi _- e、 ^xgi + _eは対応するグラウンドトゥルースポイントです。 d ⁰ _{i は}負になる可能性があり、これにより重複しない線分の場合に効率的な情報最適化が可能になることに注意してください。

そうすると、LIoU は無限の線点の組み合わせとして考えることができます。式を簡略化して計算を容易にするために離散形式に変換し、

LIoU 損失は次のように定義されます。

−1 ≤ LIoU ≤1 の場合、2 本の線が完全に重なると LIoU = 1 になり、2 本の線が離れると LIoU は -1 に収束します。

Line IoU lossによる車線線の関連付けの計算には2つの利点がある: (1) 単純かつ微分可能であり、簡単に並列化できる。（２）レーン全体を予測し、全体的なパフォーマンスの向上に貢献します。

6. トレーニングと推論の詳細

まず、陽性サンプルの選択が行われます。

トレーニングプロセス中に、各グラウンドトゥルースレーンには、1 つ以上の予測レーンが正のサンプルとして動的に割り当てられます。特に、予測されるレーンはその割り当てられたコストに従ってランク付けされます。コストは次のように定義されます。

ここで、Ccls は予測とラベル間の焦点コストです。 Csim は予測された車線と実際の車線間の類似性コストです。これは 3 つの部分で構成されます。Cdis はすべての有効なレーンポイントの平均ピクセル距離を表し、Cxy は開始点の座標の距離を表し、Ctheta はシータ角度の差を表し、これらはすべて [0, 1] に正規化されます。 wcls と wsim は、定義された各コンポーネントの重み係数です。各グラウンドトゥルースレーンには、Cassign に従って予測レーンの動的な番号 (トップ k) が割り当てられます。

2番目に、トレーニングによる損失があります。

トレーニング損失には分類損失と回帰損失が含まれ、回帰損失は指定されたサンプルに対してのみ計算されます。全体的な損失関数は次のように定義されます。

Lcls は予測とラベル間の焦点損失、Lxytl は開始座標、シータ角、車線長の回帰に対するスムーズ L1 損失、LLIoU は予測車線と実際の値間のライン IoU 損失です。補助的なセグメンテーション損失を追加すると、トレーニング中にのみ使用され、推論コストは発生しません。

最後に、有効な推論を行うことです。背景レーン（事前に分類が低いレーン）は、分類スコアでしきい値を設定することによってフィルタリングされ、その後、nms を使用して重複度の高いレーンが削除されます。 1対1の割り当てを使用する場合、つまりtop-k = 1に設定すると、ここでもnmsは存在しなくなります。

要約する

本稿では、車線検出のためのクロスレイヤーリファインメントネットワーク (CLRNet) を提案します。 CLRNet は、高レベルの特徴を活用して車線を予測し、同時にローカルの詳細な特徴を使用して位置特定精度を向上させることができます。車線の存在を示す視覚的証拠が不十分であるという問題を解決するために、ROIGather を通じてすべてのピクセルとの関係を確立することで、車線の特徴表現を強化することが提案されています。車線全体を回帰するために、車線検出に合わせて調整された Line IoU 損失が提案されており、これにより標準損失 (つまり、smooth-l1 損失) と比較してパフォーマンスが大幅に向上します。提案された方法は、CULane、LLamas、Tusimple という 3 つの車線検出ベンチマークデータセットで評価されます。提案された方法は、3 つの車線検出ベンチマークにおいて、他の最先端の方法 (CULane、Tusimple、LLAMAS) を大幅に上回ります。

<<:

>>: