最高速度：250fps！リアルタイムの高性能車線検出アルゴリズムLaneATT

CVPR 2021 車線検出論文: 車線から目を離さない: リアルタイムの注意誘導型車線検出。

紙：

出典: http://arxiv.org/pdf/2010.12035.pdf

コード：

https://github.com/lucastabelini/LaneATT

モチベーション

車線検出は、自動運転の分野において最も重要なサブタスクの 1 つです。著者らは、LaneATT というリアルタイムの高性能車線検出アルゴリズムを提案しました。

この方法はアンカー実装に基づいており、アテンションメカニズムを適用します。軽量バージョンの推論速度は 250FPS に達します。

ネットワーク構造

1.1 全体的なプロセス

アルゴリズムの全体的なプロセスを下の図に示します。

車両の前方カメラで収集された RGB 画像を入力として使用し、車線の位置を出力します。

上図からわかるように、アルゴリズムはバックボーンの出力結果に対してプーリング操作を実行して各アンカーの特徴を抽出します。抽出された特徴は、アテンションモジュールによって生成されたグローバル特徴と融合され、遮蔽や照明などにより車線が検出できない問題を解決します。融合された特徴は完全接続層の入力として使用され、完全接続層は車線線の信頼度と関連パラメータを出力します。

1.2 車線とアンカーの表現

車線標示

画像を垂直方向に等分割し、得られた等分割点を（）として記録します。

各車線ラインについて、を固定し、各車線ラインの差を決定します。各は、対応するを持つ車線ライン上の点を形成します。

車線は画像全体を通らないため、とはそれぞれ開始インデックスと終了インデックスを表します。これらは、車線線の連続した有効なポイントを表すために使用されます。

アンカー表現

アンカーは原点と方向によって表されます。

原点は常に画像の左、右、下の境界に位置します。

1.3 バックボーン

LaneATT のバックボーンとしては ResNet などの一般的なネットワークが使用され、バックボーンの出力特徴は次のように記録されます。

後続のモジュールでの計算量を削減するために、に対して畳み込みが実行され、出力結果がとして記録されます。

1.4 特徴プーリング

各アンカーについて、そこから抽出される特徴点の座標インデックスを使用して、そこから特徴が抽出されます。まず、これらの座標点の方向座標を定義し、次の式を使用して対応する座標を見つけます。

上記の式の合計はアンカーの原点と方向を表し、元の画像に対応する特徴のステップサイズを表します。

各アンカーについて、上記の合計を使用して特徴を抽出します。上記で計算されたポイントの座標値が範囲を超える場合、対応する位置の値は 0 になります。

1.5 注意メカニズム

上記の特徴プーリング操作により、ローカルな特徴が取得されます。遮蔽や照明などの複雑なシーンに対応するには、ローカルな特徴とグローバルな特徴を融合する必要があります。

著者らは、入力がローカル特徴であり、出力がグローバル特徴である注意モジュールを使用します。

注意モジュールには完全に接続された層が含まれています。インデックスのアンカーの場合、アンカーに対応するローカル特徴が入力として使用され、出力は重みになります。

これは、i 番目のアンカーを除く他のアンカーに対応するローカルフィーチャを融合してグローバルフィーチャを形成するために使用されます。

上記の内容は、インデックス i のアンカーのみを対象としています。すべてのアンカーについては、行列乗算を使用して簡単に実装できます。アンカーの数がであると仮定し、次の行列乗算を使用して、すべてのアンカーに対応するグローバル特徴を計算します。

上記の式では、そして。

1.6 予測ヘッド

インデックス i のアンカーについては、そのローカル特徴とグローバル特徴が連結演算され、出力結果がとして記録されます。 2 つの並列完全接続層の入力として、完全接続層の 1 つは分類に使用され、出力情報は次のとおりです。もう 1 つの完全接続層は回帰に使用され、出力情報は次のとおりです。

各アンカーについて、ネットワークは最終的に次の 3 種類の情報を出力します。

（１）確率値。アンカーに対応する車線区分と背景の確率を予測するために使用される。車線カテゴリ注釈情報を含まないデータセットの場合は、とします。

（２）オフセット値。アンカー内の点と予測車線上の点との間の横方向のオフセットを示す。

（３）車線の長さは、車線を表すために実際に使用されるアンカーの点の数である。セクション 1.2 の情報によると、およびはそれぞれ開始インデックスと終了インデックスを表し、これはアンカーの原点の座標によって決定でき、長さを使用して値を決定できます。

1.7 NMS

2 つの車線間の距離を次のように定義します。

上記の式では、.

上記で定義した距離を使用して、ネットワーク予測結果に対して NMS 操作を実行し、誤検知の数を減らします。

モデルトレーニング

2.1 トレーニング

トレーニング中は、セクション 1.7 で定義された距離が、アンカーとグラウンドトゥルース間の距離を測定するために引き続き使用されます。 2 つの間の距離がしきい値より小さい場合、アンカーは正のサンプルと見なされ、2 つの間の距離がしきい値より大きい場合、アンカーは負のサンプルと見なされます。それ以外の場合、アンカーは無視されます。

次の損失関数を構築します。

上記の式では、とはそれぞれネットワークの分類ブランチと回帰ブランチの出力結果を表し、は真の値です。は焦点損失、は滑らかな L1 損失関数です。2 つの損失関数のバランスを取るために使用されます。回帰損失は、対応するアンカーとグラウンドトゥルース間の共通の水平座標に基づいて計算されます。

2.2 モデルの加速

トレーニングと推論中は、合計 2782 個のアンカーがあります。アンカーの数が多いと、計算効率が低下します。開始点が地平線の上にあるアンカーなど、トレーニングおよび推論中に無効なアンカーがかなりあります。各アンカーがトレーニングセット内の正のサンプルとして使用された回数は、アンカーが有用かどうかを評価するための指標として測定されます。その後のトレーニングと推論では、最も多く使用されるアンカーが選択されます。