最高速度:250fps!リアルタイムの高性能車線検出アルゴリズムLaneATT

最高速度:250fps!リアルタイムの高性能車線検出アルゴリズムLaneATT

CVPR 2021 車線検出論文: 車線から目を離さない: リアルタイムの注意誘導型車線検出。

紙:

出典: http://arxiv.org/pdf/2010.12035.pdf

コード:

https://github.com/lucastabelini/LaneATT

0

モチベーション

車線検出は、自動運転の分野において最も重要なサブタスクの 1 つです。著者らは、LaneATT というリアルタイムの高性能車線検出アルゴリズムを提案しました。

この方法はアンカー実装に基づいており、アテンションメカニズムを適用します。軽量バージョンの推論速度は 250FPS に達します。

01

ネットワーク構造

1.1 全体的なプロセス

アルゴリズムの全体的なプロセスを下の図に示します。

車両の前方カメラで収集された RGB 画像を入力として使用し、車線の位置を出力します。

上図からわかるように、アルゴリズムはバックボーンの出力結果に対してプーリング操作を実行して各アンカーの特徴を抽出します。抽出された特徴は、アテンション モジュールによって生成されたグローバル特徴と融合され、遮蔽や照明などにより車線が検出できない問題を解決します。融合された特徴は完全接続層の入力として使用され、完全接続層は車線線の信頼度と関連パラメータを出力します。

1.2 車線とアンカーの表現

車線標示

画像を垂直方向に等分割し、得られた等分割点を ( )として記録します。

各車線ラインについて、 を固定し、各車線ラインの差を決定します。各 は、対応する を持つ車線ライン上の点を形成します。

車線は画像全体を通らないため、 と はそれぞれ開始インデックスと終了インデックスを表します。これらは、車線線の連続した有効なポイントを表すために使用されます。

アンカー表現

アンカーは原点と方向によって表されます。

原点は常に画像の左、右、下の境界に位置します。

1.3 バックボーン

LaneATT のバックボーンとしては ResNet などの一般的なネットワークが使用され、バックボーンの出力特徴は次のように記録されます。

後続のモジュールでの計算量を削減するために、 に対して畳み込みが実行され、出力結果が として記録されます。

1.4 特徴プーリング

各アンカーについて、そこから抽出される特徴点の座標インデックスを使用して、そこから特徴が抽出されます。まず、これらの座標点の方向座標を定義し、次の式を使用して対応する座標を見つけます。

上記の式の合計はアンカーの原点と方向を表し、元の画像に対応する特徴のステップ サイズを表します。

各アンカーについて、上記の合計を使用して特徴を抽出します。上記で計算されたポイントの座標値が範囲を超える場合、対応する位置の値は 0 になります。

1.5 注意メカニズム

上記の特徴プーリング操作により、ローカルな特徴が取得されます。遮蔽や照明などの複雑なシーンに対応するには、ローカルな特徴とグローバルな特徴を融合する必要があります。

著者らは、入力がローカル特徴であり、出力がグローバル特徴である注意モジュールを使用します。

注意モジュールには完全に接続された層が含まれています。インデックス のアンカーの場合、アンカーに対応するローカル特徴が入力として使用され、出力は重みになります。

これは、i 番目のアンカーを除く他のアンカーに対応するローカル フィーチャを融合してグローバル フィーチャを形成するために使用されます。

上記の内容は、インデックス i のアンカーのみを対象としています。すべてのアンカーについては、行列乗算を使用して簡単に実装できます。アンカーの数が であると仮定し、次の行列乗算を使用して、すべてのアンカーに対応するグローバル特徴を計算します。

上記の式では、そして。

1.6 予測ヘッド

インデックス i のアンカーについては、そのローカル特徴とグローバル特徴が連結演算され、出力結果が として記録されます。 2 つの並列完全接続層の入力として、完全接続層の 1 つは分類に使用され、出力情報は次のとおりです。もう 1 つの完全接続層は回帰に使用され、出力情報は次のとおりです。

各アンカーについて、ネットワークは最終的に次の 3 種類の情報を出力します。

(1)確率値。アンカーに対応する車線区分と背景の確率を予測するために使用される。車線カテゴリ注釈情報を含まないデータセットの場合は、 とします。

(2)オフセット値。アンカー内の点と予測車線上の点との間の横方向のオフセットを示す。

(3)車線の長さは、車線を表すために実際に使用されるアンカーの点の数である。セクション 1.2 の情報によると、およびはそれぞれ開始インデックスと終了インデックスを表し、これはアンカーの原点の座標によって決定でき、長さを使用して値を決定できます。

1.7 NMS

2 つの車線間の距離を次のように定義します。

上記の式では、.

上記で定義した距離を使用して、ネットワーク予測結果に対して NMS 操作を実行し、誤検知の数を減らします。

02

モデルトレーニング

2.1 トレーニング

トレーニング中は、セクション 1.7 で定義された距離が、アンカーとグラウンド トゥルース間の距離を測定するために引き続き使用されます。 2 つの間の距離がしきい値より小さい場合、アンカーは正のサンプルと見なされ、2 つの間の距離がしきい値より大きい場合、アンカーは負のサンプルと見なされます。それ以外の場合、アンカーは無視されます。

次の損失関数を構築します。

上記の式では、 と はそれぞれネットワークの分類ブランチと回帰ブランチの出力結果を表し、 は真の値です。は焦点損失、は滑らかな L1 損失関数です。2 つの損失関数のバランスを取るために使用されます。回帰損失は、対応するアンカーとグラウンドトゥルース間の共通の水平座標に基づいて計算されます。

2.2 モデルの加速

トレーニングと推論中は、合計 2782 個のアンカーがあります。アンカーの数が多いと、計算効率が低下します。開始点が地平線の上にあるアンカーなど、トレーニングおよび推論中に無効なアンカーがかなりあります。各アンカーがトレーニング セット内の正のサンプルとして使用された回数は、アンカーが有用かどうかを評価するための指標として測定されます。その後のトレーニングと推論では、最も多く使用されるアンカーが選択されます。

03

実験結果

トレーニング中、ネットワーク入力画像の解像度は であり、変換、回転、スケーリング、水平反転がデータ強化に使用されます。設定、、、。

TuSimple データセットの結果は次の表に示されています。

CULane データセットの結果は次の表に示されています。

2 つのデータセットにおけるモデルの実行時間とパフォーマンスの比較を次の図に示します。

視覚化の結果は以下の図に示されています。

上図の 1 行目は TuSimple データセットの視覚化結果、2 行目は CULane データセットの視覚化結果です。図の青い線は真実であり、緑の線と赤の線はネットワーク出力結果であり、緑の線は真陽性、赤の線は偽陽性です。

04

要約する

  • リアルタイム、シングルステージ、アンカーベースの高性能車線検出アルゴリズム LaneATT が提案されています。

  • LaneATT のアテンション メカニズムを適用してアルゴリズムのパフォーマンスを向上します。

  • LaneATT は、精度と推論速度の間で適切なバランスを実現できます。

<<:  AIが復活! GPT-3を使用して亡くなった婚約者を複製し、アメリカ人男性は愛する人をデジタル形式で永遠に生きさせました

>>:  フェイフェイ・リーのチームは、ゼロサンプル一般化を備えた自己エキスパートクローン技術を提案し、その性能はSOTAを上回った。

ブログ    
ブログ    

推薦する

人工知能は「人工知能」にどれだけ「知性」を押し付けているのか

真に AI を活用したサービスを構築するのは簡単ではありません。そこで、一部のスタートアップ企業は、...

Reddit で話題: 言葉では言い表せない写真に透かしを追加することに特化したアプリが AI によって解読されました!

ベルギーの通信会社は、10代の若者向けに「.comdom」というセキュリティアプリをリリースした。こ...

...

LeCunの新作、カード1枚でトレーニングできる!分散正規化、スパースエンコーダがクラッシュしなくなりました

最近、LeCun は、依然として崩壊問題と自己監督に関する新しい研究を発表しました。今回、彼は新しい...

「システムアーキテクチャ」マイクロサービスサービス劣化

[[238592]] 1. はじめにサービス低下とは何ですか?サーバーの負荷が急激に高まると、実際の...

Python で分類と回帰を組み合わせたニューラル ネットワーク モデル

[[406559]] Python 中国語コミュニティ (ID: python-china)一部の予...

...

ビジネスに適したRPAソフトウェアの選び方

[[407278]] RPA(ロボティック・プロセス・オートメーション)は、ビジネスユーザーを退屈で...

人工知能では顔と性格の違いは分からない

中国の研究チームは、女性の外見だけに基づいてその性格特性を予測できる人工知能プログラムを立ち上げたと...

エッジAIの台頭

「今日のテクノロジーの世界では、クラウドにおける AI とエッジにおける AI の統合が重要です」と...

2019年の技術予測: クラウド、ビッグデータ、AI、IoT、ブロックチェーン

[[258103]]テンセントテクノロジーニュース:フォーブスの寄稿者であるスティーブ・ウィルクス氏...

Nervana Technology の深掘り: Neon を使用したエンドツーエンドの音声認識の実装方法

音声は本質的に即時の信号です。音声で伝えられる情報要素は、複数の時間スケールで進化します。空気圧の影...

...

BEV の可能性の限界を探ろう! DA-BEV: 新しい教師なし BEV SOTA ソリューション!

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...