YOLOがBEVセンシングに参入! YOLO+BEVのリアルタイム検出の試み

YOLOがBEVセンシングに参入! YOLO+BEVのリアルタイム検出の試み

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

著者の個人的な理解

最近の nuScenes リーダーボード リストから、純粋な視覚ベースの認識アルゴリズム (0.668) のパフォーマンスが、純粋な LIDAR アルゴリズムのパフォーマンスに徐々に近づいていることがわかります。

純粋なビジョンに基づく知覚リーダーボード純粋なライダーに基づく知覚リーダーボード

同時に、複数のセンサー融合の認識アルゴリズムは、さまざまなセンサーの利点を統合し(カメラセンサーによって収集された画像は豊富な意味情報を提供し、LIDARセンサーは物体の深度と幾何学的情報を提供する)、検出器はより堅牢な検出性能を実現します。

カメラ + LiDAR 融合認識モデル

マルチセンサー融合または純粋な視覚に基づく現在の認識アルゴリズムにより、自律走行車は強力な認識機能を備えることが可能になりましたが、設計された認識アルゴリズム モデルは、センサー機器のコストや潜在的な環境上の課題の影響を受けることが多く、大規模に展開することが困難です。

2D オブジェクト検出タスクにおける YOLO アルゴリズム モデルは、アルゴリズムのパフォーマンスと展開の間で優れたバランスを実現しています。この記事では、YOLO ネットワーク フレームワークを設計プロトタイプとして使用し、BEV シナリオにおける認識アルゴリズム モデル (YOLO-BEV) を設計します。

論文のarxivリンク: https://arxiv.org/pdf/2310.17379.pdf

YOLO-BEVアルゴリズムモデルの全体構造

この記事では、入力データの準備、ネットワーク モデル アーキテクチャ、グリッド補償メカニズム、損失関数の 4 つの側面からモデルを紹介します。

入力データの準備

YOLO-BEV は nuPlan データセットを使用します。このデータセットは、ボストン、ピッツバーグ、ラスベガス、シンガポールの 4 つの都市から合計 1,200 時間にわたって収集された高品質の道路データです。 nuPlan データセットは、さまざまな運転条件をカバーしており、複数の LIDAR、複数のカメラで収集された視点、慣性測定ユニット、高精度 GPS 座標など、豊富なセンサー データも含まれています。

一般的な視覚認識アルゴリズム モデルとは異なり、この記事では nuPlan データセットから 8 台のカメラで収集された画像を使用し、各カメラの FOV 角度は 45° であるため、360° のサラウンド ビューが形成されます。入力データに関しては、モデルに入力されるデータは3x3の画像マトリックスであり、中央の画像は空白です(下図参照)。

入力画像マトリックスの最後の行で、著者が 3 つの画像を 180 度回転させたことは注目に値します。これは、このアプローチにより鳥瞰図の空間位置をより適切に一致させることができると著者が論文で述べたためです。

これに加えて、信頼性が高く正確な GT グラウンドトゥルースデータを生成するために、革新的でありながらシンプルな抽出技術が採用されています。 nuPlan データセット内の一意に識別されたマーカーを活用することで、入力画像と他の車両の位置を表す慎重に計算された鳥瞰図の座標との間に 1 対 1 の対応を確立することに成功しました。さらに、歩行者、交通信号、その他の環境変数などの重要でない情報は、著者の分析から意図的に省略されました。この合理化されたアプローチにより、計算プロセスが高速化され、意味のある結果を得るために必要な時間が大幅に短縮されます。

ネットワークモデルアーキテクチャ

YOLO-BEV アルゴリズム モデルの全体的なネットワーク アーキテクチャを下図に示します。これは、元の YOLO フレームワークのバックボーン ネットワークとヘッド検出ヘッドを再利用したものです。

3x3 Matrix of Input Pictureネットワークに入力される 8 ビューのサラウンド画像のセットです。マルチスケールの特徴はバックボーン ネットワークを通じて抽出され、論文で提案されているCustomDetect構造に送信されて最終的な予測結果が得られます。

上の図からわかるように、 CustomDetect構造は 3 つのチャネル ブランチに分かれています。各チャネル ブランチには畳み込み演算のセットが含まれています。畳み込み層の構造は、次のように数学的にモデル化されます。

ここで、およびは各畳み込み層の重みパラメータとバイアス項を表します。

各チャネル ブランチ入力特徴マップについて、予測対象オブジェクトの座標と信頼度を含む特徴の数学的表現は次のとおりです。

特徴マップを取得した後、それを使用して最終的な信頼スコアと BEV 空間グリッド内の位置を予測できます。

グリッド補償メカニズム

この論文では、グリッド補正メカニズムを使用して、オブジェクトの予測された空間位置情報を調整します。グリッド補正メカニズムは、主に革新的なグリッド作成モジュール精度主導の座標調整モジュールという 2 つのサブ部分で構成されます。

  • 革新的なグリッド作成モジュール

個々の検出レイヤーごとに、特徴マップとまったく同じサイズのグリッドが構築されます。特徴マップ内の各セルの中心点の座標については、現在のグリッドの直交座標系における位置が次のとおりであると仮定します。

以上の操作により、グリッド内の特徴マップの各セル位置の中心点の相対座標を取得できます。

  • 精密駆動座標調整モジュール

このモジュールは、構築されたグリッド上のモデルの検出結果を調整するために使用されます。これは初期化された中心点座標のオフセットに相当し、ネットワークの予測結果を使用して座標が微調整されます。微調整の数学的表現は次のとおりです。

最終的なきめ細かい座標位置の結果は、上記の精密駆動座標調整モジュールを通じて取得できます。

損失関数

この論文における総損失は 2 つの部分で構成されます。1 つは分類損失、もう 1 つは回帰損失です。2 つの損失の比率は合計によって調整されます。

分類損失には、一般的なターゲット検出における損失計算方法と同じクロスエントロピー損失関数が使用されます。トレーニングプロセスにおける正サンプルと負サンプルの両方が分類損失の計算に参加し、上記の式になります。

回帰損失については、陽性サンプルのみが回帰損失の計算に参加し、次のように計算されます。

MSE を回帰損失として使用する目的は、勾配フローを滑らかにし、バックプロパゲーション ベースの学習環境での最適化プロセスを促進することです。

次に、YOLO-BEV における正のサンプル損失と負のサンプル損失がどのように定義されるかについて説明します。とりあえずイラストは紙に貼っておいてね!

2 方向の車両ターゲットの場合、予測された車両ターゲット (図の緑色のボックス) と実際の車両ターゲット (図の青色のボックス) は、回転 IoU のために計算が困難です。そこで、本論文では、2つのボックスのIoU値を便利かつ迅速に計算するために、2つの有向ボックスを軸に平行な長方形ボックス(AABB)に変換します。水平予測ボックスは図のオレンジ色のボックスに相当し、水平真値ボックスは図の水色のボックスに対応します。回転した 2 つのボックス間の IoU 値は、水平方向の 2 つのボックス間の IoU 値を計算することで近似されます。そうすることで IoU の計算が不正確になりますが、この近似はモデルのトレーニングと最適化のプロセスに影響を与えないことも論文で述べています。

一般的に、より正確に方向付けられたバウンディング ボックス メソッドと比較すると、IoU 値がわずかに大きくなる可能性があります。これは、ボックスが軸に揃えられ、実際のオーバーラップの一部ではない余分な領域を囲む可能性があるためです。重要なのは、経験的テストにより、このわずかな過大評価は一般的に許容可能であり、トレーニング中の損失を効果的に削減するのに役立つことがわかっていることです。

通常、より正確な有向境界ボックス方式と比較して、IoU 値がわずかに大きくなります。これは、ボックスが軸に沿って配置されており、重なりの一部ではない余分な領域が含まれる可能性があるためです。重要なのは、経験的テストにより、このわずかな過大評価は、トレーニング中の損失を減らすのに依然として効果的であるため、多くの場合許容可能であることが示されていることです。

最後に、モデルのトレーニング プロセス中に、計算された IoU しきい値が設定されたしきい値より大きい陽性サンプルは陽性サンプルとなり、計算された IoU しきい値が設定されたしきい値より小さいサンプルは陰性サンプルとなります。

実験結果

著者の実際のトレーニングモデルプロセスでは、実際のトレーニング戦略には2つの段階が含まれます。

  • 最初の段階では、著者は、複雑な特徴が確実に捕捉されるように、過剰トレーニング中にモデルをフィッティング状態に近づけるために、約 1,000 インスタンスの軽量データセットのみをトレーニングに使用しました。この段階では、過剰適合に近い最適化されたモデル状態に到達するまでに数時間かかりました。
  • フェーズ 2: このフェーズでは、著者らは完全な Nuplan データセットでフェーズ 1 のモデルをトレーニングし、大規模なデータセットで学習率やバッチ サイズなどのハイパーパラメータを調整して、最高の知覚パフォーマンスを実現しました。

論文で発表された BEV での検出結果から、YOLO-BEV の測位効果が依然として非常に良好であることがわかり、複雑なシナリオでも正確に位置を特定できるモデルの能力が確認されています。

現在の問題と今後の仕事の優先事項

  • NMSの後処理操作はまだ改善の余地がある

著者らは、NMS はターゲット検出タスクにおける後処理操作として重複フレームを抑制するのに非常に効果的であるが、鳥瞰図の知覚では依然として知覚特有の問題を考慮する必要があると述べています。たとえば、2 台の車が互いに近い場合、NMS アルゴリズムは認識結果の 1 つを抑制する可能性があります。あるいは、ラジアル誤報などの問題により、最終的な検出結果は依然として真のターゲットの位置からオフセットされたままになります。

  • 連続フレームをモデル化するモデルの能力を向上させる

現在提案されている YOLO-BEV は単一のフレームに基づいており、連続フレームをモデル化する機能がないため、生成された BEV 結果にはスムーズでない「ジャンプ」の問題が発生します。したがって、この問題を改善するために、著者のその後の研究では、Transformer アーキテクチャを詳しく調べて、異なるフレーム間の時間的関係をモデル化する可​​能性があります。同時に、著者は、Transformer ベースのアーキテクチャには多数のパラメーターがあり、モデルの FPS が低下し、システム遅延が発生する可能性があることにも言及しました。したがって、モデルの時間的理解を強化することと、リアルタイム処理機能を維持することの間で慎重なバランスをとる必要があります。

  • モデルのさまざまなカテゴリのオブジェクトの認識を向上させる

現在、この作業では、信号機、歩行者、その他の車両などのエンティティを認識することはできません。しかし理想的には、より包括的な BEV 結果がこれらのさまざまな要素を包含し、より豊富な認識結果を提供して、自律ナビゲーション システムにより適切な情報を提供することになります。したがって、著者は将来、このレベルの粒度をカプセル化するために、さまざまなカテゴリの損失関数またはセマンティックセグメンテーション関数を追加する可能性があります。

要約する

純粋に視覚的なシングルモーダルまたはマルチモーダル融合認識アルゴリズムは優れた結果を達成していますが、認識アルゴリズム モデルを簡単に展開できるかどうかが、車両へのアルゴリズムの適用の鍵となります。この記事では、YOLO-BEV アルゴリズム モデルの詳細な紹介と解釈を提供し、皆様のお役に立てれば幸いです。

<<:  自動運転におけるディープラーニングベースの予測と計画の融合手法のレビュー

>>:  効果はSDXLを超える!香港中文大学の博士課程学生が3億4000万枚の画像でトレーニングした超リアルな肖像画合成ツールを発表

ブログ    
ブログ    
ブログ    

推薦する

ゼロサンプルのパフォーマンスが小サンプルのパフォーマンスを上回り、Google の新しい 1370 億パラメータ モデルは GPT-3 よりも強力

[[422681]] NLP の分野では、事前トレーニングの微調整とプロンプトチューニングの手法に...

AIは万能か? AI がまだ直面している課題は何ですか?

[はじめに] 人工知能(特にコンピュータビジョンの分野)に関しては、誰もがこの分野における継続的な...

Baidu WorldがAI応用レポートカードを発表、国民経済の3大産業に進出

11月1日、2018年百度世界大会が北京で開催されました。「YES AI DO」をテーマにしたこの大...

人間を殺し、ロボット犬を救う「ボストンパワー」ロボットはターミネーターに変身する

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

AIがPythonの記述を手助けし、インストールはたった5ステップで完了し、自由に調整できます。

[[269874]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitA...

...

機械学習 | PyTorch 簡潔チュートリアル パート 1

前回の記事では、特徴の正規化とテンソルを紹介しました。次は、主にシンプルな PyTorch の実践を...

最高の AI スタートアップはどれですか? 6つの選択肢があなたに方向性を与える

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

MetaがCMUと提携して最も強力な「汎用ロボットエージェント」を開発するのに2年かかりました。

爆発的な人気を博している大規模モデルは、「汎用ロボットエージェント」に関する研究を再構築しています。...

金融業界における人工知能の革新的な応用トップ 10

[[438117]]人工知能は、よりスマートで、より便利で、より安全な方法でお金を投資、アクセス、...

...

データサイエンスに必須の Python パッケージ 10 個

[51CTO.com クイック翻訳] データサイエンスに対する人々の関心は過去 5 年間で大幅に高ま...

人工知能は「新たな生産要素」である

[[186158]]何人かの経済学者に話を聞いてみれば、彼らはほぼ間違いなく、生産性の伸びの弱さが現...