YOLOがBEVセンシングに参入！ YOLO+BEVのリアルタイム検出の試み

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

著者の個人的な理解

最近の nuScenes リーダーボードリストから、純粋な視覚ベースの認識アルゴリズム (0.668) のパフォーマンスが、純粋な LIDAR アルゴリズムのパフォーマンスに徐々に近づいていることがわかります。

純粋なビジョンに基づく知覚リーダーボード純粋なライダーに基づく知覚リーダーボード

同時に、複数のセンサー融合の認識アルゴリズムは、さまざまなセンサーの利点を統合し（カメラセンサーによって収集された画像は豊富な意味情報を提供し、LIDARセンサーは物体の深度と幾何学的情報を提供する）、検出器はより堅牢な検出性能を実現します。

カメラ + LiDAR 融合認識モデル

マルチセンサー融合または純粋な視覚に基づく現在の認識アルゴリズムにより、自律走行車は強力な認識機能を備えることが可能になりましたが、設計された認識アルゴリズムモデルは、センサー機器のコストや潜在的な環境上の課題の影響を受けることが多く、大規模に展開することが困難です。

2D オブジェクト検出タスクにおける YOLO アルゴリズムモデルは、アルゴリズムのパフォーマンスと展開の間で優れたバランスを実現しています。この記事では、YOLO ネットワークフレームワークを設計プロトタイプとして使用し、BEV シナリオにおける認識アルゴリズムモデル (YOLO-BEV) を設計します。

論文のarxivリンク: https://arxiv.org/pdf/2310.17379.pdf

YOLO-BEVアルゴリズムモデルの全体構造

この記事では、入力データの準備、ネットワークモデルアーキテクチャ、グリッド補償メカニズム、損失関数の 4 つの側面からモデルを紹介します。

入力データの準備

YOLO-BEV は nuPlan データセットを使用します。このデータセットは、ボストン、ピッツバーグ、ラスベガス、シンガポールの 4 つの都市から合計 1,200 時間にわたって収集された高品質の道路データです。 nuPlan データセットは、さまざまな運転条件をカバーしており、複数の LIDAR、複数のカメラで収集された視点、慣性測定ユニット、高精度 GPS 座標など、豊富なセンサーデータも含まれています。

一般的な視覚認識アルゴリズムモデルとは異なり、この記事では nuPlan データセットから 8 台のカメラで収集された画像を使用し、各カメラの FOV 角度は 45° であるため、360° のサラウンドビューが形成されます。入力データに関しては、モデルに入力されるデータは3x3の画像マトリックスであり、中央の画像は空白です（下図参照）。

入力画像マトリックスの最後の行で、著者が 3 つの画像を 180 度回転させたことは注目に値します。これは、このアプローチにより鳥瞰図の空間位置をより適切に一致させることができると著者が論文で述べたためです。

これに加えて、信頼性が高く正確な GT グラウンドトゥルースデータを生成するために、革新的でありながらシンプルな抽出技術が採用されています。 nuPlan データセット内の一意に識別されたマーカーを活用することで、入力画像と他の車両の位置を表す慎重に計算された鳥瞰図の座標との間に 1 対 1 の対応を確立することに成功しました。さらに、歩行者、交通信号、その他の環境変数などの重要でない情報は、著者の分析から意図的に省略されました。この合理化されたアプローチにより、計算プロセスが高速化され、意味のある結果を得るために必要な時間が大幅に短縮されます。

ネットワークモデルアーキテクチャ

YOLO-BEV アルゴリズムモデルの全体的なネットワークアーキテクチャを下図に示します。これは、元の YOLO フレームワークのバックボーンネットワークとヘッド検出ヘッドを再利用したものです。

3x3 Matrix of Input Pictureネットワークに入力される 8 ビューのサラウンド画像のセットです。マルチスケールの特徴はバックボーンネットワークを通じて抽出され、論文で提案されているCustomDetect構造に送信されて最終的な予測結果が得られます。

上の図からわかるように、 CustomDetect構造は 3 つのチャネルブランチに分かれています。各チャネルブランチには畳み込み演算のセットが含まれています。畳み込み層の構造は、次のように数学的にモデル化されます。

ここで、およびは各畳み込み層の重みパラメータとバイアス項を表します。

各チャネルブランチ入力特徴マップについて、予測対象オブジェクトの座標と信頼度を含む特徴の数学的表現は次のとおりです。

特徴マップを取得した後、それを使用して最終的な信頼スコアと BEV 空間グリッド内の位置を予測できます。

グリッド補償メカニズム

この論文では、グリッド補正メカニズムを使用して、オブジェクトの予測された空間位置情報を調整します。グリッド補正メカニズムは、主に革新的なグリッド作成モジュールと精度主導の座標調整モジュールという 2 つのサブ部分で構成されます。

革新的なグリッド作成モジュール

個々の検出レイヤーごとに、特徴マップとまったく同じサイズのグリッドが構築されます。特徴マップ内の各セルの中心点の座標については、現在のグリッドの直交座標系における位置が次のとおりであると仮定します。

以上の操作により、グリッド内の特徴マップの各セル位置の中心点の相対座標を取得できます。

精密駆動座標調整モジュール

このモジュールは、構築されたグリッド上のモデルの検出結果を調整するために使用されます。これは初期化された中心点座標のオフセットに相当し、ネットワークの予測結果を使用して座標が微調整されます。微調整の数学的表現は次のとおりです。

最終的なきめ細かい座標位置の結果は、上記の精密駆動座標調整モジュールを通じて取得できます。

損失関数

この論文における総損失は 2 つの部分で構成されます。1 つは分類損失、もう 1 つは回帰損失です。2 つの損失の比率は合計によって調整されます。

分類損失には、一般的なターゲット検出における損失計算方法と同じクロスエントロピー損失関数が使用されます。トレーニングプロセスにおける正サンプルと負サンプルの両方が分類損失の計算に参加し、上記の式になります。

回帰損失については、陽性サンプルのみが回帰損失の計算に参加し、次のように計算されます。

MSE を回帰損失として使用する目的は、勾配フローを滑らかにし、バックプロパゲーションベースの学習環境での最適化プロセスを促進することです。

次に、YOLO-BEV における正のサンプル損失と負のサンプル損失がどのように定義されるかについて説明します。とりあえずイラストは紙に貼っておいてね！

2 方向の車両ターゲットの場合、予測された車両ターゲット (図の緑色のボックス) と実際の車両ターゲット (図の青色のボックス) は、回転 IoU のために計算が困難です。そこで、本論文では、2つのボックスのIoU値を便利かつ迅速に計算するために、2つの有向ボックスを軸に平行な長方形ボックス（AABB）に変換します。水平予測ボックスは図のオレンジ色のボックスに相当し、水平真値ボックスは図の水色のボックスに対応します。回転した 2 つのボックス間の IoU 値は、水平方向の 2 つのボックス間の IoU 値を計算することで近似されます。そうすることで IoU の計算が不正確になりますが、この近似はモデルのトレーニングと最適化のプロセスに影響を与えないことも論文で述べています。

一般的に、より正確に方向付けられたバウンディングボックスメソッドと比較すると、IoU 値がわずかに大きくなる可能性があります。これは、ボックスが軸に揃えられ、実際のオーバーラップの一部ではない余分な領域を囲む可能性があるためです。重要なのは、経験的テストにより、このわずかな過大評価は一般的に許容可能であり、トレーニング中の損失を効果的に削減するのに役立つことがわかっていることです。

通常、より正確な有向境界ボックス方式と比較して、IoU 値がわずかに大きくなります。これは、ボックスが軸に沿って配置されており、重なりの一部ではない余分な領域が含まれる可能性があるためです。重要なのは、経験的テストにより、このわずかな過大評価は、トレーニング中の損失を減らすのに依然として効果的であるため、多くの場合許容可能であることが示されていることです。

最後に、モデルのトレーニングプロセス中に、計算された IoU しきい値が設定されたしきい値より大きい陽性サンプルは陽性サンプルとなり、計算された IoU しきい値が設定されたしきい値より小さいサンプルは陰性サンプルとなります。

実験結果

著者の実際のトレーニングモデルプロセスでは、実際のトレーニング戦略には2つの段階が含まれます。

最初の段階では、著者は、複雑な特徴が確実に捕捉されるように、過剰トレーニング中にモデルをフィッティング状態に近づけるために、約 1,000 インスタンスの軽量データセットのみをトレーニングに使用しました。この段階では、過剰適合に近い最適化されたモデル状態に到達するまでに数時間かかりました。
フェーズ 2: このフェーズでは、著者らは完全な Nuplan データセットでフェーズ 1 のモデルをトレーニングし、大規模なデータセットで学習率やバッチサイズなどのハイパーパラメータを調整して、最高の知覚パフォーマンスを実現しました。

論文で発表された BEV での検出結果から、YOLO-BEV の測位効果が依然として非常に良好であることがわかり、複雑なシナリオでも正確に位置を特定できるモデルの能力が確認されています。

現在の問題と今後の仕事の優先事項

NMSの後処理操作はまだ改善の余地がある

著者らは、NMS はターゲット検出タスクにおける後処理操作として重複フレームを抑制するのに非常に効果的であるが、鳥瞰図の知覚では依然として知覚特有の問題を考慮する必要があると述べています。たとえば、2 台の車が互いに近い場合、NMS アルゴリズムは認識結果の 1 つを抑制する可能性があります。あるいは、ラジアル誤報などの問題により、最終的な検出結果は依然として真のターゲットの位置からオフセットされたままになります。

連続フレームをモデル化するモデルの能力を向上させる

現在提案されている YOLO-BEV は単一のフレームに基づいており、連続フレームをモデル化する機能がないため、生成された BEV 結果にはスムーズでない「ジャンプ」の問題が発生します。したがって、この問題を改善するために、著者のその後の研究では、Transformer アーキテクチャを詳しく調べて、異なるフレーム間の時間的関係をモデル化する可能性があります。同時に、著者は、Transformer ベースのアーキテクチャには多数のパラメーターがあり、モデルの FPS が低下し、システム遅延が発生する可能性があることにも言及しました。したがって、モデルの時間的理解を強化することと、リアルタイム処理機能を維持することの間で慎重なバランスをとる必要があります。

モデルのさまざまなカテゴリのオブジェクトの認識を向上させる

現在、この作業では、信号機、歩行者、その他の車両などのエンティティを認識することはできません。しかし理想的には、より包括的な BEV 結果がこれらのさまざまな要素を包含し、より豊富な認識結果を提供して、自律ナビゲーションシステムにより適切な情報を提供することになります。したがって、著者は将来、このレベルの粒度をカプセル化するために、さまざまなカテゴリの損失関数またはセマンティックセグメンテーション関数を追加する可能性があります。

要約する

純粋に視覚的なシングルモーダルまたはマルチモーダル融合認識アルゴリズムは優れた結果を達成していますが、認識アルゴリズムモデルを簡単に展開できるかどうかが、車両へのアルゴリズムの適用の鍵となります。この記事では、YOLO-BEV アルゴリズムモデルの詳細な紹介と解釈を提供し、皆様のお役に立てれば幸いです。

<<: 自動運転におけるディープラーニングベースの予測と計画の融合手法のレビュー

>>: 効果はSDXLを超える！香港中文大学の博士課程学生が3億4000万枚の画像でトレーニングした超リアルな肖像画合成ツールを発表

ディープラーニングプロジェクトの例: オートエンコーダを使用したぼやけた画像の復元

ブログ

YOLOがBEVセンシングに参入！ YOLO+BEVのリアルタイム検出の試み

著者の個人的な理解

YOLO-BEVアルゴリズムモデルの全体構造

入力データの準備

ネットワークモデルアーキテクチャ

グリッド補償メカニズム

損失関数

実験結果

現在の問題と今後の仕事の優先事項

要約する

ディープラーニングプロジェクトの例: オートエンコーダを使用したぼやけた画像の復元

2021 年の機械学習の今後はどうなるのでしょうか?

MNISTとCIFAR 10を100%の精度で「解いた」と主張する人もいる

C# 暗号化アルゴリズムの簡単な紹介

ベイジアン機械学習: 古典的なモデルとコード実装!

Swift モバイルゲーム開発に適用される幅優先探索アルゴリズム

ディープラーニングと機械学習の違いを理解する

推薦する

米国版Tiebaの8000グループが閉鎖を発表！ Google OpenAIがデータを無料で利用することを拒否したCEOはネットユーザーから叱責された：サードパーティのアプリケーションを裏切る

機械学習モデルのパフォーマンスを評価する方法

SAPはイノベーションで顧客の成功を支援し、AI時代のデータ主導のビジネス変革の未来を形作ります

DetZero: Waymo の 3D 検出リストで 1 位、手動ラベル付けに匹敵!

AIが光子の時間を3D画像に変換し、時間の経過による世界を視覚化する

イスラエルの企業が従業員の病気偽装を見分けるAIツールを開発

テスラとモメンタの「自動運転アルゴリズム」の秘密を研究した

人力資源社会保障省：人工知能人材の不足は500万人を超える

人工知能は核爆弾と同じくらい人類にとって脅威なのでしょうか? AI脅威理論の謎を解く

Huaweiは封鎖を突破し、GoogleのDropout特許をベンチマークし、独自のアルゴリズムDisoutをオープンソース化

ガートナー：テクノロジープロバイダーの33％が2年以内にAIに100万ドル以上を投資する