コンパクトなBEVインスタンス予測フレームワーク: PowerBEV

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

01 要約

状況を正確に認識し、その将来の動きを予測することは、自動運転車が複雑な都市交通を安全に移動できるようにするために重要なタスクです。鳥瞰図 (BEV) 表現は自動運転の認識では一般的ですが、動き予測設定におけるその可能性についてはあまり研究されていません。既存のサラウンドカメラ BEV インスタンス予測方法は、マルチタスクの自動回帰設定と複雑な後処理に依存して、時空間的に一貫した方法で将来のインスタンスを予測します。本稿では、このパラダイムから出発し、「POWER BEV」と呼ばれる新しい効率的なエンドツーエンドのフレームワークを提案します。まず、POWER BEV は自己回帰方式で未来を予測するのではなく、軽量の 2D 畳み込みネットワークから構築された並列マルチスケールモジュールを使用します。次に、セグメンテーションと求心リフローが予測には十分であり、冗長な出力モードを排除することで以前のマルチタスクの目的を簡素化できることを示します。この出力表現に基づいて、より安定した時間横断的なインスタンスの関連付けを生成する、単純なフローベースの後処理方法を提案します。この軽量でありながら強力な設計により、POWER BEV は NuScenes データセットの最先端のベースラインを上回り、BEV インスタンス予測の代替パラダイムを提供します。

▲図1｜PowerBEVと他モデルの比較

02 はじめに

周囲の車両に関する情報を正確に取得することは、自動運転システムが直面する重要な課題です。運転環境の非常に複雑かつ動的な性質を考慮すると、現在の道路利用者の正確な検出と位置特定に加えて、彼らの将来の動きを予測することも非常に重要です。広く受け入れられているパターンは、これらのタスクを異なるモジュールに分割することです。このモードでは、まず複雑な認識モデルを通じて対象オブジェクトが検出され、位置が特定され、複数のフレーム間で相関関係が調べられます。検出されたオブジェクトの過去の動きは、パラメトリック軌道モデルを介してそれらの潜在的な将来の動きを予測するために使用されます。しかし、知覚モデルと運動モデルは別々に予測されるため、最初の段階ではシステム全体にエラーが発生しやすくなります。

近年、多くの研究により、正確な視覚中心の運転環境認識における鳥瞰図 (BEV) 表現の可能性が実証されています。エラー蓄積の問題に対処するために、研究者はエンドツーエンドのフレームワークを使用して BEV 内のオブジェクトの位置を直接特定し、占有グリッドマップの形式で全体的なシーンの変化を予測しようとしました。

図 1 および 4 に示すように、エンドツーエンドのパラダイムを採用しているにもかかわらず、既存の方法では、セグメンテーションマップ、インスタンスセンター、フォワードフロー、インスタンスセンターを指すオフセットなど、部分的に冗長な複数の表現が予測されます。これらの冗長な表現には、さまざまな損失項だけでなく、インスタンス予測を取得するための複雑な後処理も必要です。

本研究では、これまでの研究で使用されたマルチタスク設定を簡素化し、セグメンテーションマップとフローの 2 つの出力形式のみを必要とする方法を提案します。具体的には、セグメンテーションからインスタンスセンターを直接計算し、個別のセンターマップを必要としません。これにより、推定された中心と予測されたセグメンテーションの間に矛盾が生じる可能性も排除されます。さらに、これまでの研究者が使用した前方流とは異なり、我々は求心性の後方流を計算します。これは、現在占有されている各ピクセルから前のフレームの対応するインスタンスの中心を指すベクトルフィールドです。ピクセルレベルの関連付けとインスタンスレベルの関連付けを単一のピクセルインスタンス割り当てタスクに組み合わせます。したがって、オフセットヘッドは不要になります。さらに、この設計の選択により、複数の手順が不要になるため、関連付けプロセスが簡素化されます。また、提案された POWER BEV フレームワークでは、自己回帰モデルと比較して満足のいくインスタンス予測を得るのに 2D 畳み込みネットワークで十分であり、軽量でありながら強力なフレームワークが得られることがわかりました。

私たちは NuScenes データセットで私たちの方法を評価し、私たちのアプローチが既存のフレームワークよりも優れており、最先端のインスタンス予測パフォーマンスを達成することを示しています。当社では、強力でありながら軽量なフレームワーク設計を検証するために、アブレーション研究をさらに進めています。

私たちの主な貢献は次のようにまとめられます。

●私たちは、BEV で複数のオブジェクトを認識して予測するための 2D 畳み込み層のみで構成された、新しくエレガントなエンドツーエンドのビジョンベースのフレームワークである POWER-BEV を提案します。

●冗長な表現によって引き起こされる過剰な監督が予測能力を損なう可能性があることを示します。対照的に、私たちのアプローチは、単純な予測セグメンテーションと求心的な逆方向フローを介して、セマンティックおよびインスタンスレベルのプロキシ予測を実現します。

●求心性逆フローに基づく割り当て方式は、従来の順フローや従来のハンガリーマッチングアルゴリズムよりも優れています。

03 関連作品

■3.1 カメラベースの3D認識のためのBEV

LiDAR ベースの認識方法では通常、3D ポイントクラウドを BEV 平面にマッピングし、BEV セグメンテーションまたは 3D バウンディングボックス回帰を実行しますが、単眼カメラ画像を BEV 表現に変換することは依然として難しい問題です。 LIDAR とカメラのデータを組み合わせて BEV を生成するアプローチもいくつかありますが、これらのアプローチは、正確なマルチセンサーのキャリブレーションと同期に依存しています。

LSS（Lift Splat Shoot）は、2次元の特徴を3次元に持ち上げ、持ち上げた特徴をBEV平面に投影する最初の作品と言えます。深度を離散化し、深度分布を予測します。次に、画像の特徴がこの分布に従って拡大縮小され、深度次元に分散されます。 BEVDet は、BEV 特徴マップからの 3D オブジェクト検出に LSS を適応させます。 Tesla AI Day 2021 では、Transformer アーキテクチャを使用してマルチビューカメラ機能を BEV 機能マップに融合することを初めて提案しました。このマップでは、高密度 BEV クエリとパースペクティブ画像機能間のクロスアテンションがビュー変換として機能します。このアプローチは、BEVFormer と BEVSegFormer のカメラキャリブレーションと変形可能な注意を活用してトランスフォーマーの二次複雑度を削減することでさらに改善されます。さらに、これまでの研究では、BEV 特徴の時間的モデリングによって 3D 検出パフォーマンスが大幅に向上することが示されていますが、計算量とメモリの消費量が増大します。検出やセグメンテーションとは異なり、予測タスクでは当然、履歴情報の時間的モデリングが必要になります。この目的のために、私たちの方法は、LSS に基づく軽量の完全畳み込みネットワークを使用して、効果的かつ効率的な時空間情報を抽出します。

■3.2 BEVの将来予測

初期の BEV ベースの予測方法では、過去の軌跡を BEV 画像としてレンダリングし、オブジェクトの完全な検出と追跡を前提として、CNN を使用してラスター化された入力をエンコードします。もう一つの作業は、LiDAR ポイントクラウドから直接エンドツーエンドの軌道を予測することです。インスタンスレベルの軌道予測とは異なり、MotionNet と MP3 は、各占有グリッドのモーション (フロー) フィールドを介して予測タスクを処理します。 LiDAR データに依存する上記の方法と比較して、FIERY はまず、マルチビューカメラデータのみに基づいて BEV インスタンスのセグメンテーションを予測します。 FIERY は、LSS に従ってマルチフレーム BEV 機能を抽出し、再帰ネットワークを使用してそれらを時空間状態に融合してから、確率的インスタンス予測を実行します。 StretchBEV は、ランダム残差更新を伴う確率的時間モデルを使用して FIERY を改善します。 BVerse は、マルチタスク BEV 認識フレームワークでの予測のために、潜在空間での反復フローワーピングを提案します。これらの手法はPanoptic-DeepLab [21]に準拠しており、4つの異なるヘッドを使用してセマンティックセグメンテーションマップ、インスタンスセンター、ピクセルごとの求心オフセット、および将来のフローを計算します。これら 4 つの表現から最終的なインスタンス予測を生成するには、複雑な後処理が必要です。本稿では、意味的セグメンテーションと求心的逆方向フローの 2 つのヘッドと、簡略化された後処理を組み合わせるだけで、将来のインスタンス予測に十分であることを示します。

▲図2｜PowerBEVアルゴリズムアーキテクチャ

04 方法

このセクションでは、提案するエンドツーエンドのフレームワークの概要を説明します。アプローチの概要を図 2 に示します。これは、認識モジュール、予測モジュール、後処理段階の 3 つの主要部分で構成されています。知覚モジュールはLSSに従い、タイムスタンプTのM個のマルチビューカメラ画像を入力として受け取り、それらをT個のBEV特徴マップに変換します（セクション3.1を参照）。次に、予測モジュールは、抽出された BEV 特徴に含まれる時空間情報を融合し (セクション 3.2 を参照)、セグメンテーションマップシーケンスと将来のフレームの求心方向の逆方向フローを並行して予測します (セクション 3.3 を参照)。最後に、変形ベースの後処理を介して予測されたセグメンテーションから将来のインスタンス予測が回復されます（セクション3.4を参照）。以下では、関係する各コンポーネントについて詳しく説明します。

▲図3｜マルチスケール予測モデルアーキテクチャ

■4.1 LSSベースの知覚モジュール

予測のための視覚的特徴を取得するために、本論文では他の研究者の研究に倣い、LSS を基盤として周囲のカメラ画像から BEV 特徴グリッドを抽出します。より正確には、時刻 t の各画像に対して、共有 EfficientNet バックボーンを適用して視点の特徴を抽出します。ここで、指定する最初のチャネルパラメーターはコンテキストの特徴を表し、次のチャネルはカテゴリの深度分布を表します。 3D 特徴テンソルは外積平均で構成されます。

この式は、コンテキスト機能が異なる深度に昇格され、推定された深度に応じて信頼度が分散されることを示しています。その後、各カメラの特徴マップは、対応するカメラの固有パラメータと外部パラメータを利用しながら、各タイムスタンプでホスト車両の中心座標系に変換されます。その後、変換された特徴は高さの次元に沿って重み付けされ、タイムスタンプでのグローバル BEV 状態が取得されます。ここで、は状態チャネルの数であり、は BEV 状態グラフのグリッドスケールです。最後に、すべての BEV 状態が現在のフレームに統合され、FIERY のように積み重ねられ、ホスト車両の位置とは無関係に現在のグローバル状態を表します。

■4.2 マルチスケール予測モジュール

過去のコンテキストのコンパクトな表現を取得した後、図 3 に示すように、U-Net に似たマルチスケールエンコーダー/デコーダーアーキテクチャを使用して、観測された BEV 機能を入力として使用し、将来のセグメンテーションマップと求心性逆流フィールドを予測します。この記事では、時空間特徴を取得するために、処理に 2D 畳み込みのみを使用し、具体的には時間と特徴の次元を 1 つの次元に圧縮して入力テンソルの結果を生成します。エンコーダはまず空間スケールに応じて徐々にダウンサンプリングして、マルチスケールBEV特徴量を取得する。中間予測段階では、特徴マップがにマッピングされます。最後に、デコーダーは入力スケールで将来の BEV 機能を再構築します。

各ブランチは、監督下で将来のセグメンテーションマップまたは求心後方フローフィールドを予測します。タスクと監督の違いを考慮して、重みを共有せずに各ブランチに同じアーキテクチャを使用します。空間 LSTM または空間 GRU に基づく以前の研究と比較して、私たちのアーキテクチャは 2D 畳み込みのみを利用するため、長距離の時間依存性を解決する際の空間 RNN の制限が大幅に緩和されます。

▲図4｜タスクの類似性

■4.3 マルチタスク設定

既存の方法では、ボトムアップパイプラインを採用して各フレームのインスタンスのセグメンテーションを生成し、次にハンガリアンマッチング (HM) を使用して、順方向フローに従ってフレーム間でインスタンスを関連付けます。したがって、BEV には、セマンティックセグメンテーション、中心性、将来フォワードフロー、ピクセルごとの重心オフセットという 4 つの異なるヘッドが必要です (図 1.a)。これにより、マルチタスクトレーニングによってモデルの冗長性と不安定性が生じます。比較すると、まずフローと求心シフトは両方ともインスタンスマスク内の回帰タスクであることがわかります (図 4.b)。また、フローはモーションシフトとして理解できます。

さらに、これら 2 つの量と中心性の組み合わせは、次の 2 つの段階に分かれています。

（１）求心シフトは、各フレーム内の予測インスタンスの中心にピクセルをグループ化し、そのピクセルにインスタンスIDを割り当てます。

（２）トラフィックは、連続する２つのフレームの中心を一致させ、インスタンスIDの関連付けを行うために使用される。

上記の分析に基づいて、統一された表現方法を直感的に使用して、これら 2 つのタスクを解決することができます。

要約すると、私たちのネットワークは、セマンティックセグメンテーションマップと求心性逆方向フローの 2 つの出力のみを生成します。セグメンテーション損失として k=25% の top-k クロスエントロピーを使用し、フロー損失として滑らかな距離を使用します。全体的な損失関数は次のように表されます。

■4.4 インスタンスの関連付け

▲図5｜インスタンスマッチング

インスタンス予測に関しては、既存の方法では、図 5.a に示すように、フォワードフローを使用してインスタンスの中心を次のフレームに投影し、次にハンガリアンマッチングを使用して最も近いエージェントの中心を一致させます。したがって、オブジェクトの中心にあるフローベクトルのみが動きの予測に使用されます。このアプローチには 2 つの欠点があります。1 つ目は、オブジェクトの回転が考慮されないことです。2 つ目は、単一の変位ベクトルでは、インスタンス全体をカバーする複数の変位ベクトルよりもエラーが発生しやすいことです。実際には、これにより投影インスタンスが重複し、ID の割り当てが不正確になる可能性があります。これは、予測期間が長い、より近いオブジェクトの場合に特に顕著です。

逆方向フローを活用して、上記の問題に対処するために、ワープベースのピクセルレベルの関連付けをさらに提案します。図5.bは相関方法を示しています。この操作は、各前景グリッドセルに対して、前のフレームのフローベクトルの宛先のピクセルから現在のフレームにインスタンス ID を直接伝播します。このアプローチを使用すると、インスタンス ID が各ピクセルに個別に割り当てられ、ピクセルレベルの関連付けが実現されます。

インスタンスレベルの関連付けと比較すると、真の中心の周囲の隣接するグリッドセルは同じアイデンティティを共有する傾向がある一方で、単一の周辺ピクセルでエラーが発生することが多いため、私たちの方法はより深刻なフロー予測エラーを許容できます。さらに、逆フローワーピングを使用すると、複数の将来の位置を前のフレームの 1 つのピクセルに関連付けることができるため、マルチモーダルな将来の予測が容易になります。

05 実験検証

5.1 実験設定

データセット:

私たちは、自律運転の認識と予測に広く使用されている公開データセットである NuScenes データセットで、私たちのアプローチを評価し、最先端のフレームワークと比較します。このデータセットには、ボストンとシンガポールから収集された 1,000 の運転シーンが含まれており、それぞれ 750、150、150 シーンのトレーニングセット、検証セット、テストセットに分かれています。各シーンは 20 秒間の交通データで構成され、2 Hz の頻度でセマンティック注釈が付けられます。

実装の詳細

過去1秒間に相当する3フレーム（現在のフレームを含む）の情報を使用して、次の2秒間に相当する4フレームの意味的セグメンテーション、フロー、インスタンスの動きを予測するという既存研究の設定に従います。異なる知覚スケールでのモデルのパフォーマンスを評価するために、2 つの空間解像度が使用されました。

（１）１００ｍ×１００ｍの面積、解像度０．５ｍ（長さ）

（２）３０ｍ×３０ｍのエリア、解像度０．１５ｍ（ショート）

エンドツーエンドのフレームワークは、学習率 3 × 10 -4 の Adam オプティマイザーを使用して、16 GB のメモリを備えた 4 つの Tesla V100 GPU でバッチサイズ 8 で 20 エポックトレーニングされました。私たちの実装は FIERY のコードに基づいています。

指標

FIERY の評価プロセスに従いました。セグメンテーションの精度を評価するために、セグメンテーション品質の評価指標として Intersection-over-Union (IoU) を使用します。

ベンチマーク方法

PowerBEV を、FIERY、Stretch-BEV、BEVerse という 3 つの最先端の方法と比較します。 FIERY と StretchBEV の実験設定は、バッチサイズが 12 と大きく、それぞれ 32 GB のメモリを備えた 4 つの Tesla V100 GPU が使用されていることを除いて、私たちの研究と同じです。 BEVerse は、バックボーンシステムをより高度な SwinTransformer にアップグレードし、画像入力サイズを 704 × 256 に大幅に増加し、バッチサイズを 32 に増やし、32 個の NVIDIA GeForceRTX 3090 GPU を使用してエンドツーエンドのモデルをトレーニングしました。私たちのフレームワークの有効性を実証するために、BEVerse のような大規模なモデルや大容量の画像を意図的に使用せず、代わりに FLOP と GPU メモリ使用量の点で FIERY 設定に限定して公平な比較を可能にしています。

5.2 実験結果

（１）定量的結果

まず、表 1 のベースラインフレームワークと私たちの方法のパフォーマンスを比較します。また、FIERY を私たちが提案するラベル生成方法 (セクション 4.1 を参照) と比較し、自律走行車の安全性にとって重要な長距離領域でのパフォーマンスが向上することがわかりました。

▲表1｜予測例の比較結果

表 2 に示すように、追加のトレーニング目標の数と種類は変化します。ヘッドを 2 つだけ使用するアプローチ (モデル [D]) は、他のすべてのバリアントよりも優れています。中心点 (モデル [B]) またはオフセット点 (モデル [C]) を追加すると、さまざまなメトリックに悪影響が及びます。

▲表2｜異なる予測ヘッドの比較結果

表3の上部からわかるように、私たちの方法（モデル[F]）は、IoUとVPQの両方の点で、HMベースのインスタンスレベルの関連付け（モデル[E]）よりも優れています。

▲表3｜PowerBEVとHMの比較結果

（２）定性的な結果

図 6 に示すように、結果は、交通量の多い動的な都市シーン、多くの静止車両がある駐車場、雨の日のシーンという 3 つの典型的な運転シナリオにおける FIERY との比較を示しています。最も一般的な交通量の多いシナリオでは、当社のアプローチにより、より正確で信頼性の高い軌道予測が可能になります。これは、車両がホスト車両の左側の脇道に曲がる最初の例で特に顕著です。

▲図6｜予測図の例

06 結論

この研究では、BEV の将来のインスタンスを予測するための新しいフレームワーク POWERBEV を提案します。私たちの方法は並列方式を採用し、2D ネットワーク (2D-CNN) を利用して、セマンティックセグメンテーションと求心性逆方向フローのみを予測します。さらに、マルチモーダルな将来の動きをより適切に処理するための新しい後処理方法を採用し、NuScenes ベンチマークで最先端のインスタンス予測パフォーマンスを実現します。私たちは、私たちのアプローチを分析し、その有効性を実証するために徹底的なアブレーション研究を提供します。実験により、POWERBEV は従来のアプローチよりも軽量でありながら、パフォーマンスが向上することが確認されました。したがって、このアプローチは BEV インスタンス予測の新しい設計パラダイムになる可能性があると考えています。

オリジナルリンク: https://mp.weixin.qq.com/s/KpJ9SsfkdR5vpawz6suvFQ

<<:

>>: ビジュアルトランスフォーマーのより深い理解: ビジュアルトランスフォーマーの解剖学

軍事用AIは普及するだろうか？公共の安全を重視すべきか、住民のプライバシーを重視すべきか？

ブログ

プログラマーは「正直な人が乗っ取る」ことを防ぐために Forgiveness アプリを開発したのでしょうか?

ブログ

コンパクトなBEVインスタンス予測フレームワーク: PowerBEV

01 要約

02 はじめに

03 関連作品

■3.1 カメラベースの3D認識のためのBEV

■3.2 BEVの将来予測

04 方法

■4.1 LSSベースの知覚モジュール

■4.2 マルチスケール予測モジュール

■4.3 マルチタスク設定

■4.4 インスタンスの関連付け

05 実験検証

5.1 実験設定

5.2 実験結果

06 結論

軍事用AIは普及するだろうか？公共の安全を重視すべきか、住民のプライバシーを重視すべきか？

MetaMindによるNLP研究の徹底分析：機械学習をスキップさせる方法

世界AI会議に出席した3人の馬氏：ジャック・マー氏は楽観的、マスク氏は悲観的、そしてポニー・マー氏は大きな危険について言及

マスク氏はテスラの完全自動運転が今年中に利用可能になると予測するが、AIの大きな変化を懸念している

クラゲのように見える7cmのガジェットは、実際にはチーターに似た最速のソフトロボットです

プログラマーは「正直な人が乗っ取る」ことを防ぐために Forgiveness アプリを開発したのでしょうか?

推薦する

1.3>7? Microsoft の新しいモデルは、「小さな勝利で大きな勝利」戦略で Llama2 を打ち負かしました。ネットユーザーは質問しました: Benchmark でトレーニングされたのですか?

固有値分解から共分散行列へ: PCA アルゴリズムの詳細な分析と実装

プロの債権回収業者は失業するのでしょうか？人工知能はこうやって人々にお金を返済させる

長沙の無人タクシーが提起する疑問：本当に無人運転が可能なのか？

シティグループは5年以内に1万人の雇用を人工知能で置き換える計画

Baidu Mapsは、インテリジェントな位置情報サービスプラットフォームを構築するために、新世代の人工知能マップエコシステムをリリースしました。

AIがオペレーターにできること、できないこと

たった 10 行のコードでディープラーニングを実行できますか? PaddlePaddleフレームワークの高レベルAPIでAIを簡単に操作しよう

AIがデータ侵害やデータ損失の防止にどのように役立つか

AI 主導のパーソナライズ学習: テクノロジーが教育にもたらす革命

人工知能、機械学習、データマイニング、データ分析の関係は何ですか?