この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。 01 要約状況を正確に認識し、その将来の動きを予測することは、自動運転車が複雑な都市交通を安全に移動できるようにするために重要なタスクです。鳥瞰図 (BEV) 表現は自動運転の認識では一般的ですが、動き予測設定におけるその可能性についてはあまり研究されていません。既存のサラウンド カメラ BEV インスタンス予測方法は、マルチタスクの自動回帰設定と複雑な後処理に依存して、時空間的に一貫した方法で将来のインスタンスを予測します。本稿では、このパラダイムから出発し、「POWER BEV」と呼ばれる新しい効率的なエンドツーエンドのフレームワークを提案します。まず、POWER BEV は自己回帰方式で未来を予測するのではなく、軽量の 2D 畳み込みネットワークから構築された並列マルチスケール モジュールを使用します。次に、セグメンテーションと求心リフローが予測には十分であり、冗長な出力モードを排除することで以前のマルチタスクの目的を簡素化できることを示します。この出力表現に基づいて、より安定した時間横断的なインスタンスの関連付けを生成する、単純なフローベースの後処理方法を提案します。この軽量でありながら強力な設計により、POWER BEV は NuScenes データセットの最先端のベースラインを上回り、BEV インスタンス予測の代替パラダイムを提供します。 ▲図1|PowerBEVと他モデルの比較 02 はじめに周囲の車両に関する情報を正確に取得することは、自動運転システムが直面する重要な課題です。運転環境の非常に複雑かつ動的な性質を考慮すると、現在の道路利用者の正確な検出と位置特定に加えて、彼らの将来の動きを予測することも非常に重要です。広く受け入れられているパターンは、これらのタスクを異なるモジュールに分割することです。このモードでは、まず複雑な認識モデルを通じて対象オブジェクトが検出され、位置が特定され、複数のフレーム間で相関関係が調べられます。検出されたオブジェクトの過去の動きは、パラメトリック軌道モデルを介してそれらの潜在的な将来の動きを予測するために使用されます。しかし、知覚モデルと運動モデルは別々に予測されるため、最初の段階ではシステム全体にエラーが発生しやすくなります。 近年、多くの研究により、正確な視覚中心の運転環境認識における鳥瞰図 (BEV) 表現の可能性が実証されています。エラー蓄積の問題に対処するために、研究者はエンドツーエンドのフレームワークを使用して BEV 内のオブジェクトの位置を直接特定し、占有グリッド マップの形式で全体的なシーンの変化を予測しようとしました。 図 1 および 4 に示すように、エンドツーエンドのパラダイムを採用しているにもかかわらず、既存の方法では、セグメンテーション マップ、インスタンス センター、フォワード フロー、インスタンス センターを指すオフセットなど、部分的に冗長な複数の表現が予測されます。これらの冗長な表現には、さまざまな損失項だけでなく、インスタンス予測を取得するための複雑な後処理も必要です。 本研究では、これまでの研究で使用されたマルチタスク設定を簡素化し、セグメンテーションマップとフローの 2 つの出力形式のみを必要とする方法を提案します。具体的には、セグメンテーションからインスタンス センターを直接計算し、個別のセンター マップを必要としません。これにより、推定された中心と予測されたセグメンテーションの間に矛盾が生じる可能性も排除されます。さらに、これまでの研究者が使用した前方流とは異なり、我々は求心性の後方流を計算します。これは、現在占有されている各ピクセルから前のフレームの対応するインスタンスの中心を指すベクトル フィールドです。ピクセル レベルの関連付けとインスタンス レベルの関連付けを単一のピクセル インスタンス割り当てタスクに組み合わせます。したがって、オフセットヘッドは不要になります。さらに、この設計の選択により、複数の手順が不要になるため、関連付けプロセスが簡素化されます。また、提案された POWER BEV フレームワークでは、自己回帰モデルと比較して満足のいくインスタンス予測を得るのに 2D 畳み込みネットワークで十分であり、軽量でありながら強力なフレームワークが得られることがわかりました。 私たちは NuScenes データセットで私たちの方法を評価し、私たちのアプローチが既存のフレームワークよりも優れており、最先端のインスタンス予測パフォーマンスを達成することを示しています。当社では、強力でありながら軽量なフレームワーク設計を検証するために、アブレーション研究をさらに進めています。 私たちの主な貢献は次のようにまとめられます。 ●私たちは、BEV で複数のオブジェクトを認識して予測するための 2D 畳み込み層のみで構成された、新しくエレガントなエンドツーエンドのビジョンベースのフレームワークである POWER-BEV を提案します。 ●冗長な表現によって引き起こされる過剰な監督が予測能力を損なう可能性があることを示します。対照的に、私たちのアプローチは、単純な予測セグメンテーションと求心的な逆方向フローを介して、セマンティックおよびインスタンスレベルのプロキシ予測を実現します。 ●求心性逆フローに基づく割り当て方式は、従来の順フローや従来のハンガリーマッチングアルゴリズムよりも優れています。 03 関連作品■3.1 カメラベースの3D認識のためのBEVLiDAR ベースの認識方法では通常、3D ポイント クラウドを BEV 平面にマッピングし、BEV セグメンテーションまたは 3D バウンディング ボックス回帰を実行しますが、単眼カメラ画像を BEV 表現に変換することは依然として難しい問題です。 LIDAR とカメラのデータを組み合わせて BEV を生成するアプローチもいくつかありますが、これらのアプローチは、正確なマルチセンサーのキャリブレーションと同期に依存しています。 LSS(Lift Splat Shoot)は、2次元の特徴を3次元に持ち上げ、持ち上げた特徴をBEV平面に投影する最初の作品と言えます。深度を離散化し、深度分布を予測します。次に、画像の特徴がこの分布に従って拡大縮小され、深度次元に分散されます。 BEVDet は、BEV 特徴マップからの 3D オブジェクト検出に LSS を適応させます。 Tesla AI Day 2021 では、Transformer アーキテクチャを使用してマルチビュー カメラ機能を BEV 機能マップに融合することを初めて提案しました。このマップでは、高密度 BEV クエリとパースペクティブ画像機能間のクロスアテンションがビュー変換として機能します。このアプローチは、BEVFormer と BEVSegFormer のカメラキャリブレーションと変形可能な注意を活用してトランスフォーマーの二次複雑度を削減することでさらに改善されます。さらに、これまでの研究では、BEV 特徴の時間的モデリングによって 3D 検出パフォーマンスが大幅に向上することが示されていますが、計算量とメモリの消費量が増大します。検出やセグメンテーションとは異なり、予測タスクでは当然、履歴情報の時間的モデリングが必要になります。この目的のために、私たちの方法は、LSS に基づく軽量の完全畳み込みネットワークを使用して、効果的かつ効率的な時空間情報を抽出します。 ■3.2 BEVの将来予測初期の BEV ベースの予測方法では、過去の軌跡を BEV 画像としてレンダリングし、オブジェクトの完全な検出と追跡を前提として、CNN を使用してラスター化された入力をエンコードします。もう一つの作業は、LiDAR ポイント クラウドから直接エンドツーエンドの軌道を予測することです。インスタンス レベルの軌道予測とは異なり、MotionNet と MP3 は、各占有グリッドのモーション (フロー) フィールドを介して予測タスクを処理します。 LiDAR データに依存する上記の方法と比較して、FIERY はまず、マルチビュー カメラ データのみに基づいて BEV インスタンスのセグメンテーションを予測します。 FIERY は、LSS に従ってマルチフレーム BEV 機能を抽出し、再帰ネットワークを使用してそれらを時空間状態に融合してから、確率的インスタンス予測を実行します。 StretchBEV は、ランダム残差更新を伴う確率的時間モデルを使用して FIERY を改善します。 BVerse は、マルチタスク BEV 認識フレームワークでの予測のために、潜在空間での反復フロー ワーピングを提案します。これらの手法はPanoptic-DeepLab [21]に準拠しており、4つの異なるヘッドを使用してセマンティックセグメンテーションマップ、インスタンスセンター、ピクセルごとの求心オフセット、および将来のフローを計算します。これら 4 つの表現から最終的なインスタンス予測を生成するには、複雑な後処理が必要です。本稿では、意味的セグメンテーションと求心的逆方向フローの 2 つのヘッドと、簡略化された後処理を組み合わせるだけで、将来のインスタンス予測に十分であることを示します。 ▲図2|PowerBEVアルゴリズムアーキテクチャ 04 方法このセクションでは、提案するエンドツーエンドのフレームワークの概要を説明します。アプローチの概要を図 2 に示します。これは、認識モジュール、予測モジュール、後処理段階の 3 つの主要部分で構成されています。知覚モジュールはLSSに従い、タイムスタンプTのM個のマルチビューカメラ画像を入力として受け取り、それらをT個のBEV特徴マップに変換します(セクション3.1を参照)。次に、予測モジュールは、抽出された BEV 特徴に含まれる時空間情報を融合し (セクション 3.2 を参照)、セグメンテーション マップ シーケンスと将来のフレームの求心方向の逆方向フローを並行して予測します (セクション 3.3 を参照)。最後に、変形ベースの後処理を介して予測されたセグメンテーションから将来のインスタンス予測が回復されます(セクション3.4を参照)。以下では、関係する各コンポーネントについて詳しく説明します。 ▲図3|マルチスケール予測モデルアーキテクチャ ■4.1 LSSベースの知覚モジュール予測のための視覚的特徴を取得するために、本論文では他の研究者の研究に倣い、LSS を基盤として周囲のカメラ画像から BEV 特徴グリッドを抽出します。より正確には、時刻 t の各画像に対して、共有 EfficientNet バックボーンを適用して視点の特徴を抽出します。ここで、指定する最初のチャネル パラメーターはコンテキストの特徴を表し、次のチャネルはカテゴリの深度分布を表します。 3D 特徴テンソルは外積平均で構成されます。 この式は、コンテキスト機能が異なる深度に昇格され、推定された深度に応じて信頼度が分散されることを示しています。その後、各カメラの特徴マップは、対応するカメラの固有パラメータと外部パラメータを利用しながら、各タイムスタンプでホスト車両の中心座標系に変換されます。その後、変換された特徴は高さの次元に沿って重み付けされ、タイムスタンプでのグローバル BEV 状態が取得されます。ここで、は状態チャネルの数であり、は BEV 状態グラフのグリッド スケールです。最後に、すべての BEV 状態が現在のフレームに統合され、FIERY のように積み重ねられ、ホスト車両の位置とは無関係に現在のグローバル状態を表します。 ■4.2 マルチスケール予測モジュール過去のコンテキストのコンパクトな表現を取得した後、図 3 に示すように、U-Net に似たマルチスケール エンコーダー/デコーダー アーキテクチャを使用して、観測された BEV 機能を入力として使用し、将来のセグメンテーション マップと求心性逆流フィールドを予測します。この記事では、時空間特徴を取得するために、処理に 2D 畳み込みのみを使用し、具体的には時間と特徴の次元を 1 つの次元に圧縮して入力テンソルの結果を生成します。エンコーダはまず空間スケールに応じて徐々にダウンサンプリングして、マルチスケールBEV特徴量を取得する。中間予測段階では、特徴マップが にマッピングされます。最後に、デコーダーは入力スケールで将来の BEV 機能を再構築します。 各ブランチは、監督下で将来のセグメンテーション マップまたは求心後方フロー フィールドを予測します。タスクと監督の違いを考慮して、重みを共有せずに各ブランチに同じアーキテクチャを使用します。空間 LSTM または空間 GRU に基づく以前の研究と比較して、私たちのアーキテクチャは 2D 畳み込みのみを利用するため、長距離の時間依存性を解決する際の空間 RNN の制限が大幅に緩和されます。 ▲図4|タスクの類似性 ■4.3 マルチタスク設定既存の方法では、ボトムアップ パイプラインを採用して各フレームのインスタンスのセグメンテーションを生成し、次にハンガリアン マッチング (HM) を使用して、順方向フローに従ってフレーム間でインスタンスを関連付けます。したがって、BEV には、セマンティック セグメンテーション、中心性、将来フォワード フロー、ピクセルごとの重心オフセットという 4 つの異なるヘッドが必要です (図 1.a)。これにより、マルチタスク トレーニングによってモデルの冗長性と不安定性が生じます。比較すると、まずフローと求心シフトは両方ともインスタンス マスク内の回帰タスクであることがわかります (図 4.b)。また、フローはモーション シフトとして理解できます。 さらに、これら 2 つの量と中心性の組み合わせは、次の 2 つの段階に分かれています。 (1)求心シフトは、各フレーム内の予測インスタンスの中心にピクセルをグループ化し、そのピクセルにインスタンスIDを割り当てます。 (2)トラフィックは、連続する2つのフレームの中心を一致させ、インスタンスIDの関連付けを行うために使用される。 上記の分析に基づいて、統一された表現方法を直感的に使用して、これら 2 つのタスクを解決することができます。 要約すると、私たちのネットワークは、セマンティックセグメンテーションマップと求心性逆方向フローの 2 つの出力のみを生成します。セグメンテーション損失として k=25% の top-k クロスエントロピーを使用し、フロー損失として滑らかな距離を使用します。全体的な損失関数は次のように表されます。 ■4.4 インスタンスの関連付け▲図5|インスタンスマッチング インスタンス予測に関しては、既存の方法では、図 5.a に示すように、フォワードフローを使用してインスタンスの中心を次のフレームに投影し、次にハンガリアン マッチングを使用して最も近いエージェントの中心を一致させます。したがって、オブジェクトの中心にあるフロー ベクトルのみが動きの予測に使用されます。このアプローチには 2 つの欠点があります。1 つ目は、オブジェクトの回転が考慮されないことです。2 つ目は、単一の変位ベクトルでは、インスタンス全体をカバーする複数の変位ベクトルよりもエラーが発生しやすいことです。実際には、これにより投影インスタンスが重複し、ID の割り当てが不正確になる可能性があります。これは、予測期間が長い、より近いオブジェクトの場合に特に顕著です。 逆方向フローを活用して、上記の問題に対処するために、ワープベースのピクセルレベルの関連付けをさらに提案します。図5.bは相関方法を示しています。この操作は、各前景グリッド セルに対して、前のフレームのフロー ベクトルの宛先のピクセルから現在のフレームにインスタンス ID を直接伝播します。このアプローチを使用すると、インスタンス ID が各ピクセルに個別に割り当てられ、ピクセル レベルの関連付けが実現されます。 インスタンスレベルの関連付けと比較すると、真の中心の周囲の隣接するグリッドセルは同じアイデンティティを共有する傾向がある一方で、単一の周辺ピクセルでエラーが発生することが多いため、私たちの方法はより深刻なフロー予測エラーを許容できます。さらに、逆フローワーピングを使用すると、複数の将来の位置を前のフレームの 1 つのピクセルに関連付けることができるため、マルチモーダルな将来の予測が容易になります。 05 実験検証5.1 実験設定データセット: 私たちは、自律運転の認識と予測に広く使用されている公開データセットである NuScenes データセットで、私たちのアプローチを評価し、最先端のフレームワークと比較します。このデータセットには、ボストンとシンガポールから収集された 1,000 の運転シーンが含まれており、それぞれ 750、150、150 シーンのトレーニング セット、検証セット、テスト セットに分かれています。各シーンは 20 秒間の交通データで構成され、2 Hz の頻度でセマンティック注釈が付けられます。 実装の詳細 過去1秒間に相当する3フレーム(現在のフレームを含む)の情報を使用して、次の2秒間に相当する4フレームの意味的セグメンテーション、フロー、インスタンスの動きを予測するという既存研究の設定に従います。異なる知覚スケールでのモデルのパフォーマンスを評価するために、2 つの空間解像度が使用されました。 (1)100m×100mの面積、解像度0.5m(長さ) (2)30m×30mのエリア、解像度0.15m(ショート) エンドツーエンドのフレームワークは、学習率 3 × 10 -4 の Adam オプティマイザーを使用して、16 GB のメモリを備えた 4 つの Tesla V100 GPU でバッチサイズ 8 で 20 エポックトレーニングされました。私たちの実装は FIERY のコードに基づいています。 指標 FIERY の評価プロセスに従いました。セグメンテーションの精度を評価するために、セグメンテーション品質の評価指標として Intersection-over-Union (IoU) を使用します。 ベンチマーク方法 PowerBEV を、FIERY、Stretch-BEV、BEVerse という 3 つの最先端の方法と比較します。 FIERY と StretchBEV の実験設定は、バッチ サイズが 12 と大きく、それぞれ 32 GB のメモリを備えた 4 つの Tesla V100 GPU が使用されていることを除いて、私たちの研究と同じです。 BEVerse は、バックボーン システムをより高度な SwinTransformer にアップグレードし、画像入力サイズを 704 × 256 に大幅に増加し、バッチ サイズを 32 に増やし、32 個の NVIDIA GeForceRTX 3090 GPU を使用してエンドツーエンドのモデルをトレーニングしました。私たちのフレームワークの有効性を実証するために、BEVerse のような大規模なモデルや大容量の画像を意図的に使用せず、代わりに FLOP と GPU メモリ使用量の点で FIERY 設定に限定して公平な比較を可能にしています。 5.2 実験結果(1)定量的結果 まず、表 1 のベースライン フレームワークと私たちの方法のパフォーマンスを比較します。また、FIERY を私たちが提案するラベル生成方法 (セクション 4.1 を参照) と比較し、自律走行車の安全性にとって重要な長距離領域でのパフォーマンスが向上することがわかりました。 ▲表1|予測例の比較結果 表 2 に示すように、追加のトレーニング目標の数と種類は変化します。ヘッドを 2 つだけ使用するアプローチ (モデル [D]) は、他のすべてのバリアントよりも優れています。中心点 (モデル [B]) またはオフセット点 (モデル [C]) を追加すると、さまざまなメトリックに悪影響が及びます。 ▲表2|異なる予測ヘッドの比較結果 表3の上部からわかるように、私たちの方法(モデル[F])は、IoUとVPQの両方の点で、HMベースのインスタンスレベルの関連付け(モデル[E])よりも優れています。 ▲表3|PowerBEVとHMの比較結果 (2)定性的な結果 図 6 に示すように、結果は、交通量の多い動的な都市シーン、多くの静止車両がある駐車場、雨の日のシーンという 3 つの典型的な運転シナリオにおける FIERY との比較を示しています。最も一般的な交通量の多いシナリオでは、当社のアプローチにより、より正確で信頼性の高い軌道予測が可能になります。これは、車両がホスト車両の左側の脇道に曲がる最初の例で特に顕著です。 ▲図6|予測図の例 06 結論この研究では、BEV の将来のインスタンスを予測するための新しいフレームワーク POWERBEV を提案します。私たちの方法は並列方式を採用し、2D ネットワーク (2D-CNN) を利用して、セマンティック セグメンテーションと求心性逆方向フローのみを予測します。さらに、マルチモーダルな将来の動きをより適切に処理するための新しい後処理方法を採用し、NuScenes ベンチマークで最先端のインスタンス予測パフォーマンスを実現します。私たちは、私たちのアプローチを分析し、その有効性を実証するために徹底的なアブレーション研究を提供します。実験により、POWERBEV は従来のアプローチよりも軽量でありながら、パフォーマンスが向上することが確認されました。したがって、このアプローチは BEV インスタンス予測の新しい設計パラダイムになる可能性があると考えています。 オリジナルリンク: https://mp.weixin.qq.com/s/KpJ9SsfkdR5vpawz6suvFQ |
>>: ビジュアルトランスフォーマーのより深い理解: ビジュアルトランスフォーマーの解剖学
翻訳者 | イェ・ウェイミンレビュー | Chonglou効率、コードの品質、生産性はすべてプログラ...
[[176353]]暗号化はコンピュータサイエンスで広く使用されており、HTTPS は暗号化に基づい...
1月16日、中国における大型モデルの偽造品撲滅活動で初の成功事例が発表された。アリババクラウドとアリ...
この男性が自分の動きでロボットを操作している様子を注意深く見てください。彼がパンチを繰り出すと、ロボ...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
人工知能は、コンピューターが人間と同様のレベルの知能を発揮できるようにするさまざまな技術を網羅する幅...
ほら、軽く引っ張るとバラが動きますよ。葉を左にドラッグすると、松の木も同じ方向に移動します。引っ張る...
産業用ロボットの年間成長率は44.9%でしたが、累積成長率は月ごとに低下しました。 Windのデータ...
人工知能はテクノロジー界でホットな話題となっている。それは人々の生活を変えただけでなく、考えられるあ...
「今日ではビデオ監視や顔認識のアプリケーションが非常に多く、データセキュリティの保護は緊急の課題とな...
Google の年末開発者特典が始まりました! Google Gemini のリリースから 1 週間...
[51CTO.comからのオリジナル記事]新たな技術革命の到来により、技術革新は世界の発展の核心的...