ICRA 2022 優秀論文: 自動運転用 2D 画像を鳥瞰図に変換し、モデル認識精度を 15% 向上

ICRA 2022 優秀論文: 自動運転用 2D 画像を鳥瞰図に変換し、モデル認識精度を 15% 向上

自動運転における多くのタスクは、トップダウン、マップ、または鳥瞰図 (BEV) の観点から見ると、より簡単に実行できます。多くの自動運転のトピックは地面の平面に制限されているため、トップダウンビューは、ナビゲーションに最適で、関連する障害物や危険を捉えることができる、より実用的な低次元表現です。自動運転のようなシナリオでは、自由に移動する物体や一度しか訪れないシーンを処理するために、意味的にセグメント化された BEV マップを瞬時の推定値として生成する必要があります。

画像から BEV マップを推測するには、画像要素と環境内での位置との対応を決定する必要があります。これまでの研究では、この変換プロセスをガイドするために高密度深度マップと画像セグメンテーションマップが使用されており、深度とセマンティクスを暗黙的に解析する方法を拡張した研究もあります。いくつかの研究では、カメラの幾何学的事前条件を活用しましたが、画像要素と BEV 平面間の相互作用を明示的に学習していませんでした。

最近の論文で、サリー大学の研究者らは、自動運転の2D画像を鳥瞰図に変換する注目メカニズムを導入し、モデルの認識精度を15%向上させた。この研究は、少し前に終了した ICRA 2022 会議で優秀論文賞を受賞しました。

論文リンク: https://arxiv.org/pdf/2110.00966.pdf

これまでの方法とは異なり、この研究では、BEV の変換を「画像から世界」への変換問題とみなし、画像内の垂直走査線と BEV 内の極線の間の位置合わせを学習することを目標としています。したがって、この射影幾何学はネットワークに暗黙的に存在します。

研究者らは、アライメントモデルにおいて、注目度に基づくシーケンス予測構造であるTransformerを採用した。注目メカニズムを使用して、画像内の垂直スキャンラインとその極性 BEV 投影間のペアワイズ相互作用を明示的にモデル化します。トランスフォーマーは、オブジェクト、深度、シーンの照明間の相互依存性を推論して、全体的に一貫した表現を実現できるため、画像から BEV への変換問題に適しています。

Transformer ベースのアライメント モデルを、単眼画像とその固有マトリックスを入力として受け取り、静的クラスと動的クラスのセマンティック BEV マップを予測するエンドツーエンドの学習式に埋め込みます。

本稿では、位置合わせされたモデルの周囲の単眼画像からセマンティック BEV マップを予測するのに役立つアーキテクチャを構築します。下の図 1 に示すように、これは 3 つの主要コンポーネントで構成されています。画像平面上の空間特徴を抽出するための標準 CNN バックボーン、画像平面上の特徴を BEV に変換するエンコーダー/デコーダー トランスフォーマー、そして最後に BEV 特徴をセマンティック マップにデコードするセグメンテーション ネットワークです。

具体的には、この研究の主な貢献は次のとおりです。

  • (1)1Dシーケンス間変換のセットを使用して画像からBEVマップを生成する。
  • (2)空間認識機能を備えた制約付き、データ効率の高いTransformerネットワークを構築した。
  • (3)言語領域における公式と単調注意の組み合わせは、画像内の点の下にあるものを知ることが、上にあるものを知ることよりも正確なマッピングにとって重要であることを示しているが、両方を使用すると最高のパフォーマンスが得られる。
  • (4)軸方向の注意が時間的認識を提供することでどのようにパフォーマンスを向上させることができるかを実証し、3つの大規模データセットで最先端の結果を提示します。

実験結果

実験では、研究者らは、nuScenes データセットでの変換問題としての画像から BEV への変換の有効性の評価、単調な注意におけるバックトラッキング方向の除去、長いシーケンス レベルのコンテキストの有効性と極位置情報の影響の評価など、いくつかの評価を実施しました。最後に、提案された手法を nuScenes、Argoverse、Lyft データセット上の SOTA 手法と比較します。

アブレーション実験

下の表 2 の最初の部分に示すように、研究者はソフト アテンション (両方向を見る)、画像の下部を振り返るモノトニック アテンション (下を見る)、および画像の上部を振り返るモノトニック アテンション (上を見る) を比較しました。画像内のある点から見下ろす方が、上を見上げるよりも良いことがわかります。

ローカルテクスチャの手がかりに従う - これは、人間が都市環境で物体の距離を判定しようとする方法と一致しており、物体が地面と交差する場所を使用します。結果はまた、両方向で観察することで精度がさらに向上し、深い推論の識別力が向上することを示しています。

長いシーケンスレベルのコンテキストの有用性。ここで、画像から BEV への変換は、1D シーケンスからシーケンスへの変換のセットとして実行されるため、画像全体を BEV に変換すると何が起こるかが疑問になります。このアプローチは、注意マップを生成するために必要な二次計算時間とメモリを考えると、非常に高価です。ただし、画像平面の特徴に水平軸方向の注意を適用することで、ほぼ画像全体を使用するというコンテキスト上の利点を得ることができます。垂直スキャン ラインのピクセルは、画像行を軸方向に処理することで長距離の水平コンテキストを持つようになり、長距離の垂直コンテキストは、以前と同様に 1D シーケンス間の遷移によって提供されます。

表 2 の中央部分に示されているように、長いシーケンス レベルのコンテキストを組み込むことはモデルにメリットをもたらさず、わずかな悪影響を与える可能性さえあります。これは 2 つのことを示唆しています。まず、変換された各レイは入力画像の全幅の情報を必要としないこと、より正確には、長いコンテキストのシーケンスは、フロントエンド畳み込みによってすでに集約されたコンテキストに対して追加の利点を提供しないことです。これは、画像全体を使用して変換を実行しても、ベースライン制約式を超えてモデルの精度が向上しないことを示しています。さらに、水平軸の注意を導入することで発生するパフォーマンスの低下は、注意を使用して画像全体のシーケンスをトレーニングすることが困難であることを意味します。画像全体を入力シーケンスとして使用すると、トレーニングがより困難になることがわかります。

極性非依存型トランスフォーマーと極性適応型トランスフォーマー: 表 2 の最後の部分では、Po-Ag 型と Po-Ad 型のバリエーションを比較しています。 Po-Ag モデルには偏光位置情報がありません。画像平面の Po-Ad には、Transformer エンコーダーに追加された極性エンコーディングが含まれますが、BEV 平面の場合、この情報はデコーダーに追加されます。任意の平面で極性エンコーディングを追加すると、アグノスティック モデルで追加するよりも多くの利点があり、動的クラスで最大の増加が見られます。両方のプレーンに追加すると、これがさらに強化されますが、静的クラスに最も大きな影響があります。

SOTA方式との比較

研究者らは、この論文の手法をいくつかの SOTA 手法と比較しました。下の表 1 に示すように、空間モデルは現在の圧縮 SOTA 方式 STA-S よりも優れており、平均相対改善率は 15% です。より小さな動的クラスでは改善はさらに劇的で、バス、トラック、トレーラー、障害物はすべて、検出精度が相対的に 35 ~ 45% 向上します。

下の図 2 で得られた定性的な結果もこの結論を裏付けており、提案されたモデルは構造上の類似性が高く、形状感覚が優れていることを示しています。この違いは、圧縮に使用される完全接続レイヤー (FCL) に部分的に起因します。つまり、小さくて遠くにあるオブジェクトを検出する場合、画像の大部分は冗長なコンテキストになります。

さらに、歩行者などの物体は車両によって部分的に隠れてしまうことがよくあります。この場合、完全に接続されたレイヤーは歩行者を無視し、代わりに車両のセマンティクスを保持する傾向があります。ここでは、各放射状の深度が独立して画像に注意を向けることができるため、注意のアプローチがその強みを発揮します。つまり、深度が深くなると歩行者の体が見えるようになりますが、それ以前の深度では車両のみに注意を向けていました。

下の表3のArgoverseデータセットの結果も同様のパターンを示しており、私たちの方法はPON [8]と比較して30%改善されています。

表4に示すように、私たちの方法はnuScenesとLyftにおいてLSS [9]とFIERY [20]よりも優れています。 Lyft では標準的な列車/バス分割がなく、LSS で使用される分割が利用できないため、真の比較は不可能です。

研究の詳細については原著論文を参照してください。

<<:  清華大学、ケンブリッジ大学、UICが共同で中国初のファクトチェックデータセットを公開。医学や社会学を含む複数の分野を網羅した証拠に基づくデータセット。

>>:  AIOpsの構築と導入を成功させるための3つの要素

ブログ    
ブログ    

推薦する

...

自然災害の予測に関しては、AIはまだ大丈夫でしょうか?

古代から現代に至るまで、自然災害は人類に限りない損失をもたらしてきました。都市社会がますます発展する...

「3D ガウス」バージョンですべてをセグメント化: ミリ秒単位で 3D セグメンテーション、1,000 倍高速

今年4月、Metaは「Segment Everything(SAM)」AIモデルをリリースしました。...

このレポートを読めば、人工知能に関するあなたの常識は基本的に正しいものとなるでしょう。

[[266878]]中国における人工知能に関する議論の多くは体系化されておらず、断片的であり、人工...

...

10回!マイクロソフトは、1000億のパラメータをトレーニングできる史上最大のNLGモデルをオープンソース化しました。

AI の最新の傾向は、自然言語モデルが大きくなるほど精度が向上するということですが、コスト、時間、...

TCP/IPトランスポート層の輻輳制御アルゴリズムを理解する

この記事では、次の内容を学びます。 輻輳制御の概念とその背景 フロー制御と輻輳制御の違いと関係 輻輳...

基本的なアルゴリズムについての簡単な説明: AVL ツリーとスプレイ ツリー (パート 3)

順序上記に引き続き、このトピックについて話し続けましょう。バランス二分木: AVL 木 (1962)...

ドローン技術の最新動向

ドローン分野へと私たちを導いた技術開発はそこで止まりませんでした。ドローンが軍事目的以外の目的で使用...

...

Gonex CEO ウェン・メンフェイ氏との独占インタビュー: アプリケーションの分野では、モデル自体よりも意図の認識の方が重要です。

ゲスト | ウェン・メンフェイインタビュー&執筆 | Yun Zhao潮が満ちると、何千もの船が動き...

...

...

アルゴリズムは AI の進歩の原動力となることができるでしょうか?

2006年以降、ディープラーニングに代表される機械学習アルゴリズムは、マシンビジョンや音声認識など...

...