低速自動運転のためのパノラマ/魚眼カメラによる近距離認識

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

カメラは自動運転システムの主要なセンサーです。カメラは高い情報密度を提供し、人間の視覚に合わせて設計された道路インフラの検出に最適です。サラウンドカメラシステムには、通常、近距離認識に重点を置いた、車両の周囲 360° をカバーする 190° 以上の視野を持つ 4 台の魚眼カメラが含まれます。これらは、自動駐車、渋滞アシスト、低速緊急ブレーキなどの低速、高精度、近距離検知アプリケーション向けの主要なセンサーです。本研究では、認識、再構築、再局在化、再編成という 4 つのモジュールコンポーネントに分解できるアーキテクチャ (総称して 4R アーキテクチャ) のコンテキストで、このような視覚システムの詳細な調査を示します。この論文では、各コンポーネントが特定の側面をどのように実現するかについて説明し、位置付けの議論を提供します (つまり、それらが連携して完全な低速自動認識システムを形成できる)。

この論文の研究は、Malikらによる[5]の研究に部分的に触発されたものである。この研究の著者らは、コンピュータービジョンの中心的な問題は再構成、認識、再結合であり、これをコンピュータービジョンの 3R と呼んでいると提唱しています。ここで、この論文では、コンピュータービジョンの 3R を、自動運転コンピュータービジョンの 4R (再構築、認識、再編成、再位置特定) に拡張して特化することを提案しています。

再構築とは、ビデオシーケンスからシーン内の車両の位置を含むシーンの形状を推測することを意味します。これは、シーンのレンダリング、障害物の回避、操縦、車両の制御などの問題にとって非常に重要であるため、その重要性は明らかです。 Malik らは、これを幾何学的推論を超えて、反射や照明などの特徴を含めるように拡張しました。ただし、これらの追加の特性は (少なくとも現時点では) 自動運転のコンピュータービジョンのコンテキストでは重要ではないため、この論文では再構築をより伝統的な意味での 3D ジオメトリの回復として定義しています。

認識とは、階層構造を含むビデオ画像やシーンのさまざまな側面に意味的なラベルを付けるために使用される用語です。たとえば、クラス「サイクリスト」は、自転車とライダーのサブセットに分割できるため空間階層を持ちますが、クラス「車両」には、自動車、トラック、自転車などのサブカテゴリを含めることができます。自動運転システムに役立つ限り、これは継続できます。ライトは、タイプ (車のライト、街灯、ブレーキライトなど)、色 (赤、黄、緑)、および自動運転車にとっての重要性 (応答が必要、無視可能) によって分類できるため、システム内で高度な推論が可能になります。

再位置特定とは、車両の周囲環境に対する識別と測定位置の特定を指します。これは、ホスト車両内の事前に記録された軌跡（訓練された駐車場など）や、インフラストラクチャからストリーミングされたマップ（HD マップなど）で実行できます。これは SLAM のループ閉鎖と非常に関連していますが、ループ閉鎖の問題だけでなく、1 つ以上の定義済みマップに従って車両の位置を特定するというより広範な問題も考慮されます。

再結合とは、コンピュータービジョンの最初の 3 つのコンポーネントからの情報を統合して 1 つの表現にまとめる方法です。この論文では、この用語は「後期融合」と同等に使用されています。これは、車両制御にはセンサー出力の統一された表現が必要であり、後期段階で複数のカメラ出力を融合することも可能になるため、自動運転にとって重要なステップです。

近距離場知覚システムの紹介

自動駐車システム

自動駐車システムは、短距離センシングの主な使用例の 1 つです。図 4 は、いくつかの典型的な駐車の使用例を示しています。初期の商用半自動駐車システムでは超音波センサーやレーダーが使用されていましたが、最近ではサラウンドビューカメラが自動駐車の主なセンサーの 1 つになりつつあります。自動駐車用の超音波および mmWave レーダーセンサーの主な制限は、駐車スペースを他の障害物の存在に基づいてのみ識別できることです (図 5)。さらに、サラウンドビューカメラシステムにより、ペイントされたラインマークなどの目に見える駐車マーカーがある場合でも駐車が可能になり、バレーパーキングシステムを実現するための重要な技術としても考えられています。

渋滞アシスト

事故の大半は低速追突であるため、現在のシステムは堅牢性に欠ける可能性があるものの、交通渋滞状況は短期的にはメリットが得られる運転領域の 1 つと考えられています。自動渋滞アシストシステムでは、渋滞状況において車両の縦方向および横方向の位置を制御します (図 6)。この機能は通常、最高速度が約 60kph の低速環境で使用されますが、最高速度を 40kph に下げることが推奨されます。交通渋滞支援は通常高速道路のシナリオを考慮しますが、都市部の交通渋滞支援システムも研究されてきました。このアプリケーションの低速性を考慮すると、サラウンドビューカメラは、特に、歩行者が従来の前方カメラやレーダーシステムの視野を超えて横断しようとする可能性がある都市環境では理想的なセンサーです。図7はパノラマカメラを使用した渋滞支援の例を示しています。他の道路利用者やランドマークを検出することに加えて、深度推定や SLAM などの機能は、物体までの距離を推測し、車両の位置を制御するために重要です。

低速ブレーキ

ある調査によると、自動後方ブレーキにより衝突事故の賠償請求が大幅に減少し、後方カメラ、駐車支援、自動ブレーキを搭載した車両では衝突事故が 78% 減少したと報告されています。サラウンドカメラシステムは、深度推定と物体検出の組み合わせがこの機能の基本となるため、低速ブレーキングに非常に役立ちます。

魚眼カメラ

魚眼カメラは、視野が非常に広いため、最小限のセンサーで車両の周囲全体を監視できるため、自動運転アプリケーションに明らかな利点を提供します。通常、360° の範囲をカバーするには 4 台のカメラのみが必要です。ただし、投影ジオメトリがより複雑になることを考慮すると、この利点にはコストが伴います。過去のいくつかの論文では、魚眼レンズジオメトリをモデル化する方法についてレビューされています。たとえば[34]。本論文ではここでこれを繰り返すつもりはありませんが、代わりに魚眼カメラ技術の使用が自動運転の視覚にもたらす問題に焦点を当てています。

標準的な視野カメラでは、直線投影と遠近法の原理は非常に近く、現実世界の直線が画像平面上に直線として投影されるという共通の遠近法の特性を備えています。平行直線の集合は、画像平面上の消失点に収束する直線の集合として投影されます。光学歪みによる偏差は簡単に修正できます。多くの自動車データセットは、光学歪みが除去された画像データ、簡単な補正方法、またはほとんど知覚できない光学歪みを備えた画像データを提供します。したがって、ほとんどの自動車視覚研究では暗黙的に直線投影が想定されており、魚眼レンズの視点は直線投影とは大きく異なります。カメラシーン内の直線は魚眼画像平面上に曲線として投影され、平行線の集合は2つの消失点に収束する曲線の集合として投影されます[38]。ただし、歪みは唯一の影響ではありません。図 8 は、サラウンドビューシステムのミラーに取り付けられた一般的なカメラからの画像を示しています。魚眼カメラでは、画像内のオブジェクトの向きは画像内の位置によって決まります。この例では、左側の車両は右側の車両と比較してほぼ 90 度回転しており、これはオブジェクト検出の畳み込み法で想定される並進不変性に影響を与えます。標準的なカメラでは、並進不変性は許容可能な仮定です。ただし、図 8 に示すように、これは魚眼画像には当てはまらないため、コンピュータービジョンアルゴリズムの設計ではこれをどのように処理するかを慎重に検討する必要があります。

これらの問題に対処する自然な方法は、何らかの方法で画像を修正することです。単一の平面画像の補正は、まず視野の大部分が必然的に失われ、魚眼画像の利点が打ち消され、次に補間と遠近法のアーティファクトがすぐに補正された出力を支配するため、すぐに中止できます。一般的なアプローチは、魚眼画像のさまざまな部分をさまざまな平面画像に歪ませるマルチプレーン補正を使用することです。たとえば、立方体を定義し、その立方体の表面に画像をワープすることができます。図 9 は、このような 2 つの表面の反りを示しています。ここでも、補間と遠近法の効果が目に見えて現れ、表面遷移の複雑さに対処する必要があります。

別の補正方法は、図 10 に示すように、円筒軸が地面に対して垂直になるように構成された円筒面の歪みを考慮することです。観察してみると、車のシーンにおける関心のあるオブジェクトのほとんどが、ほぼ水平な面、つまり路面上に位置していることがわかります。したがって、水平視野を維持しながら垂直視野をある程度犠牲にすることが望ましく、これにより興味深い幾何学的組み合わせが生まれます。

垂直線は線形遠近法によって投影されるため、シーン内の垂直線は画像内でも垂直線として投影されます。画像内の遠くにある物体や小さい物体は、透視カメラの物体と視覚的に似ており、この変形により、標準的な透視カメラを使用してネットワークをトレーニングし、トレーニングなしで魚眼画像に直接使用することも可能であると示唆されています[39]。ただし、水平方向では、新しい画像に歪みがあり、大きなクローズアップオブジェクトでは大きな歪みが見られ、元の魚眼画像よりもさらに大きな歪みが見られる場合もあります。

図 11 に示すように、透視カメラを扱う場合、オブジェクトがカメラから一定の Z 距離、つまり画像平面と平行な平面で移動すると、平行移動が発生します。ただし、円筒形の画像では、画像の移動を可能にするために、水平面内の距離を一定に保つ必要があります (オブジェクトを円筒軸を中心に回転させる必要がある)。対照的に、元の魚眼画像では、どのような物体の動きが画像の移動を引き起こしたのかは不明です。

WoodScapeデータセット

WoodScape パノラマデータセットは、米国とヨーロッパの 2 つの異なる地理的場所で収集されました。データのほとんどはセダンから取得されましたが、大部分はスポーツ用多目的車から取得され、センサーの機械構成の強力な組み合わせが確保され、運転シナリオは高速道路、市街地走行、駐車の使用例に分けられました。データセットは、関連する車両の機械データ (ホイールの円周、ホイールベースなど) を含む、すべてのセンサーの内部および外部のキャリブレーションと、データ同期用のタイムスタンプ付きファイルを提供します。このデータセットに記録されたセンサーは次のとおりです。

1) 4x 1MPx RGB魚眼カメラ（190◦水平視野）2) 1x LiDAR、20Hz回転（Velodyne HDL-64E）3) 1x GNSS/IMU（NovAtel Propak6およびSPAN-IGM-A1）4) 1x GNSS測位、SPS（Garmin 18x）5) 車両バスからの走行距離計信号

システムアーキテクチャの考慮事項

自動運転のコンピュータービジョン設計、特にパイプライン設計における重要な考慮事項は、複数のカメラと複数のコンピュータービジョンアルゴリズムを並行して実行する必要がある組み込みシステムの制約です。コンピュータビジョンアルゴリズムは計算負荷が高いため、車載用 SoC には、画像信号処理、レンズ歪み補正、高密度オプティカルフロー、ステレオ視差などの専用ハードウェアアクセラレータが多数搭載されています。コンピュータービジョンでは、ディープラーニングがさまざまな認識タスクで主導的な役割を果たしており、深度や動きの推定などの幾何学的なタスクにも徐々に使用されるようになっています。

処理ハードウェアのパフォーマンスを最大限に高めるには、組み込みビジョンを処理ステージの観点から考え、図 12 に示すようなパイプラインを使用して、各処理ステージで共有処理を検討するのが最適です。

1) 前処理: パイプラインの前処理段階は、コンピュータービジョン用のデータを準備するプロセスと見なすことができます。これには、ホワイトバランス、ノイズ除去、色補正、色空間変換などの画像信号処理 (ISP) 手順が含まれます。 ISPと自動車分野のコンピュータビジョンタスクへの適応に関する詳細な議論については[52]を参照してください。 ISP は通常、メイン SoC の一部などのハードウェアエンジンによって実行されます。ピクセルレベルの処理量が多いため、ソフトウェアで実行されることはほとんどありません。コンピュータビジョンアルゴリズムのパフォーマンスを最適化するためにISPパイプラインのハイパーパラメータを自動的に調整する方法がいくつか提案されている[52]、[53]。 ISP視覚認識パイプラインを簡素化する方法が現在提案されていることは注目に値する（[54]を参照）。

2) ピクセル処理段階: ピクセル処理は、画像に直接接触するコンピュータービジョンアーキテクチャの一部と考えることができます。従来のコンピュータービジョンでは、これらのアルゴリズムには、エッジ検出、特徴検出、記述子、形態学的演算、画像登録、ステレオ視差などが含まれます。ニューラルネットワークでは、これは CNN エンコーダーの初期レイヤーに相当します。この処理段階では、数百万のピクセルを毎秒何度も実行する必要がある比較的単純なアルゴリズムが中心となります。つまり、計算コストは、アルゴリズム自体の複雑さではなく、これらのアルゴリズムが 1 秒間に数百万回実行される可能性があるという事実に関係しています。この段階での処理ハードウェアは、通常、ハードウェアアクセラレータと GPU が主流ですが、一部の要素は DSP に適している場合もあります。

3) 中間処理段階: 名前が示すように、中間処理段階はピクセルからオブジェクト検出段階への橋渡しとなります。ここで処理されるデータの量はまだ多いですが、ピクセル処理段階に比べると大幅に少なくなります。これには、視覚オドメトリによる車両の動きの推定、視差マップのステレオ三角測量、パイプラインのこの段階での CNN デコーダーを含むシーンの一般的な特徴の再構築などの手順が含まれる場合があります。この段階での処理ハードウェアは通常、デジタル信号プロセッサです。

4) オブジェクト処理ステージ: オブジェクト処理ステージでは、より高レベルの推論が統合され、ポイントクラウドをクラスタ化してオブジェクトを作成したり、オブジェクトを分類したり、上記の推論を使用して、移動するオブジェクトの再スケーリングを抑制するアルゴリズムを適用したりできます。この段階での処理は主により複雑なアルゴリズムによって制御されますが、処理されるデータポイントは少なくなります。ハードウェアに関しては、デジタル信号プロセッサもよく使用されますが、通常は ARM などの汎用処理装置でこれらのプロセッサを実行するのが適切です。

5) 後処理: 最終的な後処理段階は、グローバル処理段階とも呼ばれます。時間と空間内でデータを永続化します。長い持続性と大きな空間マップを持つことができるため、最初の数段階の全体的な目標は、最終的に車両制御に使用されるすべての関連情報を維持しながら、この段階に到達するデータの量を最小限に抑えることです。このフェーズでは、バンドル調整、マップ構築、高度なターゲット追跡と予測、さまざまなコンピュータービジョン入力の融合などの手順が実行されます。システム内で最高レベルの推論を扱い、理想的には最小限のデータポイントを処理するため、ここでは汎用処理ユニットが必要になることがよくあります。

4Rコンポーネントの紹介

識別

認識タスクは、パターン認識を通じてシーンの意味を識別します。自動車分野で最初に成功したアプリケーションは、方向勾配のヒストグラムなどの手作りの特徴とサポートベクターマシンなどの機械学習分類器を組み合わせた歩行者検出でした。最近、CNN はオブジェクト認識アプリケーションのさまざまなコンピュータービジョンタスクで大幅なパフォーマンスの向上を示しましたが、これにはコストがかかります。まず、自動車のシナリオは非常に多様であり、システムはさまざまな国やさまざまな天候や照明条件下で動作することが予想されるため、さまざまな側面をカバーする有効なデータセットを構築することが主な課題の 1 つです。第二に、CNN は計算集約型であり、通常は専用のハードウェアアクセラレータまたは GPU が必要です (汎用コンピューティングコアで実行可能な従来の機械学習方法と比較して)。したがって、効果的な設計手法は、あらゆる設計にとって重要です。最後に、前述のように、通常の画像に対する CNN は十分に研究されていますが、魚眼画像では変換不変性の仮定が破られ、さらなる課題が生じます。

この論文の認識パイプラインでは、外観パターンに基づいてオブジェクトを認識するためのマルチタスク深層学習ネットワークが提案されています。これは、物体検出 (歩行者、車両、自転車)、セマンティックセグメンテーション (道路、縁石、路面標示)、レンズ汚染検出 (不透明、半透明、透明、透明) の 3 つのタスクで構成されています。オブジェクト検出とセマンティックセグメンテーションは標準的なタスクです。実装の詳細については、FisheyeMultiNet の論文を参照してください。課題の 1 つは、1 つのタスクが他のタスクよりも早く収束する可能性があるため、トレーニングフェーズ中に 3 つのタスクの重みをバランスさせることです。

魚眼カメラは車両の比較的低い位置（地上約 0.5 ～ 1.2 メートル）に取り付けられているため、他の車両からの飛沫や道路の水によるレンズの汚染の影響を受けやすくなります。したがって、カメラレンズの汚れを検出して、ドライバーにカメラのクリーニングを通知したり、クリーニングシステムを起動したりすることが重要です。汚れ検出タスクと、そのクリーニングおよびアルゴリズムの劣化での使用については、SoilingNet で詳しく説明されています。密接に関連するタスクは、汚染された領域をパッチで修復する除染ですが、これらの除染技術は現在、知覚ではなく視覚化の改善の分野にとどまっています。これは、オクルージョンの背後に何があるのかを予測することが不可能であるため、明確に定義されていない問題です (ただし、時間情報を利用することで改善できます)。低電力自動車 ECU の CNN 処理能力には限界があるため、この論文では、図 13 に示すように、計算の大部分がエンコーダー内で共有されるマルチタスクアーキテクチャを使用します。

再建

前述したように、再構築とはビデオシーケンスからシーンのジオメトリを推測することを意味します。たとえば、これは多くの場合、シーンのポイントクラウドまたはボクセル化された表現を推定することを意味します。静的オブジェクトの再構成は、従来、モーションステレオ[56]やマルチビュージオメトリにおける三角測量[73]などの方法を使用して行われてきました。深度推定アルゴリズムの設計の文脈では、人間がどのように深度を推測するかについての簡単な概要が[74]で示されており、さらに有用な参考文献も提供されています。奥行きを推測するための基本的な方法は、単眼視覚手がかり、運動視差、立体視、焦点深度の 4 つです。それぞれのアプローチはコンピュータビジョンにおいても同等のアプローチがあり、Marr & Poggio[75]とGrimsonによる初期の理論的研究は1980年代初頭にステレオビジョンの計算実装を提供し[76]、それ以来ステレオビジョンの研究が続いています。しかし、立体視システムは車両にはあまり導入されていないため、自動車の研究では単眼運動視差法が依然として人気があります。計算的には、モーション視差からの奥行きは伝統的に特徴三角測量[78]によって実現されていますが、モーションステレオも人気があることが証明されています[79]。

魚眼画像を考慮すると再構成タスクの複雑さが増し、マルチビュージオメトリ、ステレオビジョン、深度推定のほとんどの作業では通常、シーンの平面透視画像が想定されます。従来のステレオ方式では、画像内のエピポーラ線が水平になるようにさらに制限されますが、実際のカメラではレンズの歪みにより平面投影モデルが破壊されるため、これが当てはまることはほとんどありません。これは通常、画像の調整と補正によって解決されます。ただし、レンズの歪みが非常に大きい魚眼画像の場合、補正プロセス中に広い視野を維持することは現実的ではありません。この分野ではいくつかの魚眼ステレオ深度推定法が提案されているが、一般的なアプローチは、魚眼画像を複数の透視平面にマッピングするマルチプレーン補正である[82]。ただし、前述したように、平面補正 (複数の平面を使用する場合でも) では、深刻な再サンプリング歪みが発生します。この再サンプリングを最小限に抑えるために、非平面画像の歪みを補正する方法が提案されており、その中にはエピポーラ線を直線かつ水平に保つというステレオ要件を維持するためにさまざまな画像形状を歪める方法もある[83]。エピポーラレベルの要件を回避する方法もいくつかあり、例えば、平面スキャン法[84]、[85]を魚眼レンズ[86]に応用した最近の方法などがある。魚眼画像の再サンプリングに関連する問題は、ノイズ関数が再サンプリングプロセスによって歪むことです。これは、再投影エラーを最小限に抑えようとするあらゆる方法で問題となります。 Kukelovaら[73]は、標準的な視野角のカメラに対して、歪みを回避しながら再投影誤差を最小限に抑える反復技術を使用してこの問題に対処しました。ただし、このアプローチは特定のカメラモデルに依存するため、魚眼カメラには直接適用できません。

再構築の 2 番目の側面は、ビデオシーケンスから移動するオブジェクトを抽出することです (モーションセグメンテーション)。三角測量の仮定が破られているため、動的オブジェクトの 3D 再構築は全体的な意味で不正確な位置につながります。移動する物体の形状を再構築する典型的な試みには、画像の動きのセグメンテーション、相対的な基本行列の推定、および再構築（スケール/投影の曖昧さを含む）が必要です。例えば、Multi-X [88]を使用すると、セグメンテーションは基本行列推定に基づいて実行できるため、最初の2つのステップを本質的に組み合わせることができます。ただし、このアプローチは計算コストが高すぎるか、組み込みの自動運転アプリケーションには十分な堅牢性がありません。さらに、この再構築ではスケールを考慮する必要があり、変形可能なオブジェクト (歩行者など) では体のさまざまな部分に異なる基本マトリックスが使用される場合があります。したがって、動的オブジェクト検出のタスクは通常、単純なモーションセグメンテーションになります。

Klappsteinら[89]は自動車の文脈における動きのセグメンテーションに対する幾何学的アプローチを説明し、MariottiとHughes[90]はこの研究をサラウンドビューカメラの筐体に拡張した。ただし、どちらの場合も、ジオメトリはすべての種類の移動フィーチャを完全に区別するわけではありません。つまり、コンテキストの特徴を静的な特徴と区別できないオブジェクトの動きのクラスがあり、そのためグローバルまたはセミグローバルなアプローチを採用する必要があります。従来の方法では、これは、動いていると分類されるものと同様の特性を持つオプティカルフローベクトルをグループ化することによって実現されます。

通常、モーションセグメンテーションへの重要な入力は、カメラの動きに関する知識です。つまり、カメラの基本マトリックス（または、キャリブレーションされていない場合は必須マトリックス）がわかっている必要があります。これは[89]と[90]で想定されており、2つの方法で実現できます。まず、車両の動き、ひいてはカメラの動きは、ステアリング角度や車輪速度などの車両ネットワーク上の信号を使用して直接推定できます。あるいは、視覚的な方法を使用して、画像シーケンスから直接動きを推定することもできます。カメラの動きを明示的に推定する以外に、画像内の背景の動きをモデル化するというアプローチもあります。背景の動きのアフィンモデルの使用を提案する人もいますが、これは背景が遠くにあるかほぼ平面であり、放射状の変形は存在しないか無視できる程度であると想定しています。図 14 は、高密度モーションステレオ、3D ポイントクラウドと静的障害物のクラスタリング、高密度オプティカルフローに基づくモーションセグメンテーションなど、さまざまな再構築段階の例を示しています。魚眼画像の使用は確かに設計上の決定に影響を与えますが、理論的な観点からは、これはまだ完全に解決されていない問題です。

移転

視覚同時位置推定およびマッピング (VSLAM) は、ロボット工学と自動運転の分野における研究のホットスポットです。主なアプローチには、(1)特徴ベース方式、(2)直接SLAM方式、(3)CNN方式の3つがあります。特徴ベースの方法では、追跡と深度推定に画像の特徴的な記述を利用し、スパースマップを生成します。 MonoSLAM、Parallel Tracking and Mapping (PTAM)、ORBSLAM は、このカテゴリにおける先駆的なアルゴリズムです。 Direct SLAM メソッドは、スパースな特徴ではなく画像全体に作用し、高密度のマップを構築するのに役立ちます。高密度追跡およびマッピング (DTAM) と大規模半高密度 SLAM (LSD-SLAM) は、測光誤差の最小化に基づく直接的な方法として一般的に使用されています。 Visual SLAM問題の場合、CNNベースの手法はまだ比較的未熟であり、[101]で詳細に議論されている。

マッピングは自動運転の重要な柱の 1 つであり、最初に成功した自動運転のデモンストレーションの多く (Google のものなど) は、主に事前にマッピングされたエリアでの位置特定に依存していました。 TomTom RoadDNA などの HD マップは、ヨーロッパのほとんどの都市に対して、通常 10 cm の測位精度で、高密度のセマンティック 3D ポイントクラウドマップと測位サービスを提供します。正確な位置特定が可能な場合、強力なセマンティックセグメンテーションの事前条件が利用可能であり、オンラインセグメンテーションアルゴリズムによって改良できるため、HD マップを主な手がかりとして考えることができます。ただし、このサービスは世界中で定期的なメンテナンスとアップグレードが必要となるため、費用が高くなります。

自動運転ビジョンのコンテキストでは、ビジュアル SLAM (VSLAM) では、車両の周囲をマッピングし、同時にマップ内で車両の現在の姿勢を推定します。 VSLAM の主要なタスクの 1 つは、以前に記録された軌跡に基づいて車両の位置を特定することです。図 15 は、従来の特徴ベースの再ローカリゼーションパイプラインを示しています。特徴ベースの SLAM では、最初のステップは顕著な特徴を抽出することです。画像内の顕著な特徴としては、エッジ、コーナー、スポットなど、特定の方法で強度が変化するピクセルの領域が挙げられます。世界中のランドマークを推定するには、同じ特徴の 2 つ以上のビューを一致させることができる追跡を実行する必要があります。車両が十分遠くまで移動すると、VSLAM は別の画像を撮影し、特徴を抽出します。対応する特徴を再構築して、現実世界での座標と姿勢を取得します。検出され、記述され、位置が特定されたランドマークは、車両の軌跡の相対的な位置を記述するために永続メモリに保存されます。車両が同じ大まかな位置に戻ると、リアルタイムの特徴検出が保存されたランドマークと照合され、保存された軌跡に対する車両の姿勢が復元されます。

再編

再編成は、1) 融合認識と再構築、2) カメラを介した世界座標系でのオブジェクトマッピング、3) 時空間オブジェクト追跡という 3 つの機能を実行します。認識モジュールと再結合モジュールは環境マップに直接取り込むことができますが、視覚レベルで何らかの融合を実現することには明らかな利点があると考えています。図 16 に示す例でこれを考えてみましょう。単眼深度推定、モーションセグメンテーション、車両検出を備えたシステムを考えてみましょう。この情報を融合する従来のアプローチは、すべてのデータを世界座標系に変換し、データを相関させて融合することであり、これには利点があります。 LiDAR などの一部の自動車用センサーはネイティブのユークリッドデータを提供しており、このユークリッドマップに基づく融合システムにより、これらの追加センサーを簡単に組み込むことができます。ただし、カメラベースの検出の精度は、ユークリッドグラフに変換すると常に低下します。画像領域から世界領域への投影は、不十分なキャリブレーション、平面地球の仮定、検出のばらつき、ピクセル密度、不完全なカメラモデルなどの問題により、エラーが発生しやすいことで有名です。対象地点でターゲットが実際に地面に接触しない場合は、世界座標系に投影された地球平面説に大きな誤差が生じます。

ただし、世界に投影される前の画像領域での検出は、このようなエラーの影響を受けないため、画像領域でのさまざまな視覚アルゴリズム間の検出の相関関係はより堅牢であり、実際、単純な検出重複測定は堅牢であることが証明されることがよくあります。図 18 は、CNN ベースの車両検出とオプティカルフローベースのモーションセグメンテーションの画像ベースフュージョンの実装を示しています。モーションセグメンテーションには大きなエラーがありますが、フュージョンにより、検出されたオブジェクトが車両とダイナミクスの 2 つのカテゴリに分類されています。これに加えて、歪み補正が測定ノイズにどのように影響するかを考慮する必要があります。カルマンフィルタリングや粒子フィルタリングなど、一般的に使用される多くの融合および追跡アルゴリズムは、平均帰無仮説 (ガウスノイズ) から始まります。これは一般に、コンピュータービジョンにおける関心点の測定 (画像の特徴や境界ボックスのフットプリントの推定など) では有効な仮定であると考えられています。ただし、魚眼レンズ歪みとグラウンドプレーン投影プロセスにより、このノイズモデルは歪みます (図 19)。さらに、測定ノイズによる歪みは画像内の対象点の位置と路面に対するカメラの位置に依存するため、この問題への対処はさらに複雑になります。

システム同期

このセクションでは、再位置特定、再構築、識別の各タスクがどのように相互にサポートされるかに焦点を当ててシステムの相乗効果について説明し、安全性が重要なアプリケーションで冗長性を提供するためのデュアル検出ソースの重要性について説明します。

識別と復元

前述したように、深度推定はジオメトリを認識するアプリケーションでは非常に重要です。上で議論したことに加えて、現在の最先端技術はニューラルネットワークベースの方法[115]、[116]であり、これは再投影損失[117]を介して自己教師あり方式で学習することができる。研究によると、単眼深度推定における最近の単一フレームの試みは、通常、認識タスクを開始し、次に画像内の垂直位置などの手がかりを使用して深度を推測することが示されています。移動物体の検出も、認識に大きく依存しているようです。 [48]と[58]の両方が、通常移動する静的オブジェクトに誤検知を示していることがわかります（例えば、歩行者、図20を参照）が、これはこの試みの重要性を減らしません。むしろ、それは識別と再構築の間の非常に深いつながりを指しており、そこから一方が他方から推測することができます。

セマンティックおよびインスタンスセグメンテーションの前に、歩行者の検出が最先端にあるとき、ほとんどの自動車の歩行者検出研究者は、境界ボックスの高さまたは画像内の歩行者の垂直位置に基づいて深さをコードすることを検討しました。 [81]これについて詳しく説明します。ただし、特にニューラルネットワークの精度が向上するにつれて、深いニューラルネットワークベースの認識がオブジェクトの深さを生み出すことができることはやや直感的です。最近の研究は、共同学習セマンティックラベルと深さの有効性を実証しています[119]。たとえば、[120]で、単眼深度推定のために、各範囲デコーダー層にセマンティックガイダンスを追加することで（図21を参照）、オブジェクトエッジでのパフォーマンスを改善し、動的オブジェクトの合理的な距離推定値を返すことさえできます。

移転と識別

再局在化は、前述のように、車両が以前に学習した位置または経路を認識するプロセスです。しかし、現実世界の自律的な運転ビジョンでは、多くのことがこれを妨げる可能性があります。たとえば、シーンが学習されるまでに移動する可能性のある駐車可能な車両など、移動可能なオブジェクトのためにシーンが変更される場合があります。この場合、セマンティックセグメンテーション方法を使用して、移動している可能性のあるオブジェクト（車両、自転車、歩行者）を識別し、そのようなオブジェクトに関連付けられたマッピングされた機能を削除できます。 [101]で詳細に説明されているように、従来のビジュアルスラムパイプラインをサポートするために深い学習技術を活用するさらなる機会があります（図22）。

Visual Slamの場所には、いくつかのアプリケーションがあります。第一に、ループクロージャーが蓄積されたドリフトを修正できるようにし、次に、同じシーンの複数のプロセスからマップを作成および維持することができます。ワードの袋（[128]など）を使用した古典的なアプローチは、非常に成功していることが証明されていますが、堅牢性が欠けている可能性があります。 CNNベースの方法はより堅牢であることが示されており、外観不変の方法は有望な初期結果を示しています[129]。場所の識別は、重要な時間が経過したときに重要なトピックです。表IIIは、視覚的なスラムパイプラインの結果の小さなセットを示しており、トレーニングと再局在化の間の6か月の時間ギャップとともにエラーが大幅に増加することを示しています。最後に、ビュー不変のポジショニングを考慮することができます。これは、再局在化されたカメラの視点がトレーニングカメラの視点とは大きく異なる場合に重要です。たとえば、トレーニングの軌跡に大きな角度に近づいているために車両が回転し、機能記述子に基づく従来の視覚的なスラムメソッドが失敗する場合に重要です。調査によると、セマンティックラベルをシーンランドマークに（境界ボックス分類を介して）添付すると、視点の不変性のパフォーマンスが大幅に向上することが示されています。

移転と再構築

再局在化と視覚的なスラムは、一般に、シーンの再構成のストレージ（つまり、マップの構築）、およびバンドル調整による上記のマップの反復改良として見ることができます（図15を参照）。このようにして、再構築と視覚臭トメトリは、従来の視覚的なスラム法の種になります。 LSD-SLAM（およびその全方向性カメラ拡張[100]）など、このシードアプローチを回避するためのいくつかの簡単なアプローチがあります。このアプローチでは、再注入誤差に関して測光誤差が最小限に抑えられます。ただし、マップの時間スライスを調整するバンドル調整を検討すると、視覚的なスラムを使用して再構成（シーン構造と視覚臭トメトリ）を最適化できることも確認できます。さらに、ターゲットを移動すると、視覚的なスラムパイプラインで大きなパフォーマンス劣化を引き起こす可能性があります。したがって、動的オブジェクトの検出（例：[90]、[48]、[58]）を視覚的なスラムパイプラインへの入力として使用して、移動するオブジェクトによって引き起こされる外れ値を抑制できます。

冗長性について話し合います

別の包括的なコラボレーションの考慮事項があります：冗長性。自動車両では、冗長性がアプリケーションの安全性に重要な役割を果たします。システムコンポーネントが故障した場合、車両が安全な状態のままであることを確認するために、別のコンポーネントを使用できる必要があります。たとえば、FuseModnetは、密な情報を提供するカメラの相乗的な融合と、低光でうまく機能するLidarを示しています。センシング側では、これは多くの場合、コンピュータービジョンシステム、レーダー、Lidarなどの複数のセンサータイプを使用することで実現されます。近いフィールドセンシングの場合、超音波センサーアレイは、車両の周りで強力な安全性を提供できる成熟した低コストセンサーです。

この論文は、さまざまなタイプのコンピュータービジョンアルゴリズムを並行して使用することで、より大きなセキュリティを達成できると主張しています。つまり、コンピュータービジョンシステムアーキテクチャは、冗長性を最大化するように構成できます。データソースは完全に異なるタイプの処理であるため、これは特に当てはまります。たとえば、認識パイプラインおよび再建パイプラインの幾何学的パイプラインの統計処理。さらに、この処理は通常、SOC内の異なるシリコンコンポーネントで実行されます。ただし、他の相乗効果を最大化すると、冗長性の可能性が低下することを認識することが重要です。たとえば、視覚的なスラムアルゴリズムのシードとしてCNNベースの深さを使用する場合、視覚的なスラムがCNN処理に依存しているため、視覚スラムのCNNを冗長と宣言することはできません。また、両方の処理要素が同じビデオフィードを使用している可能性があるため、カメラ自体と関連するハードウェア/ソフトウェアのセキュリティも制限要因になる可能性があることに注意することも重要です。

オリジナルリンク：https：//mp.weixin.qq.com/s/gbqnkbleclgkvmmp1wjla

>>: Amazon AWSが新しいAIチップをリリース、Nvidia H200も提供