自動運転の認識、予測、計画技術の分析

自動運転 (AD) とインテリジェント車両 (IV) への関心が高まっているのは、安全性、効率性、経済的利益の向上が期待できるためです。これまでの調査ではこの分野の進歩が反映されていますが、包括的かつ将来を見据えた概要が必要です。著者らは 3 つの異なる論文を通じてこのギャップを埋めています。

最初のセクション「レビューの概要」(SoS) では、AD および IV テクノロジーの歴史、レビュー、倫理、将来の方向性について概要を説明します。

パート II「自動運転とインテリジェント車両のマイルストーンパート I: 制御、コンピューティングシステム設計、通信、HD マップ、テスト、および人間の行動」では、パート IV における制御、コンピューティングシステム、通信、HD マップ、テスト、および人間の行動の発展について詳しく説明します。

セクション 3 では、インテリジェント車両の認識と計画について説明します。自動運転車とスマートカーの最近の進歩に関する包括的な概要を提供するこの研究は、初心者と経験豊富な研究者の両方を対象としています。 SOS とパート I を統合することで、独自の洞察を提供し、このダイナミックな分野における過去の成果と将来の可能性をつなぐ架け橋となることを目指しています。

1 はじめに

自動運転（AD）とインテリジェント車両（IV）は、そのさまざまな潜在的な利点により、最近、学界と産業界の両方から大きな注目を集めています。 AD調査やIVS調査は、研究成果の収集、技術開発全体の総括、将来動向の予測、今後の研究の方向性の体系的な総括に重要な役割を果たします。

著者らは、AD のさまざまなタスクに応じて、それを知覚、計画、制御、システム設計、通信、高精度マップ、テスト、IV における人間の行動の 8 つのサブパートに分割しています (下の図 1 を参照)。

最初の部分では、著者は各タスクの機能と AD の知能レベルについて簡単に紹介します。ここで著者らは、都市道路、公園物流、倉庫、港、スマート鉱山、農業、野生動物救助、トンネル探索など、さまざまな AD シナリオにおける従来のアプリケーションについて説明します。自家用車、ADタクシー、バスなど、都市部の道路でADを市民が実現することが一般的になっています。一部のシナリオおよびポートの IV では、コントローラーが特定のルールに従って高い効率を実現する必要があります。倉庫や鉱山は、屋内および屋外の環境における典型的な密閉されたシーンです。改良された IV、いわゆるプロフェッショナルインテリジェントロボットは、農作業、野生動物の救助、トンネルの捜索などの現場で人間の代わりとして使用することができます。実際、AD と IV はさまざまなシナリオで複数のタスクを実行し、日常生活で重要な役割を果たすことができます。

この記事では、2 つのサブセクションを独立した章として扱い、それぞれにタスクの定義、機能分割、イノベーション、AD と IV のマイルストーンの詳細な紹介が含まれています。知覚、計画、制御の関係は、下の図 2 に示されています。

最も重要なことは、それらに関する研究がここ 10 年で急速に発展し、現在はボトルネックの時期に入っているということです。この記事が初心者向けの包括的な概要となり、研究者が画期的な成果を達成するための斬新で多様な洞察をもたらすことを願っています。

この論文の3つの貢献:

AD と IV の主要な技術開発を理解するための、より体系的、包括的、かつ斬新な調査を提供します。
各技術セクションでは、多くの展開の詳細、テスト方法、独自の洞察が紹介されています。
AD と IV は、過去と未来をつなぐ架け橋となることを目指して体系的に研究されてきました。

2 知覚

知覚は AD の基本モジュールです。このモジュールは、車両に周囲の環境情報を提供します。下の図 3 に示すように、知覚は、位置決め、ターゲット検出、シーン理解、ターゲット予測、追跡に分かれています。

位置

ポジショニングとは、走行プラットフォームが自らの位置と姿勢を得ることを可能にする技術です。これは計画と管理のための重要な前提条件です[3]。現在、測位戦略は、全地球航法システム (GNSS) と慣性計測装置 (IMU)、視覚リアルタイム測位およびマッピング (SLAM)、LIDAR SLAM、および融合ベースの SLAM の 4 つのカテゴリに分類されています。

1) GNSSとIMU

GNSS は、地球表面の 3D 座標、速度、時間情報をユーザーに提供する宇宙ベースの無線ナビゲーションおよび測位システムです。 IMU は通常、3 軸加速度計とジャイロスコープ (9 自由度の従来の 3 軸磁力計) で構成されます。 GNSSからの低頻度の測位情報をIMUからの動的なステータスで更新することで、プラットフォームは高い更新頻度で測位情報を取得できます。 GNSS と IMU 方式の融合は全天候型ですが、信号は都市の建物によって干渉を受ける可能性があります。

2) ビジュアルSLAM

Visual SLAM は、カメラフレームの変化を利用して車両の動きを推定します。このようなアルゴリズムは、センサーに応じて単眼、マルチビュー、深度の 3 つのカテゴリに分類されます。具体的には、ビジュアル SLAM アルゴリズムでは入力として画像のみが必要なため、位置特定システムのコストは比較的低くなります。ただし、豊富な機能とわずかな照明の変化に依存しています。さらに、最適化は視覚的位置特定システムの重要なモジュールであり、グローバル情報を考慮した後、各フレームの推定値を更新します。最適化方法には、フィルターベースとグラフベースがあります。

特徴抽出の観点から見ると、ビジュアル SLAM にはキーポイント方式とオプティカルフロー方式という 2 つの典型的なカテゴリがあります。キーポイント法は、SIFT、SURF、ORB、記述子などのポイント抽出法を利用して、異なる画像上の同じ特徴を検出し、フレーム間の相対的な動きを計算します。ポイント抽出法はキーポイントを安定的かつ正確に抽出できるため、キーポイントビジュアルSLAMシステムは構造化された道路や市街地で大きな利点を提供できます。ただし、このシステムは、構造化されていない道路や平らな白い壁に直面している場合には動作が困難になる可能性があります。

さらに、初期のアルゴリズムはリアルタイムで実行できず、画像内のピクセル情報の多くが無視されていました。オプティカルフロー法では、フレーム間で測光値が不変であると想定し、画像上の測光誤差を最小限に抑えることでカメラの動きを推定しようとします。このアプローチには次の利点があります。

計算オーバーヘッドが低く、リアルタイムのパフォーマンスが高い。
重要なポイントへの依存度が弱い。
フレーム内のピクセル全体を考慮します。

ただし、測光仮定のため、オプティカルフロー法は 2 つの画像間の測光変化の影響を受けやすくなります。最適化の観点から見ると、ビジュアル SLAM システムはフィルターベースの戦略と最適化ベースの戦略に分けられますが、グラフベースの最適化手法は精度と効率の面でいくつかの進歩を達成しています。そのため、研究者たちは今後も後者の点に焦点を当て続けることになる。

3) ライダースラム

LiDAR SLAM システムは、視覚的な SLAM 方式と比較して、LiDAR の特性により、正確な 3D 情報で周囲の環境を積極的に検出できます。ビジョンシステムと同様に、LiDAR SLAM も、Gmapping、Cartography、Karto などの 2D 方式と、Gmapping や最適化プロセスに基づく最適化などのセンサーまたはフィルターベースの 3D 方式に分類できます。 Gmapping は粒子フィルタリング方式を採用し、位置決めプロセスとマッピングプロセスを分離します。

最適化プロセス中、各パーティクルはマップを維持する責任を負います。 LOAM は 2 つの並列アルゴリズムを実行します。1 つはポイントクラウドマッチングメソッドを使用して低周波数でフレーム間のモーション変換を計算し、もう 1 つは高周波数でマップを構築してオドメトリを修正しようとします。 Segmap はディープニューラルネットワークを使用して意味的特徴情報を抽出し、コンピューティングリソースの消費を削減し、屋内インテリジェントロボットや IV のデータ圧縮問題をリアルタイムで解決できます。 SUMA はポイントクラウドを 2D 空間に転送し、拡張 RGB-D SLAM 構造を採用してローカルマップを生成します。

さらに、サーフェルマップは、ポイントクラウドの反復的な最近点マッチング方法を通じて維持および更新されます。 LiDAR SLAM システムには、高精度、高密度マップ、明るさへの依存度が低いなどの利点があります。しかし、意味情報の欠如と環境干渉は、LiDAR SLAM システムが直面している 2 つの大きな課題です。さらに、研究者はIVに搭載されたライダーの保守と修理に多大な時間と労力を費やす必要があります。

4) 融合ベースのSLAM

単一センサーの故障や堅牢性の低さの問題を回避するために、研究者は、視覚慣性、ライダー慣性、視覚ライダー慣性、およびソナーやレーダーの追加、SLAM 方式などの他の融合を含む複数のモードデータを融合する方法を導入しました。著者らは、融合法では、より頻繁に更新される IMU データが SLAM システムに導入されることが多いことを発見しました。ルーズフュージョンメソッドでは、カメラまたは LiDAR からの外部観測データと IMU からの内部モーションデータを 2 つの独立したモジュールとして扱いますが、タイトフュージョンメソッドでは、複数のモードデータを解決してフュージョンするためのユニット最適化モジュールを設計します。

これまでのアプローチは、研究者がテストベッドや IV に展開しやすい拡張ビジョンまたは LiDAR SLAM システムとして考えることができます。ただし、堅牢性と適応性を向上させるために、バンドル調整の導入や視覚オドメトリシステムでの相関最適化の採用など、タイトフュージョン戦略によって適切なソリューションが提供されます。要約すると、融合ベースの SLAM アプローチは個々のセンサーのいくつかの問題を解決しますが、接続されたシステムには、キャリブレーション、同期、複雑な処理など、いくつかの課題が残ります。さまざまな位置決め方法の利点と欠点を以下の表 I に示します。

物体検出

オブジェクト検出の目的は、センサーの視野内の静的オブジェクトと動的オブジェクトを検出することです。いくつかの検出タスクの結果を以下の図 4 に示します。

車線検出

車線検出は、運転を支援するためにセンサーの視野内の車線を識別することです。一般的なプロセスは、画像の前処理、車線検出、追跡の 3 つの部分で構成されます。関心領域 (RoI) の抽出、逆透視マッピング、セグメンテーションなどの画像前処理の目的は、計算コストを削減し、ノイズを除去することです。車線検出・追跡方法は、コンピュータビジョン（CV）ベースの方法と学習ベースの方法に分けられる[34]。 CV ベースの車線検出方法は、主に計算コストが安く、複製が容易なため、現在広く使用されています。形態学的トップハット変換は、フィールド内の無関係なターゲットを除去するために使用されます。次に、ハフ変換を適用して画像のエッジピクセルを抽出し、直線を構築します。

しかし、曲線を検出するのが難しいという欠点があるため、多くの研究者がハフ変換に関するいくつかの効果的な方法を導入しています。その他の線推定方法には、複雑なシーンでのガウス混合モデル (GMM)、ランダムサンプルコンセンサス (RANSAC)、カルマンフィルターなどがあります。学習ベースの方法は、さまざまなシナリオに展開できますが、多数のパラメータを持つネットワークをトレーニングするには大量のデータが必要です。車線検出性能を向上させるために、新しい複数のサブヘッダー構造を設計する試みがなされています。著者らの知る限り、車線検出は車線維持や先行車追従のためにADASに統合されており、研究者らは3D車線[40]、閉鎖区域内の車線、非構造化道路に重点を置いている。

運転エリア検出

車線検出と比較して、運転エリア検出では障害物情報が追加され、障害物回避および経路計画タスクの基本情報を提供します。著者らはまた、このタスクを CV ベースのアプローチと学習ベースのアプローチに分類しています。路面が障害物によって遮られていない場合、走行エリア検出を車線検出に変換できます。それ以外の場合は、車線検出と 2D オブジェクト検出の組み合わせとして見ることができます。運転エリアの検出を独立したタスクとして考える場合、道路ピクセルを物体や非運転エリアと区別する必要があります。カラーヒストグラムは要件を満たすことができ、一部の研究者はパフォーマンスの低さの問題を解決するためにカラー[41]と効率[42]に関する手法を開発しました。領域成長法[43]はカラーヒストグラム法よりも堅牢です。

学習ベースの運転エリア検出方法は、画像セグメンテーションに似ています。機械学習アルゴリズムの場合、RGB カラー、ウォルシュ・アダマール、方向勾配ヒストグラム (HOG)、ローカルバイナリパターン (LBP)、ハール、LUV チャネルなどの特徴を、サポートベクターマシン (SVM)、条件付きランダムフィールド (CRF) などの特徴抽出器と分類ヘッドを通じて抽出し、最終結果を取得できます。ディープニューラルネットワークは特徴抽出器を置き換えることができ、大視野畳み込みカーネル[44]や多層接続[45]の使用などのいくつかの改良により、競争力のあるパフォーマンスを達成することができます。著者らは、学習ベースの運転エリア検出結果は通常、シーン理解タスクの一部門であることを発見し、研究者らは 2D-3D 変換、複雑な運転エリアなど、いくつかの課題に対処しようと試みてきました。

交通標識検出

交通標識には、道路状況、速度制限、運転行動の制限などの重要な交通情報が多数含まれています。著者らは、これを履歴書ベースのアプローチと学習ベースのアプローチに分類しています。 CV ベースの検出方法では、特定の地域 (特定の国または都市) の交通標識のおおよその色の構成条件は類似しています。比較的単純な元の画像では、色空間分布、セグメンテーションヘッド、SVM 分類器を採用して特定の色をしきい値処理することで、より良い結果が得られます。いくつかの研究では、通常の RGB モデル、動的カラーしきい値、確率モデル、エッジ情報などの追加のカラーチャネルを導入することによって手法が開発されました。

しかし、これらの方法では、照明、色あせ、遮蔽、悪天候などによって引き起こされる問題を解決することが困難です。一部の研究者は、三角形、円形の交通標識、またはエンコードされた勾配検出方法に対する一般的な変換を使用して、閉塞と接続性を処理しようとしました。形状ベースの検出方法は、色の変化によって生じる結果が不安定になるという問題を解決できますが、遮蔽や変形によって生じる問題を克服することはほとんどできません。機械学習に基づく交通標識認識アルゴリズムでは、通常、スライディングウィンドウアプローチを使用して、特定の交通標識画像を走査します。勾配方向変化ヒストグラム特徴が提案され、単一の分類器がエクストリーム学習マシンによってトレーニングされ、交通標識を検出します。

ディープラーニングアルゴリズムの研究が継続的に行われており、ディープラーニングアルゴリズムを使用して交通標識を検出する学者が増えています。読者は、この分類アプローチを、前処理と分類を含む特徴抽出を扱うものとして見ることができます。より深い情報を抽出するために、より深いエンコーダー、統合空間ピラミッドプーリング (SPP) レイヤー、カスケード RCNN ネットワーク、深さ方向に分離可能な畳み込み、およびクリッピング戦略が導入され、検出精度と高い推論速度の両方が実現されます。ディープラーニング方式は、ロゴの色や形状の変化に対する許容度は十分ですが、このタイプの方法では大量のデータと手動による注釈付けが必要になります。さらに、検出ネットワークは、信頼性の欠如の兆候がある明確な領域を識別し、長距離にわたって兆候を検出する能力を備えている必要があります。

視覚ベースの3Dオブジェクト検出

ビジョンベースの 3D オブジェクト検出とは、画像からフィールド内のすべてのオブジェクトの 3D 情報 (位置、サイズ、回転) を取得するプロセスを指します。著者はこれを単眼ベースの検出と両眼ベースの検出に分類しています。

単眼 3D オブジェクト検出: 近年、単眼 3D オブジェクト検出が広く開発され、その精度は継続的に向上しています。 [53]のような2D物体検出ネットワークから直接継承された分類法と回帰法は構造が単純だが、単一画像から3D属性を回復するという不適切問題のため、その性能は不十分である。この欠点を解決するための主な戦略は 2 つあります。

（１）３Ｄ候補と投影された２Ｄ候補との間の幾何学的接続が導入される。例えばGS3D[56]はオブジェクトを複数の部分に分離して、表面特性とインスタンスの関係を分析します。 Monopair と Monet3D は、オブジェクトとその最も近い 2 つの隣接オブジェクトとの関係を考慮します。

（２）３Ｄ境界候補の回帰に加えて、ネットワークはトレーニング段階でステレオビジョンまたはライダーデータからのローカルまたは完全な深度マップも考慮します。 CaDDN[57]は、深度推定と物体検出のタスクを組み合わせた、完全に微分可能なエンドツーエンドのアプローチを提供します。 DDMP3D は、コンテキストと深度推定ヘッドの両方の特徴表現を活用して、競争力のあるパフォーマンスを実現します。さらに、検出と追跡を関連付けることで 3D 結果を更新するために、連続したフレームが入力として導入されます。これらの方法は、精度の点で明確な利点はありませんが、広範な学術研究と低コストが魅力となっています。

ステレオ 3D オブジェクト検出: ステレオ 3D オブジェクト検出方法は、両眼視の視差分析からヒントを得ています。正確な深度値は、両眼の中心と対応するピクセルペア間の距離によって計算できます。 Disp-RCNN と OC Stereo は、ステレオカメラからの画像をペアにして正確な関連付けを誘導するためのセグメンテーションモジュールを追加します。 YOLOSTREO3D は、複雑な視差畳み込み演算に基づく多数のステレオ方式よりも優れたパフォーマンスを発揮し、トレーニングとテストの時間を大幅に短縮する軽量モデルを提供します。要約すると、両眼ベースのアプローチは単眼画像の不適切問題を回避でき、メーカーが IV に導入して維持するのは簡単ですが、ベースラインでの正確な測定、両眼マッチングの時間コスト、および画像の前処理の必要性が研究者に課題をもたらします。

LiDARに基づく3D物体検出

LiDAR ベースの 3D ターゲット検出方法は、LiDAR によってキャプチャされた点群データからターゲットの 3D 特性を識別します。著者らはこれをボクセル検出とポイント検出に分けます。

ボクセル単位のオブジェクト検出: ボクセル単位のオブジェクト検出方法は、鳥瞰図 (BEV) 画像内のポイントクラウドの特徴を表し、BEV 画像は手動で一連の一意のボクセルに分割されます。このタイプの検出ネットワークの構造設計は、入力側または出力側での検出タスクに適した PointNet や PointNet++ などのポイントクラウドセグメンテーションフレームワークから派生しており、全体的なアーキテクチャではパフォーマンスと効率のバランスを取る必要があります。従来の VoxelNet と PointPillar を例にとると、VoxelNet はポイントクラウドをマッピングした後にボクセルを正規化し、複数のボクセル特徴エンコーディング (VFE) レイヤーを使用して、空でない各ボクセルにローカル特徴抽出を適用します。ボクセルの特徴は、3D 畳み込み中間層 (受容野を拡大し、幾何学的空間表現を学習するため) を通じてさらに抽出され、最後に、位置回帰を備えた領域提案ネットワーク (RPN) を使用してオブジェクトを検出および分類します。

ポイントベースの物体検出：[68, 69]のようなポイントベースの物体検出は、ポイントクラウドを使用した屋内6D姿勢推定のための古典的なネットワークであるPointNetに触発されています。 Point-RCNN[68]は2段階の点群検出フレームワークであり、第1段階の意味的セグメンテーション分析と第2段階の位置補正で構成される。 VoteNet[70]は2D検出構造を3Dフレームワークに拡張し、ポイントクラウドの一般的な検出フレームワークを確立します。基本的には PointNet++ に準拠し、ポイントクラウド変換における情報損失を削減します。 VoteNet では、ハフ変換にヒントを得た新しい投票メカニズムも導入されており、他の 3D ネットワークとは異なり、表面上の点ではなくオブジェクトの中心を特定できます。点群検出では、破棄される点の数と距離によるモダリティの違いを十分に考慮する必要があることに注意する必要があります。

融合に基づく3Dオブジェクト検出

LiDAR、レーダー、カメラは、認識タスクのために IV に広く導入されており、これらのタイプのセンサーを組み合わせることで、車両を堅牢にし、常に物体を検出できるようになります。ただし、これは、融合ベースの方法が単一のセンサーを使用する方法よりも優れていることを意味するものではありません。融合ベースの方法の欠点は、主に 2 つの理由によるものです。

（１）ネットワークが様々なセンサーのモダリティギャップを埋めることは課題である。

（２）系統的誤差や測定誤差（校正や同期など）は除去が難しく、ネットワーク内で伝播し増幅します。

ほとんどの研究者はこれらの困難に対する解決策を提案し、競争力のある結果を達成しました。このセクションでは、センサーの種類に応じて、融合ベースのオブジェクト検出タスクを分類します。

カメラと LiDAR: カメラと LiDAR は AD の 2 つの重要なセンサーであり、研究者はまず、ポイントクラウドと画像情報を同時に抽出する融合並列方式に焦点を当てています。 MV3D[77]とAVOD[76]は、点群とそれに対応する画像上の共有3Dアンカーを活用します。 ContFuse[80]とMMF[81]は、連続した融合層を備えた密結合融合アプローチを採用しています。 3D-CVF は、画像とポイントクラウドを融合するためのクロスビュー空間特徴融合方式を導入します。さらに、EPNet[83]はポイントクラウドシステムに焦点を当てており、画像をポイントクラウドシステムに投影するために幾何学空間におけるポイントベースの戦略を採用しています。並列アプローチと比較すると、ギャップを減らすために連想構造を導入する必要がないため、順次アプローチは読みやすく、展開可能です。 F-PointNet[75]とF-ConvNet[74]は、2D候補内に3D境界ボックスを生成することで検索領域を縮小しようとします。 PointPainting[84]は意味情報を出力し、各点を対応する点に投影して3Dオブジェクトの検出精度を向上させます。 CLOCs[73]は独立した抽出器の後のデータを融合し、KITTIで競争力のある結果を達成します。 DVF[72]は2Dグラウンドトゥルースをガイドとして使用し、ポイントクラウドから3D属性を抽出します。

カメラとレーダー: レーダーからの画像とデータを組み合わせることで、コストを効果的に削減し、精度を維持できます。 [86]はレーダー検出結果を画像空間に投影し、それを利用して遠方の目標の検出精度を向上させた。 CRF Net[87]は垂直表現法を開発した。

LiDAR とレーダー: このタイプの融合は、極端な気象条件と明らかなターゲットに焦点を当てています。 RadarNet[88]は、新しい早期融合アプローチを介してレーダーデータとLIDARデータを融合します。注意ベースの融合を通じてレーダーのリモートセンシング範囲を活用します。 MVDNet[89]は2つのセンサーから提案を生成し、マルチモーダルセンサーストリーム間の領域特徴を融合して最終的な検出結果を改善します。 ST MVDNet[90]は、構造的な教師と生徒のネットワーク間の一貫性を利用するように出力を強制し、1つのタイプのデータが欠落しているときに欠落モードを導入することで、劣化の問題を解決します。

カメラ、LiDAR、レーダー: このタイプの融合では、研究者はさまざまな気象条件で堅牢な認識システムを設計しようとします。 [91]は、PointNet[64]アーキテクチャを使用して、画像を点群上に直接投影することで物体検出出力を得た。前のフレームと並行して、レーダーからのポイントクラウドが処理されて速度が予測され、最終的な検出出力に関連付けられます。 RVF-Net[92]は入力プロセスですべてのデータを融合し、nuScenes[93]データセットで満足のいく結果を達成します。

その他：超音波レーダーは、音が空気中を伝わるのにかかる時間から障害物までの距離を、5メートル以内のセンチメートルの精度で測定します。このセンサーは主に自動駐車のシナリオで使用されます。赤外線ライトを備えた赤外線カメラは、赤外線スペクトルの特性を捉えて、夜間視力撮影の効果を実現します。また、イベントカメラの研究も現在注目されているテーマの一つです。イベントカメラは、フレームプレーン内の個々のピクセルを処理するのではなく、パイプラインのタイムスタンプに基づいてデータを処理します。データは時系列であるため、従来のネットワーク構造では処理できないため、他のセンサーとどのように融合するかが今後の研究の焦点の 1 つになります。 KITTI[85]における様々なセンサータイプの組み合わせでの3D物体検出方法のパフォーマンスを表IIに示す。ここで、KITTIはフレームの複雑さによってデータ全体を3つの評価シナリオ（簡単、中程度、難しい）に分割し、これら3つのシナリオに対して2D-AP [94]の拡張である3D-APを計算します。

著者らは次のように結論づけている。

1) 融合戦略は、主に初期情報が多く導入されるため、3D オブジェクト検出タスクで競争力のある結果を達成できます。しかし、このアプローチでは、研究者がモードの違いを排除または軽減する必要があります。

2) センサーの特性、カメラの解像度の制限、KITTI の参照システムの定義により、ビジョンベースの方法のパフォーマンスは、LIDAR ベースの方法よりも低くなります。しかし、視覚化ベースの方法は、保守性、経済性、導入の容易さから多くの研究者の注目を集めています。

3) 自己注意機構（トランスフォーマー構造）とBEV法[71, 78, 79]は、クロスモーダル融合や特徴抽出などの精度を向上させることができる。さらに、データ不足とモデルの堅牢性の問題に対処するために、現在の研究ではunScenes[93]やWaymo[95]などの追加データでモデルをトレーニングしテストしています。

シーン理解

この論文では、著者らはシーン理解を、オブジェクトごとではなく、ピクセルまたはポイントごとの複数の出力として定義しています。このセクションでは、著者はそれをセグメンテーション、深度、およびフロー推定の 3 つのサブパートに分割します。著者は、AD 分野における学術研究と応用にのみ焦点を当てています。

自動運転におけるセグメンテーション

セマンティックセグメンテーションの目的は、画像内の各ピクセルに意味のあるラベルを付ける（セマンティックセグメンテーション）、オブジェクトを同時に検出して各ピクセルを各オブジェクトから区別する（インスタンスセグメンテーション）、またはセマンティックセグメンテーションとインスタンスセグメンテーションを組み合わせる（パノプティックセグメンテーション）ことによって、シーンをいくつかの意味のある部分に分割することです[96]。セグメンテーションはコンピュータビジョンにおける重要なタスクの1つであり、研究者はADE20K[97]、Pascal-VOC[94]、CityScape[98]などのプラットフォームでモデルを評価しました。しかし、AD シナリオでは、従来の 3D CV 領域が知覚タスクを独立して完了することは困難です。通常、車線検出、運転エリア検出、ビジュアルインターフェイスモジュールが含まれ、またはポイントクラウドと組み合わせて意味情報を提供します。著者らは、セグメンテーションベースの方法の一般的な背景を簡単に紹介し、その後、AD におけるセグメンテーション研究に焦点を当てます。

セマンティックセグメンテーション

完全畳み込みネットワーク（FCN）[99]は、畳み込み層を使用して出力グラフのサイズを復元するセマンティックセグメンテーションの一般的なアーキテクチャです。いくつかの研究では、改良されたエンコーダ・デコーダ[100]、拡張畳み込み[101]、CRF[102]、および縮小空間ピラミッドプーリング(ASPP)[103]を導入することでFCNを拡張しています。さらに、プーリングおよび拡張畳み込み演算のため、上記の方法では固定された正方形のコンテキスト領域が関係します。関係コンテキスト法[104]はピクセル間の関係を抽出します。 [105]は、特に医療分野において、チャンネルカスケードやスキップ接続による高解像度を追求している。 AD分野では、セマンティックセグメンテーションネットワークは共通の構造に精通している可能性があり、研究者は特別なカテゴリとオクルージョンにもっと注意を払い、道路シーンのデータセットでモデルを評価する必要がある[98]。データセット上でSOTA結果を達成するために、研究者らはマルチスケールアテンションメカニズム[106]と境界認識セグメンテーションモジュール[107]を導入した。さらに、ADシナリオのラベル付きデータが不足しているため、クラス間のオブジェクト間の固有の相関関係を考慮する[108]や半教師ありセグメンテーションメカニズムなど、道路上のオブジェクトの特性に焦点を当てた研究もあります。

インスタンスのセグメンテーション

インスタンスセグメンテーションは、各オブジェクトインスタンスのマスクとそれに対応するカテゴリを予測することです。初期の方法[115]では、物体検出とセグメンテーションのタスクを現実的に実行するためのアーキテクチャが設計されました。 Mask-RCNN[115]はFaster RCNNを拡張し、バイナリセグメンテーションを通じて各ピクセルのクラスを識別し、領域提案ネットワーク（RPN）に基づいて関心領域（RoI）の画像特徴を集約します。一部の研究者は、係数ネットワーク[116]、各マスクのIoUスコア、および形状事前分布を導入して予測を改善することで基本構造を開発しました。 2D物体検出法と同様に、[117]では検出器を単段構造に置き換えた。 [118]は検出の影響を回避し、大きなパフォーマンスを達成しようとした。

ADデータセットで競争力のあるセグメンテーション結果を達成するために、研究者は3D空間の幾何学的情報[119]、境界識別[120]、セマンティックセグメンテーションの組み合わせ（パノプティックセグメンテーション）[121]、または複数フレームの侵入（ビデオライブラリ）[122]に焦点を当ててきました。 1.3) パンオプティカルセグメンテーション：パンオプティカルセグメンテーションは、ピクセルレベルとインスタンスレベルのセマンティックセグメンテーションを統合することを目的としており[123]、[124]はセマンティックセグメンテーションとインスタンスセグメンテーションの結果を回帰するための別のブランチを設計します。パンオプティカルFCN[125]は、統合された完全な畳み込みパイプラインで前景と背景のオブジェクトを表現および予測することを目的としています。

Panoptic SegFormer[126]は、トランスフォーマーを使用したパノプティックセグメンテーションのための簡潔で効果的なフレームワークを導入しています。 ADシナリオでは、TASC[110]は、トレーニング中に2つのサブタスク間のギャップを減らすための新しい微分化手法を提案した。 Axial DeepLab[109]は、グローバル受容野と位置敏感な注意層を備えた独立した注意モデルを構築し、低い計算コストで位置情報を取得しました。さらに、研究者らは、道路上のマルチスケール問題に対処し、複合最適化戦略を通じて物体の境界を捉えるために、新しいクロップ認識境界ボックス回帰損失およびサンプル法[127]を導入した。これらの方法は、CityScape[98]やMapillary Vistas[128]のタスクで競争力のある結果を達成しました。

自動運転における深度推定

このタイプのタスクは、カメラプレーンに深さ情報を提示することです。これは、ビジョンベースの3Dオブジェクト検出とLIDARとカメラの間の潜在的なブリッジを強化する効果的な方法です。深さ完了タスクは、深度推定のサブ問題です[129]。スパースから密な深度完了問題では、研究者は、スパース深度マップから計算方法またはセンサーからの複数のデータを介した3Dシーンの密な深度マップを推測します。

主な難しさには以下が含まれます。

まばらな深さの不規則な間隔のパターン、
マルチセンサーモダリティ融合法（オプション）
一部のデータと現実世界には、密なピクセルレベルの真実（オプション）がありません。

深さの推定は、カメラに対する各ピクセルの距離を測定するタスクです。深さ値は、監視された（深さ完了を介して得られた密なマップ）[130]、監視なし[131]、lidar誘導[132]、またはステレオ計算[133]を使用して、単眼またはステレオ画像から抽出されます。いくつかの方法[134135]は、Kitti [85]やNYUV2 [136]などの人気のあるベンチマークで競争力のあるパフォーマンスを実現するために、CRFモジュール、マルチタスク構造、グローバル抽出器、および区分的平面性の優先順位を導入しました。モデルは多くの場合、RMSメトリックに基づいて評価されます[85]。屋外の単眼深度推定のために、Dorn [137]は、コンテキスト情報をキャプチャするためにマルチスケールネットワーク構造を採用しています。 MultidePth [114]は、深さ間隔分類を補助タスクとして利用しています。 HGR [138]は、深さを推定するために階層的なガイド付きおよび正規化された学習フレームワークを提案しました。 SDNET [113]は、深さとセマンティクスを含むデュアル独立推定ヘッドを利用することにより、結果を改善します。 VNL [112]は、ローカル平面ガイド層の複数の段階で構成される新しい構造を設計しました。 [139]は、深さ予測の精度を向上させるために、3つのランダムにサンプリングされたポイントで決定された通常の方向に幾何学的制約を使用しました。 Banet [111]は、フィードフォワード機能マップを採用し、グローバル情報を組み合わせて明確にする双方向の注意モジュールを導入しました。監視されていない方法[140]は、ラベル付きのデータの要件を減らし、過剰適合の問題を排除できるため、多くの研究者を引き付けました。さらに、不適切な問題により、純粋な単眼深度推定は相対的な深さ値のみを取得できますが、ステレオガイダンス方法は絶対的な深さ値を取得できます。 [141]は、競争結果を達成するために変圧器構造を導入しました。立体深度推定方法は、ステレオ格差推定タスクにあります。

自律運転における交通量の推定

セグメンテーションおよび深度推定タスクと同様に、フロー推定は画像平面に焦点を当てており、データフレーム中のピクセルの動きを示します。現在は興味深いものであり、その研究はイベントカメラの方法に使用できます。

光学フロー推定

光学フローとは、水平方向と垂直の両方で、イメージングシステムでのピクセルの動きを指します。監視されていないビデオベースの深度推定と同様に、ターゲット画像とソース画像の違いを最小化することにより、ピクセルの動きを推測できます[142]。 Spynet [143]は、光流量推定に古典的な空間ピラミッド配合を使用する軽量フレームワークを提案しました。さらに、大きな変位運動と正確なサブピクセルの流れを推定しようとします。 PWC Net [144]は、3つのサブネットワーク、すなわち、ピラミッド抽出器、ワーピング層、コストボリューム層を特徴とするもので構成され、光学流量の品質を向上させます。

シーンフローの推定

シーンフロー推定は3Dモーションフィールドを表し、光学フローの拡張と見なすことができます。したがって、3Dシーンでの光フローと深さ推定の組み合わせです。シーンフローの全体的なトレーニングステップでは、単眼画像がめったに使用されず、構造はステレオビデオを入力として、格差を回復してスケールを回復するようにします。 Drisf [145]は、Gauss-Newton（GN）の推論ステップを再発性ニューラルネットワーク（RNN）として扱います。つまり、エンドツーエンドの方法でトレーニングできます。 FD-NET [146]は、監視されていない深度推定をさらに拡張し、ターゲットフロー（ターゲットピクセル）と剛性フロー（バックグラウンドピクセル）へのフルフローを分解して、特徴を個別に評価するため、閉塞と切り捨てにより歪みとぼやけを回避します。競争力のあるコラボレーション（CC）[147]は、3人のプレイヤーとのゲームとしてシーンフローの推定を設定します。そのうちの2人はリソースを求めて競い合い、最後の1つはホストとして機能します。 Geonet [148]は2つのモジュールで構成されています。これは、6 dof ego-motion推定を備えた単眼の深さと、オブジェクトの光流量を学習するための残差ネットワークです。

都市景観とキッティのパノプティックセグメンテーションと深度推定パフォーマンスを表IIIに示します。 PQ、SQ、およびRQは、[123]のパノプティックセグメンテーション、セグメンテーションの品質、および認識品質をそれぞれ参照してください。検出と同様に、研究者は、シーンを理解するタスクの精度を向上させるために、自己触媒メカニズム、追加のトレーニングデータ、および新しいネットワークユニットを導入しました。著者は、上記のタスクは、ADの計画や制御などの下流タスクに直接出力を提供しないと述べました。実際のタスクでは、セマンティックセグメンテーション、深度推定、および光フロー推定を互いに組み合わせて、より豊富なピクセルセマンティック情報を提供し、それにより、クロスモーダルのデータ融合と移動ターゲットの空間検出と追跡の精度を改善します。

3つの予測

複雑な交通シナリオで安全かつ効率的にナビゲートするために、広告フレームワークは、他のトラフィックエージェント（車両や歩行者など）が近い将来どのように振る舞うかを予測できるはずです。予測は、過去の認識に基づいて可能な結果として定義できます。 xitを、観測時間tでエージェントIの空間座標を持つベクトルとします。ここで...

モデルベースのアプローチ

これらの方法は、レーンの変更、左に曲がるなど、エージェントの動作を予測します。車両行動の確率分布を予測する最も単純なアプローチの1つは、自律的なマルチモデル（AMM）アルゴリズムです。アルゴリズムは、各エージェントで最も可能性の高い軌道を計算します。 2）データ駆動型の方法：これらの方法は主にニューラルネットワークで構成されています。 Perception Datasetでトレーニングした後、モデルは次のアクションについて予測します。 Desireは、シーンのコンテキストとトラフィックエージェント間の相互作用を革新的に組み合わせたエンコーダデコーダーフレームワークを提案します。 SIMPは出力スペースを離散化し、車両の目的地の分布を計算し、推定された到着時間と空間オフセットを予測します。 FAF先駆者Lidar Pointクラウドベースの検出と短期運動予測の統一。主に下流の計画モジュールが知覚と予測の両方の結果を受け取るため、予測モジュールは認識から分離されることがあります。予測に関する将来の研究では、一般化されたルールの定式化、シナリオの一般化可能性、およびモジュールの単純さに焦点を当てます。 E.追跡トラッキングの問題は、オンボードセンサーデータのセットから始まります。ニューラルネットワークが追跡フレームワークに埋め込まれているかどうかに応じて、著者はそれらを従来の方法とニューラルネットワーク法に分類します。 1）従来の方法：カルマンフィルターは、特に追跡エージェントでよく知られているアルゴリズムです。計算コストが低いため、カルマンベースのアプローチは、単純なシナリオでは低スペックのハードウェアでも応答時間が速くなります。追跡の問題は、グラフ検索の問題として表示することもできます。グラフベースのアプローチの最も重要な利点は、カルマンベースのアプローチよりもマルチトラッキングの問題により適していることです。 [155]グラフベースの方法を使用して、最小コスト方法を使用して追跡問題を解決します。

ニューラルネットワーク方法

関連する十分な量のトレーニングデータを考えると、ニューラルネットワークには、重要で堅牢な機能を学習できるという利点があります。 CNNは、エージェントトラッキングで広く使用されています。 [156]畳み込み層からの値の組み合わせを使用して、マルチエージェント追跡を処理します。浅い畳み込み層から抽出された情報に対して適切なフィルターが提案され、複数の層のより深い層や組み合わせと比較して同じレベルの堅牢性を実現します。また、RNNは、タスクの追跡において時間共同問題を解決するためのインテリジェントなアプローチを提供します。 [158] LSTMベースの分類子を使用して、複数の時間フレームでプロキシを追跡する。 CNNメソッドと比較して、LSTMベースの方法は、特にターゲットがシーンの可視領域を離れるか、再入力した場合、候補者の観測を取り外して再挿入するのに適しています。両方のタスクで、共同認識と追跡はSOTAの結果を達成できます。実際には、安定した追跡は、リアルタイム検出に関するシステムの要件を削減し、検出結果を修正することもできます。現在、共同タスク学習戦略はますます多くの研究者に好まれています。

4計画

計画モジュールは、エゴ車両の低レベルのコントローラーのために追跡されるローカル軌道を見つける責任があります。計画モジュールは、エゴ車両の低レベルのコントローラーのために追跡されるローカル軌道を見つける責任があります。ここで、「ローカル」とは、結果の軌道がその空間または時間範囲で短いことを意味します。計画モジュールには通常、3つの機能、つまりグローバルルート計画、ローカルな行動計画、ローカル軌道計画が含まれています。グローバルルート計画は、グローバルマップ上の出発点から宛先への道路レベルのパスを提供します。このセクションでは、以下の図5に示すように、計画モジュールの3つの機能に関連する手法を確認します。

グローバルルート計画

グローバルルート計画は、数百万のエッジとノードを含む指示されたグラフの形で提示される道路ネットワークで最高の道路レベルのパスを見つける責任があります。ルートプランナーは、指示されたグラフで検索して、開始ノードとエンドノードを接続する最小コストシーケンスを見つけます。ここでは、コストは、複雑さ、メモリフットプリント、および/またはソリューションの堅牢性を考慮して、クエリ時間、前処理に基づいて定義されます。グローバルなルート計画技術の開発履歴は、自律型車両技術の開発履歴よりもはるかに長いです。これは、グローバルルートプランニングにも手動での運転車にサービスを提供するためです。示されているように、既存のグローバルルーティング計画方法は、目標指向の方法、スプリッターベースの方法、階層的方法、境界のあるホッピング方法、組み合わせに分けられます。

ローカルな行動/軌道計画

以下の図6に示すように、ローカルな行動計画とローカル軌道計画関数は、特定されたグローバルルートに沿ってローカル軌道を出力するために連携して動作します。

写真

生成された軌道はローカルであるため、グローバルな目的地がそれほど遠くない限り、これらの2つの機能を逆方向に実装する必要があります。これらの2つの機能の出力は、パスではなく軌跡であるべきであることを強調する価値があります。そうしないと、自転車は環境の動きの障害を避けるために追加の努力が必要です。大まかに言えば、これらの2つの機能は2つの異なる方法で機能します。 1つはエンドツーエンドのアプローチです。これは、オンボードセンサーから生データを受信し、ローカル軌道を直接出力する統合システムを開発することです。別の方法は、ローカルの行動計画とローカル軌道計画機能を順番に実装することです。

1）エンドツーエンドの方法

エンドツーエンドのソリューションは、知覚と計画モジュールの間に外部ギャップがないため、次のサブセクションでレビューされたシーケンシャルプランニングソリューションよりも効率的に車両環境の相互作用をより効率的に処理します。エンドツーエンドシステムへの入力は、オンボードセンサーによって取得された大量の生データであり、出力はローカルの軌跡です。入力と出力の関係は複雑すぎて完全なルールに一般化するには複雑すぎるため、機械学習方法がよく使用され、それらのほとんどは模倣ベースの強化ベースの方法に分割されます。模倣学習に基づく方法は、トレーニングサンプルに基づいてニューラルネットワークを構築します。課題は、一貫した大量のトレーニングサンプルを収集する方法と、学習効率を確保する方法（たとえば、過剰適合なし）です。強化学習ベースの方法は、試行錯誤の操作を通じて知識を得るため、外部トレーニングサンプルの品質と量に依存しません。エンドツーエンドの方法はまだ未熟であるため、ほとんどの方法は、現実の世界ではなく、シミュレーションでトレーニング/テストされています。最近の研究では、学習の解釈性、安全性、効率を改善する方法に焦点を当てています。

2）注文計画に基づく方法

上記のエンドツーエンドのソリューションとは反対に、ローカルな行動計画と軌道計画機能の連続的な適用は、過去10年間で一般的な従来の選択でした。ただし、現地の行動計画と軌道計画の境界はかなりぼやけています。たとえば、一部の行動プランナーは、行動タイプを特定するだけではありません。理解のために、この論文はこれら2つの機能を厳密に区別することはなく、関連する方法は単に軌跡計画方法と見なされます。名目上、軌道計画は、最適な制御問題（OCP）を解決することによって達成されます。 OCPの解は、時間の連続制御および状態分布として表され、必要な軌道は（の一部）状態分布によって反映されます。 OCPのこの種の分析ソリューションは利用できないことが多いため、軌道を構築するには2種類の操作が必要です。具体的には、最初のタイプの操作は、一連の状態グリッドを識別することですが、2番目のタイプは隣接する状態グリッド間でプリミティブを生成することです。

4.1ステータスグリッド認識

状態グリッド認識は、検索、選択、最適化、または潜在的な小型化を通じて達成できます。検索ベースの方法は、上記のOCPに関連する連続状態空間をグラフに抽象化し、そこにある状態へのリンクを見つけます。一般的な検索ベースの方法には、A*検索および動的プログラミング（DP）が含まれます。選択ベースのアプローチは、最適なコスト/報酬機能値を持つ候補者を見つけることにより、次のステップまたは複数のステップで状態グリッドを決定します。貪欲な選択とマルコフ決定プロセス（MDP）シリーズメソッドは通常、このカテゴリに分類されます。最適化ベースのアプローチは、元のOCPを数学プログラム（MP）に離散化し、これは高解像度の状態グリッドに解決されます。 MPソルバーは、勾配ベースのソルバーと非線形計画、二次制限、および非勾配ベースのソルバーが通常メタリスティックな方法で表されます。潜在的な最小化ベースのアプローチは、それらが力またはヒューリスティックな潜在的なフィールドによって反発または引き付けられるプロセスをシミュレートすることにより、状態グリッドの位置を調整します。このカテゴリの一般的な方法には、Elastic Band（EB）シリーズ、人工電位フィールド法、および力平衡モデルが含まれます。

各状態グリッド認識方法には異なる機能があります。たとえば、勾配の最適化と潜在的な最小化ベースのアプローチは、一般に、典型的な検索/選択ベースのアプローチよりも柔軟で安定していますが、検索/選択ベースのアプローチは、状態空間全体のグローバルな調査においてより効率的です。多くの研究が実施しているため、さまざまなアプローチを粗から微細なものまでの戦略として組み合わせることができます。

4.2オリジナル世代

オリジナルの生成は、通常、閉じたルール、シミュレーション、補間、および操作を通じて行われます。閉じたルールとは、閉じたソリューションを使用した分析方法を介してプリミティブを生成する方法を指します。典型的な方法には、Dubins/Reed-Shepp曲線、多項式、および理論的最適制御方法が含まれます。シミュレーションベースの方法は、フォワードシミュレーションを通じて軌道/パスプリミティブを生成し、自由度がないため、速く実行されます。補間ベースの方法は、スプラインまたはパラメーター化された多項式で表されます。最適化ベースのアプローチは、2つの状態グリッドを接続する小規模OCPを数値的に解決します。

状態グリッド認識と原始生成は、軌道を構築するために必要な2つの操作です。両方の操作は、さまざまな方法で編成できます。たとえば、2つの操作は、プリミティブのグラフがオフラインで構築され、プリミティブを接続する前に識別されます。

プランナーが軌道の代わりに1つのパスのみを見つけた場合、ポスト処理ステップとして、計画されたパスに時間プロセスを添付する必要があります。パス速度分解（PVD）として知られるこの戦略は、3D問題を2つの2次元問題に変換するため、広く使用されています。これにより、ソリューションプロセスが大幅に促進されます。対照的に、非PVDメソッドは、ソリューションの最適化を改善するという潜在的な利点がある軌跡を直接計画しています。

この研究分野の最新の研究には、特定のシナリオ/タスクに特に適した特定のプランナーを開発する方法、および不完全な上流/下流モジュールがない場合にセキュリティ軌跡を計画する方法が含まれます。

5 結論

この記事では、著者は、ADおよびIVの知覚および計画のマイルストーンの研究開発への広範な紹介を提供します。さらに、両方のタスクにいくつかの実験結果とユニークな洞察が提供されています。他の2つの部分を組み合わせることで、研究全体が研究者と初心者に斬新で多様な洞察をもたらし、過去と未来をつなぐ橋として機能することが期待されています。

<<: データセンターは生成 AI に対応できる準備ができていますか?

>>: 注目に値する5つの高度なコード補完サービス