エンドツーエンドの自動運転までどれくらい遠いのでしょうか?

エンドツーエンドの自動運転は、システムの複雑性が高まるなどのモジュール式システムに伴う欠点を回避できるため、有望なパラダイムです。自動運転は従来の交通モードを超え、重大なイベントを事前に積極的に特定し、乗客の安全を確保し、特に非常にランダムで変動の大きい交通環境において快適な交通環境を提供します。この論文では、エンドツーエンドの自動運転技術を包括的にレビューします。

まず、エンドツーエンドのニューラルネットワークの使用を含む自動運転タスクの分類について説明します。これは、認識から制御までの運転プロセス全体をカバーし、実際のアプリケーションで遭遇する主要な課題に対処します。エンドツーエンドの自動運転の最新の開発が分析され、研究は基本原理、アプローチ、コア機能に基づいて分類されます。これらのカテゴリには、感覚入力、主出力と補助出力、模倣から強化学習までの学習方法、モデル評価手法が含まれます。この論文では、説明可能性とセキュリティの側面についても調査し、詳細な議論を行っています。最後に、最先端の技術が評価され、課題が特定され、将来の可能性が検討されます。

図 1: 2014 年から 2022 年までの Web of Science データベースにおける「エンドツーエンド」および「自動運転」というキーワードを含む論文数は、研究コミュニティにおける増加傾向を示しています。

要約すると、この論文の主な貢献は次のとおりです。

これは、ディープラーニングを使用したエンドツーエンドの自動運転に特化した最初のレビュー論文です。当社は、この分野における最新の技術進歩を掘り下げ、基本原理、方法、および機能の包括的な分析を実施します。
入力モダリティ、出力モダリティ、および基礎となる学習方法に基づいた詳細な分類 (図 2) を提案します。さらに、セキュリティと説明可能性の側面が徹底的に検討され、ドメイン固有の課題を特定して対処します。
オープンループ評価とクローズドループ評価に基づく評価フレームワークを提案します。公開されているデータセットとシミュレーションの概要リストもまとめられています。最後に、最近のアプローチを評価し、興味深い将来の可能性を探ります。

図2：この調査に含まれる論文の統計を、学習アプローチ（セクションV）、トレーニングに利用されている環境（セクションIX、X）、入力様式（セクションIII）、出力様式（セクションIV）別に示しています。

01 エンドツーエンドのシステムアーキテクチャ

多くの場合、モジュラーシステムは中間パラダイムと呼ばれ、センサー入力とモーション出力を接続する個別のコンポーネントのパイプラインとして構築されます (図 3)。モジュラーシステムのコアプロセスには、認識、位置特定、マッピング、計画、車両制御が含まれます。モジュラーパイプラインは、まず、障害物検出用の認識モジュールと位置決め用のローカリゼーションモジュールに生のセンサーデータを入力します。次に、車両にとって最適かつ安全な移動を決定するために計画と予測が実行されます。最後に、コントローラーは安全な操作のためのコマンドを生成します。モジュラーシステムの詳細な概要については、補足資料をご覧ください。

図 3: エンドツーエンドパイプラインとモジュラーパイプラインの比較。エンドツーエンドは、知覚入力から直接制御信号を生成する単一のパイプラインですが、モジュラーパイプラインは、それぞれタスク固有の機能を持つさまざまなサブモジュールで構成されています。

一方、ダイレクトセンシングまたはエンドツーエンドアクチュエーションは、センサー入力から自車両の動きを直接出力します。運転パイプライン（図 3）を最適化し、知覚と計画に関連するサブタスクをバイパスして、人間のように知覚と行動を継続的に学習できるようにします。 Pomerleau Alvinn は、3 層のセンサーモーション完全接続ネットワークをトレーニングして車の方向を出力し、初めてエンドツーエンドの運転を試みました。エンドツーエンドの運転では、さまざまな形式のセンサー入力に基づいて車両の動きを出力します。しかし、最も顕著なものは、カメラ、LiDAR、ナビゲーションコマンド、速度などの車両ダイナミクスです。この知覚情報は、制御信号の生成を担当するバックボーンモデルへの入力として使用されます。車両の動きには、加速、旋回、ステアリング、ペダリングなど、さまざまな種類の動きが含まれます。さらに、多くのモデルは、安全な操作のコストマップ、解釈可能な出力、その他の補助出力などの追加情報を出力します。

エンドツーエンドの運転には、強化学習 (RL) を通じて運転モデルを探索および改善する方法と、模倣学習 (IL) を使用して教師あり方式で運転モデルをトレーニングし、人間の運転行動を模倣する方法の 2 つの主なアプローチがあります。教師あり学習パラダイムは、モデルのトレーニング例として機能する専門家のデモンストレーションから運転スタイルを学習することを目的としています。しかし、学習フェーズ中にすべてのインスタンスをカバーすることは不可能であるため、IL ベースの自動運転システムのスケーリングは困難です。一方、RL は、環境との相互作用を通じて時間の経過とともに累積報酬を最大化することによって機能し、ネットワークは動作に基づいて報酬またはペナルティを受け取るための決定を下します。 RL モデルのトレーニングはオンラインで実行され、トレーニング中に環境を探索できますが、模倣学習よりもデータを活用する効果は低くなります。表 I は、エンドツーエンドの運転における最先端の方法をまとめたものです。

02 入力モード

1) カメラ: カメラベースの方法は、エンドツーエンドの運転において有望な結果を示しています。たとえば、Toromanoff らは、都市環境での視覚ベースの方法を使用して、CARLA 2019 自動運転チャレンジで優勝しました。単眼視と両眼視を使用することは、エンドツーエンドの運転を画像から制御するための自然な入力です。

2) LiDAR: 自動運転にとってもう一つの重要な入力ソースは LiDAR センサーです。 LiDAR は照明条件に強く、正確な距離推定を提供します。他の知覚センサーと比較して、LIDAR データは最も豊富で、最も包括的な空間情報を提供します。レーザーを使用して距離を検出し、ポイントクラウド (各ポイントにセンサーのレーザービームを反射した表面の (x、y、z) 座標が含まれる空間の 3D 表現) を生成します。車両の位置を特定する際には、走行距離測定の測定値を生成することが重要です。多くの技術では、鳥瞰図 (BEV)、高解像度 (HD) マッピング、SLAM での特徴マッピングに LiDAR を利用しています。これらのローカリゼーション技術は、登録ベースの方法、特徴ベースの方法、学習ベースの方法に分けられます。

3) マルチモダリティ: マルチモダリティは、主要な認識タスクにおいて単一モダリティよりも優れており、複数のセンサーデータを組み合わせているため、特に自動運転アプリケーションに適しています。情報活用は、複数のセンサー情報をいつ組み合わせるかによって、主に 3 つのカテゴリに分けられます。初期の融合では、センサーデータは、学習可能なエンドツーエンドのシステムに送られる前に結合されます。中期融合では、何らかの前処理段階または何らかの特徴抽出の後に情報融合が行われます。後期融合では、入力は個別に処理され、その出力は融合され、別のレイヤーによってさらに処理されます。

4) セマンティック表現: エンドツーエンドモデルは、セマンティック表現を入力として受け取ることもできます。この表現は、車両とその環境の幾何学的および意味的情報を学習することに重点を置いています。

通常、鳥瞰図や距離図などのさまざまな知覚センサーからの幾何学的特徴を画像空間に投影します。生の RGB 画像には利用可能なすべての情報が含まれていますが、定義済みの表現を明示的に組み込み、それを追加の入力として使用すると、モデルの復元力を高めることができることがわかりました。 Chenら[21]は、学習した意味グラフに再帰的注意メカニズムを適用して車両制御を予測した。さらに、いくつかの研究では、ナビゲーション目的の追加表現としてセマンティックセグメンテーションを利用しました。

5) ナビゲーション入力: エンドツーエンドの運転モデルには、高レベルのナビゲーション指示を含めたり、車線維持や縦方向の制御などの特定のナビゲーションサブタスクに焦点を当てたりすることができます。ナビゲーション入力は、パスプランナーまたはナビゲーションコマンドから取得できます。パスは、グローバルプランナーによって提供されるグローバルポジショニングシステム (GPS) 座標内の一連の個別のエンドポイント位置によって定義されます。 TCPモデルは、車線内に留まる、左折/右折、ターゲットなどの関連するナビゲーション指示を受信し、図4(c)に示すように制御アクションを生成します。 FlowDriveNet は、グローバルプランナーからの個別のナビゲーションコマンドとナビゲーション目標の座標を考慮します。上記の入力に加えて、エンドツーエンドモデルには、自車両の速度などの車両ダイナミクスも組み込まれています。図4(b)は、NEATが速度特徴を利用してウェイポイントを生成する方法を示しています。

図 4: さまざまなエンドツーエンドモデルの入出力表現: (a) RGB 画像と LiDAR BEV 表現をマルチモーダルフュージョントランスフォーマー [7] への入力として考慮し、差分自車両ウェイポイントを予測します。 (b) NEAT [12] は、画像パッチと速度特徴を入力して、運転用の PID コントローラが使用する各タイムステップのウェイポイントを取得します。 (c) TCP [13] は、入力画像 i、ナビゲーション情報 g、現在の速度 v を受け取り、軌道ブランチと制御ブランチによって誘導される制御アクションを生成します。 (d) LAV [10] は、画像のみの入力を使用して、ブレーキと交通標識や障害物の取り扱いに使用されるマルチモーダルな将来の軌道を予測します。 (e) UniAD [9] は、目標車線と自車両に譲っている重要なエージェントにどれだけ注意が払われているかを示すアテンションマスク視覚化を生成します。 (f) ST-P3 [33] は、予測モジュールからサブコストマップを出力します (色が濃いほどコストが小さいことを示します)。占有確率フィールドを組み込み、既存の知識を活用することで、コスト関数は最終軌道の安全性の考慮事項を効果的にバランスさせます。

03 出力モード

通常、エンドツーエンドの自動運転システムは、制御コマンド、ウェイポイント、または軌道を出力します。さらに、コストマップや補助出力などの追加の表現も生成できます。図 4 は出力モードのいくつかを示しています。

a) トラックポイント: 将来のトラックポイントを予測することは、より高レベルの出力モードです。いくつかの著者は、自己回帰ウェイポイントネットワークを使用して差分ウェイポイントを予測しました。軌道は、座標系内のウェイポイントのシーケンスとして表すこともできます。ネットワークの出力ウェイポイントは、モデル予測制御 (MPC) と比例積分微分 (PID) を使用して、低レベルのステアリングと加速に変換されます。縦方向コントローラは連続する時間ウェイポイント間のベクトルの加重平均の大きさを考慮し、横方向コントローラはそれらの方向を考慮します。理想的なトラックポイントは、目的の速度、位置、回転によって異なります。報酬を最大化するには（またはバイアスを最小化するには）、横方向の距離と角度を最小限に抑える必要があります。トラックポイントを出力として使用する利点は、車両の形状の影響を受けないことです。さらに、コントローラがウェイポイントを分析してステアリングなどの制御コマンドを取得することが容易になります。トラックポイントの連続形式を特定の軌跡に変換できます。

b) ペナルティ機能: 車両の安全な操縦のために、多くの軌道とトラックポイントが可能です。コストは、可能性の中から最適なものを選択するために使用されます。安全性、走行距離、快適性など、エンドユーザーが定義したパラメータに基づいて、各軌道に重み（正または負のスコア）を割り当てます。 Zeng らはニューラルモーションプランナーを採用し、コストボリュームを使用して将来の軌道を予測しました。 Huらは、学習した占有確率場（セグメンテーションマップ（図4(f)）で表される）と交通ルールなどの事前知識を利用して、コストが最小の軌道を選択するコスト関数を採用しました。

c) 直接制御と加速: ほとんどのエンドツーエンドモデルは、特定のタイムスタンプでステアリング角度と速度を出力として提供します。出力制御は車両のダイナミクスに合わせて調整する必要があり、旋回時の適切なステアリング角度と、測定可能な距離で停止するために必要なブレーキを決定します。

d) 補助出力: 補助出力は、モデルの操作と運転動作の決定のための追加情報を提供することができます。補助出力の種類には、セグメンテーションマップ、BEV マップ、車両の将来の占有率、解釈可能な機能マップなどがあります。図4(e)および(f)に示すように、これらの出力はエンドツーエンドのパイプラインに追加の機能を提供し、モデルがより良い表現を学習するのに役立ちます。補助出力は、人間が情報を理解し、モデルの決定の背後にある理由を推測できるため、モデルの動作を説明するのにも役立ちます。

04 学習方法

エンドツーエンドの運転を学ぶさまざまな方法をご紹介します。

模倣学習

模倣学習 (IL) は、通常は人間が行う専門家のデモンストレーションから学習するという原理に基づいています。これらのデモンストレーションでは、車両制御などのさまざまなシナリオで専門家の行動を模倣するようにシステムをトレーニングします。大規模な専門家の運転データセットはすぐに利用可能であり、模倣学習を通じて活用して、人間のような基準で動作するモデルをトレーニングできます (図 5 を参照)。 Alvinn は、エンドツーエンドの自律走行車システムに模倣学習を適用した最初の例であり、最高時速 55 マイルで車を運転する能力を実証しています。人間のドライバーから収集されたリアルタイムのトレーニングデータを使用して、ステアリング角度を予測するようにトレーニングされます。行動クローニング (BC)、直接ポリシー学習 (DPL)、逆強化学習 (IRL) は、自動運転の分野における模倣学習の拡張です。

図5：ステアリング角、スロットル、ブレーキの3つで表される車両操作は、高レベルのルートナビゲーションコマンド（左折、右折、直進、続行など）だけでなく、知覚データ（RGB画像など）と車両状態測定値（速度など）に依存します。これらの入力は、車両が実行する特定のアクションをガイドし、条件付き模倣学習を通じて環境を効果的にナビゲートできるようにします[32]。

模倣学習の主な目的は、状態とアクションのペアを持つ専門家データセットが与えられた場合に、与えられた各状態を対応するアクションにマッピングするポリシーを、与えられた専門家ポリシーに可能な限り近づけてトレーニングすることです (図 5)。

1) 行動のクローニング: 行動のクローニングは、エキスパート分布内の各状態と行動の組み合わせを独立した同一分布 (IID) の例として扱い、トレーニングポリシーの模倣損失を最小限に抑えることを目的とした教師あり模倣学習タスクです。

行動クローニングでは、トレーニングデータセットに基づいて入力データから出力データに直接マッピングするようにモデルをトレーニングするため、専門家の行動は観察によって完全に説明できると想定しています (図 6)。しかし、現実のシナリオでは、運転エージェントに影響を与え、それを制御する潜在的な変数が多数存在します。したがって、これらの変数を効果的に学習することが重要です。

図6：行動クローニング[23]は、さまざまな運転シナリオに対する行動反射を学習する知覚から行動への運転モデルです。エージェントは、コンテキスト依存かつタスク最適化された方法でエキスパートポリシーを統合する能力を獲得し、自信を持って運転できるようになります。

2) 直接ポリシー学習: センサー入力を制御コマンドにマッピングする模倣学習とは対照的に、直接ポリシー学習は、入力を運転行動にマッピングする最適なポリシーを直接学習することを目的としています。これにより、エージェントは周囲を探索し、斬新で効率的な運転ポリシーを発見できるようになります。対照的に、動作のクローン作成はトレーニングデータセットによって制限され、特定の動作のみが含まれ、新しいシナリオではパフォーマンスが低下する可能性があります。オンライン模倣学習アルゴリズム DAGGER は、連鎖エラーに対する堅牢性を提供し、一般化を向上させます。しかし、直接的なポリシー学習の主な欠点は、トレーニングプロセス中に専門家の関与が継続的に必要となることであり、これは費用がかかり、非効率的です。

3) 逆強化学習: 逆強化学習 (IRL) は、報酬関数を通じて基礎となる特定の動作を推測することを目的としています。機能ベースの IRL は、高速道路のシナリオでさまざまな運転スタイルを教えます。人間が提供する例は、さまざまな報酬機能と道路利用者と対話する能力を学習するために使用されます。最大エントロピー (MaxEnt) 逆強化学習は、最大エントロピー原理に基づく特徴ベースの IRL の拡張です。このパラダイムは、報酬の曖昧さを堅牢に解決し、最適でない部分を処理します。主な欠点は、IRL アルゴリズムの実行コストが高いことです。また、計算負荷が高く、トレーニング中に不安定になり、小さなデータセットに収束するまでに時間がかかる場合があります。報酬関数を取得するには、より計算効率の高い方法が必要です。

強化学習

強化学習 (RL) は、分布シフト問題に対処するための有望なアプローチです。その目標は、環境と相互作用することで時間の経過とともに累積報酬を最大化することであり、ネットワークは、そのアクションに基づいて報酬またはペナルティを受け取るための決定を下します。 IL は、トレーニングデータセットとは大きく異なる新しい状況を処理できません。ただし、強化学習はトレーニング中に関連するすべてのシナリオを探索するため、この問題に対して堅牢です。強化学習には、Deep Q-Network (DQN) などの価値ベースのモデル、Deep Deterministic Policy Gradient (DDPG) や Asynchronous Advantage Actor-Critic (A3C) などのアクタークリティックベースのモデル、Soft Actor Critic (SAC) などの最大エントロピーモデル、Trust Region Policy Optimization (TRPO) や Proximal Policy Optimization (PPO) などのポリシーベースの最適化手法など、さまざまなモデルが含まれます。

Liang 氏は、当時のモジュラーパイプラインを上回る、最初の効果的な強化学習ベースのビジョン駆動型パイプラインを実証しました。彼らのアプローチは、アクター・クリティック・アルゴリズムの拡張バージョンである Deep Deterministic Policy Gradient (DDPG) に基づいています。

最近、ヒューマン・イン・ザ・ループ（HITL）アプローチが文献で注目を集めています。これらのアプローチは、専門家の証拠が高収益政策の達成に貴重な指針を提供するという前提に基づいています。一部の研究では、従来の強化学習または IL パラダイムのトレーニングプロセスに人間の専門知識を組み込むことに焦点を当てています。その一例が EGPO です。これは、専門家のポリシーが学習エージェントを監視する、専門家がガイドするポリシー最適化手法の開発を目指しています。

図7：エージェントが最適に運転できるように訓練するためのRLベースの学習方法：（a）BEVを低レベルの運転動作にマッピングする強化学習エキスパート[28]の図。エキスパートは模倣学習エージェントに監督を提供することもできます。（b）ヒューマンインザループ学習[41]により、エージェントは環境を探索でき、危険なシナリオでは人間のエキスパートが制御を引き継いで安全なデモンストレーションを提供します。

HACO を使用すると、エージェントは安全なトレーニングを確保しながら危険な環境を探索できます。このアプローチでは、人間の専門家が介入してエージェントを誘導し、潜在的に有害な状況や無関係な行動を回避することができます（図7（b）を参照）。一般的に言えば、専門家は模倣学習や強化学習に対して高度な監督を提供することができます。ポリシーは、最初に模倣学習を使用して教え、その後強化学習を使用して改良することができ、これにより、強化学習に必要な長いトレーニング時間が短縮されます。

その他の学習方法

部分的なコンポーネントを持つエンドツーエンドのシステムを明示的に設計する学習方法には、マルチタスク学習、目標指向学習、SP-T3 などの特定の手法など、さまざまなアプローチが含まれます。さらに、PPGeo などの自己教師あり学習フレームワークは、ラベル付けされていない運転ビデオを利用して運転ポリシーをモデル化します。これらのアプローチは、複数のタスクを効率的に処理し、特定の目標を最適化し、特殊な技術を組み合わせてエンドツーエンドのシステムのパフォーマンスと機能を強化できるモデルをトレーニングすることを目的としています。

05 シミュレータから実領域への適応への学習

仮想エンジン内に大規模な仮想シーンを構築できるため、大量のデータの収集が容易になります。ただし、仮想データと現実世界のデータの間には依然として大きなドメインの違いがあり、仮想データセットの作成と実装には課題が生じます。ドメイン適応の原理を活用することで、シミュレータから主要な特徴を直接抽出し、ソースドメインから学習した知識を、正確な実世界のデータで構成されるターゲットドメインに転送することができます。

H-Divergence フレームワークは、ドメイン分類子と検出器を敵対的に学習することで、視覚レベルとインスタンスレベルの両方でドメインギャップに対処します。 Zhang 氏は、ソースドメインとターゲットドメインの違いを活用するためのシミュレータと実際の相互作用戦略を提案しました。著者らは、グローバルレベルとローカルレベルの違いを調整し、それらの間の全体的な一貫性を確保するために 2 つのコンポーネントを作成しました。リアルな合成画像を使用して、エンドツーエンドのモデルをトレーニングできます。

一部の作品では仮想LiDARデータを活用しています。 Sallab は CARLA の仮想 LiDAR ポイントクラウドを学習し、CycleGAN を使用して仮想ドメインから実際の KITTI データセットにスタイルを転送します。計画と意思決定の違いに関して、パン氏は現実的な枠組みを持つシミュレーション環境で運転方針を学習し、それを現実世界に適用することを提案しました。

06 セキュリティ

エンドツーエンドの自動運転システムの安全性を確保することは複雑な課題です。これらのシステムは高いパフォーマンスを発揮する可能性がありますが、パイプライン全体の安全性を維持するためには、特定の考慮事項とアプローチが重要です。システムはまず、まれな状況や重大な状況を含む幅広いシナリオをカバーする多様で高品質なデータを使用してトレーニングされます。 [23]は、重要なシナリオでの訓練はシステムが堅牢で安全な行動を学習し、環境条件や潜在的な危険に対処する準備を整えるのに役立つことを示した。これらのシナリオには、図 8(b) および (c) に示すように、交差点での保護されていない方向転換、遮蔽された領域から出てくる歩行者、積極的な車線変更、およびその他の安全ヒューリスティックが含まれます。

図8：安全運転方法のデモンストレーション：（a）InterFuser [8]は、マルチセンサー情報を処理して敵対的イベントを検出し、コントローラがそれを使用して運転アクションを安全なセット内に制限します。（b）KING [6]は、シナリオ生成を使用して衝突回避を改善します。この画像は、敵対的エージェント（青で表示）の存在下で車線合流中に安全な距離を維持している自車両（赤で表示）を示しています。（c）同じコンテキストで、この画像は衝突を回避するために車両が減速していることを示しています。

セキュリティ制約とルールをエンドツーエンドシステムに統合することも重要な側面です。システムは、学習中またはシステム出力の後処理中に安全性の考慮事項を組み込むことで、安全な動作を優先できます。安全制約には、安全コスト関数、危険な操作の回避、衝突回避戦略が含まれます。 Zeng らは安全計画のコストについて明確に定義しました。安全でない操作を回避するために、Zhangらは安全でないウェイポイントを排除し、Shaoらは安全セット内のアクションのみを制約し、最も安全なアクションのみをガイドするInterFuser（図8（a））を導入しました。上記の制約により、システムが事前に定義された安全境界内で動作することが保証されます。

追加のセキュリティモジュールとテストメカニズム (表 II、表 III) を実装すると、システムのセキュリティを強化できます。システムの動作をリアルタイムで監視することで、異常や安全な操作からの逸脱を検出できます。 Wuらは、長距離にわたって安全な軌道を予測できる軌道+制御モデルを提案した。 Huらは安全性を確保するために目標プランナーも採用しました。これらのメカニズムにより、システムは異常な状況や予期しない状況を検出して対応できるようになり、事故や危険な動作のリスクが軽減されます。

表 II に示すように、エンドツーエンドの運転テストでは、出力制御信号の正確性を評価するために敵対的攻撃法が使用されます。これらのテスト方法は、脆弱性を特定し、敵に対する堅牢性を評価するために設計されています。エンドツーエンドのテストテーブル（III）は、特定のシナリオ内で正しい制御決定を決定します。メタモルフィックテストは、さまざまな天候や照明条件下でのステアリング角度の一貫性を検証することで、オラクル問題に対処します。これは、ステアリング角度が安定したままであり、これらの要因の影響を受けないことを保証する信頼性の高い方法を提供します。差異テストでは、同じシーンの推論結果を比較することで、異なる DNN モデル間の不一致を明らかにします。モデルが異なる結果を生成する場合、予期しない動作やシステム内の潜在的な問題があることを示します。モデルベースのオラクルでは、トレーニング済みの確率モデルを使用して、現実のシナリオにおける潜在的なリスクを評価および予測します。環境を監視することで、システムが適切に処理できない可能性がある状況を特定できます。

安全性メトリクスは、自動運転システムのパフォーマンスを評価し、安全性に関するシステムの機能性を評価するための定量的な尺度を提供します。衝突までの時間 (TTC)、衝突指数 (CI)、衝突可能性指数 (CPI)、反応までの時間 (TTR) などの指標は、さまざまな方法の安全パフォーマンスをさらに客観的に比較し、改善すべき領域を特定することができます。安全指標は、安全で信頼性の高い運転ソリューションを監視および開発する上で非常に重要です。表IVにこれらの指標の詳細な説明を示します。

07 説明可能性

解釈可能性とは、エージェントのロジックを理解する能力を指し、モデルの入力と出力の関係をユーザーがどのように解釈できるかに重点を置きます。これは、説明の理解可能性に関する解釈可能性と、説明を通じてモデルの動作を徹底的に定義することに関する完全性という 2 つの主要な概念で構成されます。 Cui らは、自動運転車に対する信頼を 3 つのタイプに区別しました。透明性 (車両の動作を予測して理解する人の能力を指す)、技術的能力 (車両の性能の理解に関連する)、状況管理 (ユーザーがいつでも車両の制御を取り戻すことができるという考えを含む) です。 Haspil 氏らによると、人間が関与する場合、説明が重要な役割を果たします。自動運転車の動作を説明できるかどうかは、この技術が広く受け入れられるために不可欠な消費者の信頼に大きく影響するからです。

モデルの動作を説明する解釈可能性に重点を置いた、模倣学習と強化学習の手法に関する研究が数多く行われています。事後説明方法を説明するために、特定のアクションインスタンスの予測を説明するローカルメソッド（VIII-A）と、モデル全体を説明するグローバルメソッド（VIII-B）の2つのカテゴリが特定されています（図9）。

図9: 説明可能性アプローチの分類。

ローカルな説明

1) 事後顕著性法: 事後顕著性技術は、ピクセルのどの部分がモデルの出力に最も大きな影響を与えるかを説明しようとします。これらの方法は、モデルが最も重要な決定を下す場所の顕著性マップを提供します。

事後顕著性法は、主に運転アーキテクチャの知覚コンポーネントに焦点を当てています。これらのローカル予測は視覚的注意マップとして使用され、線形結合を使用して学習したパラメータと組み合わせられ、最終的な決定が下されます。注意ベースの方法は一般にニューラルネットワークの透明性を向上させると考えられていますが、学習された注意重みは複数の特徴と弱い相関関係を示す可能性があることに注意する必要があります。注意重みは、運転中にさまざまな入力特徴を測定するときに正確な予測を提供できます。全体として、注意メカニズムの事後的な有効性を評価することは困難であり、多くの場合、主観的な人間の評価に依存します。

図10：説明可能性手法：（a）PlanT [15]による視覚化。さまざまなシナリオでエージェントに与えられる注意を示す。（b）InterFuser [8]を使用すると、3つのRGBビューと予測されたオブジェクト密度マップを統合することで、障害ケースを視覚化できる。オレンジ色のボックスは、自車両に衝突の危険をもたらすオブジェクトを示している。オブジェクト密度マップは、現在の交通シーン（t0）と、1秒間隔（t1）および2秒間隔（t2）での将来の交通シーンの予測を提供する。

2) 反事実的説明: 顕著性法は、「どこ」という質問に答えることに重点を置き、モデルの決定に影響を与える入力場所を特定します。対照的に、反事実的説明は、モデルの予測を変える入力の小さな変化を探すことによって、「何」という質問に答えます。

入力空間は意味的次元で構成され、変更可能であるため、入力コンポーネントの因果関係を評価するのは簡単です。 Li らは最近、危険な物体を識別するための因果推論技術を提案した。セマンティック入力は、ピクセルレベルの表現よりも解釈しやすい高レベルのオブジェクト表現を提供します。

エンドツーエンドの運転では、ステアリング、スロットル、ブレーキ作動の出力は、反事実的説明を提供する補助出力によって補完できます。 Chitta らは、A* プランナーの解釈可能な補助出力を使用することを提案しました。 Shaoらは、図10(b)に示すように、中間オブジェクト密度マップの助けを借りて潜在的な障害を推測するための安全性マインドマップを生成するシステムを設計しました。

グローバルな説明

グローバルな説明は、モデルが持つ知識を記述することで、モデルの動作を全体的に理解できるようにすることを目的としています。これらは、モデル変換（VIII-B1）とグローバル解釈を分析するための表現解釈技術（VIII-B2）に分かれています。

1) モデル変換: モデル変換の目的は、元のモデルから本質的に解釈可能な別のモデルに情報を転送することです。これには、入力と出力の関係をモデル化するための解釈可能なモデルのトレーニングが含まれます。最近の研究では、ディープラーニングモデルを決定木、ルールベースモデル、または因果モデルに変換する方法が検討されています。ただし、このアプローチの 1 つの制限は、解釈可能な翻訳モデルと元の自動運転モデルとの間に違いが生じる可能性があることです。

2）説明表現：説明表現は、異なるスケールでモデル構造によってキャプチャされた情報を説明することを目的としています。ニューロンの活性化は、その活動を最大化する入力パターンを調べることで理解できます。たとえば、勾配上昇または生成ネットワークを使用して入力をサンプリングできます。

08評価

エンドツーエンドシステムの評価は、オープンループ評価と閉ループ評価に分けられます。ループの開口部は、kittiやヌスケンなどの実際のベンチマークデータセットを使用して評価されます。システムの運転挙動をエキスパートの動作と比較し、逸脱、Minfde、L2エラー、および競合率[58]を測定します。対照的に、閉ループ評価は、制御された現実の世界または制御された現実世界のシステムを直接評価します。セットアップを独立して運転し、安全な運転操作を学習できるようにして、セットアップをシミュレートします。

エンドツーエンドの駆動システムのオープンループ評価では、カメラ画像やライダーデータなどのシステムへの入力がシステムに提供されます。ステアリングコマンドや車両速度などの結果の出力は、事前に定義された運転行動に基づいて評価されます。オープンループ評価で使用される一般的な評価メトリックには、予測された軌道と実際の軌跡の平均誤差や、システムがその軌道内にある時間の割合など、目的の軌跡からの一定の距離など、目的の軌跡または運転行動に従うシステムの能力の測定値が含まれます。他の評価メトリックを使用して、交差点をナビゲートしたり、障害物を処理したり、車線変更を実行したりするシステムの能力など、特定の運転シナリオでシステムのパフォーマンスを評価することもできます。

最新のエンドツーエンドシステムは、リーダーボードやNocrashなどの閉ループ設定で評価されています[79]。表Vは、Carla Public Leaderboardのすべての最先端の方法を比較しています。カーラリーダーボードは、環境で自律的な駆動システムを分析します。車両は、誤って歩行者を横切ったり、レーンを突然変更するなどの危険なシナリオを含む一連の指定されたルートを完成させることを任されています。リーダーボードは、設定された時間内に特定の町のルートで車両がどの程度うまく移動するか、そして発生する違反の数を測定します。以下で説明するように、運転システムを包括的に理解することができるいくつかの指標があります。

ルート完成（RC）：車両が完了できる距離の割合を測定します。
違反スコア/ペナルティポイント（IS）：は、違反を追跡し、違反のペナルティポイントを要約する幾何学シリーズです。車両は1.0のスコアから始まり、違反の罰則に基づいてさらに減少します。顧客サービスエージェントが違反を引き起こすことなく運転する頻度を測定します。
運転スコア（DS）：ルートの完了と違反の罰則の積として計算された主要なメトリックです。各ルートの違反によって重み付けされたルート完了率を測定します。

違反を評価するための特定の指標があり、違反が発生するたびに各指標にペナルティ係数が適用されます。歩行者との衝突、他の車両との衝突、静的要素との衝突、衝突レイアウト、赤い光違反、停止標識違反、およびオフロード違反は、使用されるメトリックの一部です。

09データセットとシミュレーション

データセット

エンドツーエンドモデルでは、データの品質と豊かさはモデルトレーニングの重要な側面です。異なるハイパーパラメーターを使用するのではなく、トレーニングデータはモデルのパフォーマンスに影響を与える最も重要な要因です。モデルに供給された情報の量は、生成する結果のタイプを決定します。カメラ、LIDAR、GNSS、ダイナミクスなどのセンサーモダリティに基づいて、自律運転データセットを要約します。データセットの内容には、都市の運転、交通、さまざまな道路状況が含まれます。気象条件は、モデルのパフォーマンスにも影響を与える可能性があります。 Apolloscapeなどの一部のデータセットは、晴れた日から雪の日までのすべての気象条件をキャプチャします。表VIは詳細情報を示します。

シミュレーションとツールセット

エンドツーエンドの運転および学習パイプラインの標準テストには、情報を処理し、そのさまざまな機能の結論を導入するための高度なソフトウェアシミュレータが必要です。このような運転システムの試験は高価であり、公道でのテストは厳密に制限されています。シミュレーション環境は、道路試験前に特定のアルゴリズム/モジュールをトレーニングするのに役立ちます。 Carlaのようなシミュレーターは、気象条件、交通の流れ、道路エージェントなど、実験的要件に基づいて環境を柔軟にシミュレートできます。シミュレーターは、安全性が批判的なシナリオを生成し、モデルがそのような状況を予防するために一般化して予測するのに役立つ重要な役割を果たします。

表VIIは、広く使用されているエンドツーエンドのドライブパイプライントレーニングプラットフォームを比較しています。 Matlab/Simulinkは、さまざまなセットアップに使用され、効率的なプロット機能が含まれており、他のソフトウェア（Carsimなど）と共感できます。 Prescanは、MatlabとCarsimが欠けている気象条件を含む、実世界の環境をシミュレートできます。また、Matlab Simulinkインターフェイスをサポートして、モデリングをより効果的にします。ガゼボは、その汎用性が高く、ROSとの簡単なつながりで知られています。 CarlaおよびLGSVLシミュレーターと比較して、Gazeboを使用してシミュレーション環境を作成するには、機械的な作業が必要です。 CarlaとLGSVLは、適切な速度とフレームレートで実行するためにGPU処理ユニットを必要とする高品質のシミュレーションフレームワークを提供します。カーラは非現実的なエンジンに基づいており、LGSVLはUnityゲームエンジンに基づいています。 APIを使用すると、ユーザーは、カスタマイズ可能なセンサーの開発からマップ生成まで、CarlaとLGSVLの幅広い機能にアクセスできます。 LGSVLは通常、さまざまなブリッジを介してドライバースタックに接続しますが、カーラはROSとAutowareを介したブリッジ接続を組み込みます。

10の将来の研究方向

1）堅牢性の学習：エンドツーエンドの自律運転に関する現在の研究は、主に強化学習と模倣学習方法に焦点を当てています。強化学習は、シミュレートされた環境と対話することによりエージェントを訓練しますが、ILは広範な環境相互作用なしに専門家エージェントから学びます。ただし、ILの分布変化やRLの計算不安定性などの課題は、さらなる改善の必要性を強調しています。マルチタスク学習も印象的なアプローチですが、自律運転研究でさらに調査する必要があります。
2）安全性の向上：安全性は、エンドツーエンドの自律駆動システムの開発における重要な要素です。車両が安全かつ正確に動作することを保証することは、不確実な行動が安全研究の重要な側面であることを保証します。効果的なシステムは、さまざまな運転状況を処理できるため、快適で信頼できる輸送を提供する必要があります。エンドツーエンドのアプローチの広範な採用を促進するには、セキュリティの制約を改良し、その有効性を改善する必要があります。
3）モデルの解釈可能性を改善する：解釈可能性の欠如は、エンドツーエンド駆動型開発に新たな課題をもたらします。しかし、人々は、解釈可能なセマンティック機能を設計および生成することにより、この問題を解決するために常に取り組んでいます。これらの取り組みは、パフォーマンスと解釈性の有望な改善を示しています。それにもかかわらず、結果として生じる失敗したモデル操作を説明し、潜在的なソリューションを提供するための新しい方法を設計するには、さらなる進展が必要です。将来の研究は、フィードバックメカニズムを改善する方法を探求し、ユーザーが問題を解決し、エンドツーエンドの運転システムの信頼性に対する自信を高めることができるようにすることができます。

11結論

過去数年間で、従来のモジュラー自律運転と比較して、設計のシンプルさのために、エンドツーエンドの自律運転に強い関心がありました。エンドツーエンドの運転研究における指数関数的な成長に牽引され、ディープラーニングを使用したエンドツーエンドの自律運転に関する包括的な調査を初めて実施しました。この調査論文は、エンドツーエンドの自律運転を理解するのに役立つだけでなく、この分野での将来の研究のガイドとしても役立ちます。

パターン、学習、トレーニング方法に基づいて研究を分類するための分類を開発しました。さらに、ドメイン適応方法を活用してトレーニングプロセスを最適化する可能性も調べます。さらに、この記事では、オープンループとクローズドループの評価を含む評価フレームワークも紹介し、システムパフォーマンスの包括的な分析を実施できます。この分野でのさらなる研究開発を促進するために、公開されているデータセットとシミュレーターの要約リストをまとめました。この記事では、さまざまな記事で提案されているセキュリティと解釈可能性に対する潜在的なソリューションについても説明します。エンドツーエンドのアプローチの印象的なパフォーマンスにもかかわらず、より広範な技術的受け入れを達成するには、継続的な調査とセキュリティと解釈の改善が必要です。

<<: 感情 AI はデジタルヘルスケアの未来となるでしょうか?

>>: Oracle データベース初期化パラメータの分析: システム構成を最適化するための究極のガイド!