エンドツーエンドの自動運転における軌道予測の今後の方向性とは?最新レビューを最前線でお届け!

エンドツーエンドの自動運転における軌道予測の今後の方向性とは?最新レビューを最前線でお届け!

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

論文リンク: https://arxiv.org/abs/2307.07527

ヒューマンエラーは、交通事故の約 94% に大きな影響を与え、死傷者、車両の損傷、安全上の問題 (エラー ±2.2%) につながるため、代替アプローチを検討する必要があります。自律走行車(AV)は、人間の運転手を高度なコンピューター支援意思決定システムに置き換える有望なソリューションとして登場しました。しかし、AV が道路を効率的に走行するためには、人間のドライバーの予測運転能力と同様に、近くの交通参加者の将来の行動を予測する能力が必要です。既存の文献を基に構築することは、この分野を前進させ、自動運転の文脈における軌道予測方法の包括的な理解を得るために重要です。このニーズに対応するために、私たちは、ディープラーニングや強化学習ベースの方法を含む機械学習技術に特に重点を置いて、AV の軌道予測方法に焦点を当てた包括的なレビューを実施します。私たちは、AV の軌道予測に関連する 200 件以上の研究を徹底的に調査しました。この論文では、まず車両の軌道を予測するという一般的な問題を紹介し、全体を通して使用される主要な概念と用語の概要を説明します。この論文では、従来のアプローチについて簡単に概説した後、いくつかのディープラーニングベースの技術の包括的な評価を示します。それぞれの方法について簡単にまとめ、その長所と短所を詳細に分析します。議論は強化学習ベースの方法にまでさらに拡張されます。この論文では、軌道予測タスクで一般的に使用されるさまざまなデータセットと評価指標についても研究しています。偏見のない客観的な議論を促すために、特定の機能特性を考慮して、2 つの主要な学習手順を比較しました。このレビューは、既存の文献の課題を特定し、潜在的な研究の方向性を概説することにより、AV 軌道予測の分野における知識の進歩に大きく貢献します。その主な目標は、現在の研究活動を効率化し、将来の展望を提供することで、最終的にはこの分野の将来の発展に役立てることです。

モチベーション

軌道予測は大きく進歩しており、一部の学者もこの分野で研究を行っています。表 I は、関連する調査の状況、およびさまざまな分類方法と貢献をまとめたものです。

動きの予測では、望ましい抽象化のレベルに応じて、オブジェクトの動作、アクション、または軌道を予測します。 「行動」という用語には、「道路を遵守し、安全な距離を保つ」などの一般的な行動とその実行方法が含まれます。一方、「操作」は、「右に曲がる」など、詳細な説明なしにオブジェクトが実行できる個別のアクションを指し、個別の時間ステップでオブジェクトの位置を記述することで、最も詳細なタイプの予測を提供します。これまでの調査では、主に自動運転車の分野における動きの予測と行動の予測に重点が置かれてきました。また、他のレビューでは車両と歩行者の軌道予測が混在していました。自動運転における軌道予測のための機械学習手法の包括的かつ専門的なレビューは、まだほとんど行われていません。さらに、コンピュータービジョンベースの方法、強化学習など、軌道予測の分野における最近の進歩のいくつかは、既存の調査では取り上げられていないため、これらについても調査する必要があります。したがって、この分野ではさらなる調査と研究を行う大きな可能性があります。

傾向

近年、自動車業界では自動運転がますます普及してきています。テスラ、ゼネラルモーターズ、BMWなどの有名自動車メーカーは、AD技術の開発に多額の投資を行い、自動運転車の軌道予測や関連技術に注力しています。軌道予測、運転支援、行動予測、軌道計画、障害物回避などのAD関連キーワードの世界的な検索傾向を図1と図2に示します。図 1 では、関連キーワードの比較により、同じ期間における変化が示されています。これは、運転支援と障害物回避が世界中で同様のレベルの注目を集めていることを示唆しています。しかし、ADの分野では、軌道予測、軌道計画、行動予測などのキーワードで近年進歩が遂げられています。軌道予測は自動運転におけるより具体的な領域に焦点を当てていることは注目に値します。図 2 には、キーワードに関連する世界全体の検索数の平均が示されています。注目すべきは、運転支援や障害物回避というキーワードは、軌道予測、軌道計画、行動予測などの他の用語と比較して検索数が多いということです。軌道予測は現在 AD 分野で開発されており、この分野への関心と発展が高まっていることを示しています。

主な貢献

要約すると、この論文の主な貢献は次のとおりです。

  • この論文では、機械学習ベースの方法に重点を置いた、自律走行車の軌道予測方法の実証的研究を紹介します。理解を深めるために、AV の軌道予測問題、関連用語、従来の方法について簡単に紹介します。
  • 物理ベースの方法、サンプリング方法、確率モデルなどの軌道予測における従来のアプローチを簡単に評価し、その長所と短所について説明します。
  • 自動運転車の軌道予測に一般的に使用されるディープラーニングと強化学習に基づく手法の包括的な評価を実施します。
  • 軌道予測方法のパフォーマンスを評価するために使用されるメトリックとデータセットの分析概要が提供されます。
  • これらの方法を比較し、各方法の長所と短所を分析します。さらに、課題と潜在的な研究の道筋も特定されます。

軌道予測法の応用技術

自動運転における軌道予測手法は、大きく分けて以下のカテゴリーに分けられます。

伝統的な方法

従来の軌道予測方法とは、自動運転 (AD) における道路利用者の将来の軌道を予測するために一般的に使用される従来の方法を指します。これらの方法は通常、高度な数学的および統計的手法に依存して、履歴データと事前定義されたモデルに基づいて予測を行います。一般的な従来の方法は次のとおりです。

  • 物理ベースのモデル: これらの方法は、物理法則と運動学の原理に基づいて車両の将来の軌道を予測します。現在の位置、速度、加速度、道路規制などの要素を考慮して将来の経路を予測します。
  • 運動モデル: これらのモデルは、物体の動きが等速度モデルや等加速度モデルなどの単純な数式で記述できると想定しています。物体の現在の状態と想定される運動ダイナミクスに基づいて将来の位置を推定します。
  • カルマン フィルター: カルマン フィルターは、追跡および予測タスクで広く使用されています。センサーの測定値と数学モデルからの予測を組み合わせて、物体の現在の状態を推定し、将来の軌道を予測します。
  • マルコフ モデル: マルコフ モデルは、オブジェクトの連続した状態間の確率的な相関関係を捉えます。履歴データを使用して遷移確率を推定し、最も可能性の高い状態のシーケンスに基づいて予測を行います。
  • 確率モデル: 確率的手法では、将来の軌道を確率分布として表すことで、軌道予測の不確実性を考慮します。これらのモデルは統計的手法を使用して最も可能性の高い軌道を推定し、信頼性の尺度を提供します。
  • ベイジアン フィルター: カルマン フィルターや粒子フィルターなどのベイジアン フィルターは、軌道予測に広く使用されています。これらのフィルターは、センサー測定値と動的モデルを組み合わせて、車両の将来の軌道を推定します。ノイズの多いセンサーデータを処理し、リアルタイムの予測を提供できます。

軌道予測の従来の方法は、通常、計算効率が高く、実装が比較的簡単です。ただし、複雑な相互作用や不確実性を伴う複雑なシナリオを処理するには限界がある可能性があります。そのため、軌道予測の精度と堅牢性を向上させるために、ディープラーニングや強化学習などのより高度な機械学習ベースの手法の検討への関心が高まっています。

ディープラーニングベースの手法

近年、ディープラーニングベースの手法は、自律走行車 (AV) の軌道予測において大きな注目を集めています。これらの方法は、人工ニューラル ネットワークの力を活用して、大量のデータから複雑なパターンと関係性を学習します。ディープラーニングに基づく一般的な軌道予測方法は次のとおりです。

  • リカレント ニューラル ネットワーク (RNN): 連続データをモデル化できるため、軌道予測で広く使用されています。 Long Short-Term Memory (LSTM) や Gated Recurrent Unit (GRU) などのモデルは、時間的な相関関係を捉え、過去の観察に基づいて将来の軌跡を予測することができます。
  • 畳み込みニューラル ネットワーク (CNN): CNN は主に画像処理タスクに使用されますが、軌跡データを画像のような表現として扱うことで軌跡予測にも適用できます。 CNN は、軌道データから空間的な特徴を抽出し、これらの特徴に基づいて将来の軌道を予測することを学習できます。
  • 生成的敵対ネットワーク (GAN): GAN は、ジェネレーター ネットワークと識別ネットワークで構成されます。これらは、現実的な将来の軌道を生成するジェネレータと、現実的な軌道と生成された軌道を区別する識別器をトレーニングすることで、軌道予測に使用できます。 GAN はトレーニング データの分布をキャプチャし、多様で合理的な軌道予測を生成できます。
  • 変分オートエンコーダー (VAE): VAE は、入力データの潜在的表現を学習する生成モデルです。過去の軌道の潜在空間表現を学習し、この潜在表現に基づいて将来の軌道を生成することで、軌道予測に使用できます。 VAE は多様な確率的軌道予測を生成できます。
  • Transformer モデル: もともと自然言語処理タスク用に導入された Transformer モデルは、軌道予測にも有望であることが示されています。これらのモデルは、シーン内のさまざまなエージェント間の長期的な依存関係と相互作用をキャプチャできます。関連する空間情報と時間情報に焦点を当てることで、Transformer モデルは正確な軌道予測を生成できます。

従来の方法と比較して、ディープラーニング ベースの方法は、複雑なパターンのキャプチャ、さまざまなシナリオの処理、より正確な軌道予測の生成においてパフォーマンスが向上しています。ただし、トレーニングと推論の両方に、大量のラベル付きトレーニング データと計算リソースが必要になります。さらに、学習したモデルの解釈可能性は課題となる可能性があるため、予測を検証し、実際のシナリオにおけるモデルの限界を理解することが重要です。

強化学習に基づく方法

強化学習 (RL) 手法は、自動運転 (AD) における軌道予測のために研究されており、将来の軌道を予測するための最適なポリシーを学習する独自のアプローチを提供します。 RL は伝統的に意思決定と制御に関連付けられていますが、軌道予測にも使用できます。軌道予測のための RL 手法をいくつか紹介します。

  • 逆強化学習 (IRL): IRL の背後にある重要な考え方は、通常は人間のドライバーが提供する専門家のデモンストレーションを観察して分析し、その行動の動機となる根本的な報酬関数を推測することです。この推定報酬関数は、観察された専門家の行動と一致する将来の軌道を予測するために使用できます。
  • ディープ逆強化学習 (ディープ IRL): ディープ IRL は、ディープ ニューラル ネットワークと AD の軌跡を予測するための IRL フレームワークを組み合わせた逆強化学習の拡張機能です。 Deep IRL は、ディープラーニング技術を使用して専門家のデモンストレーションから潜在的な報酬関数を推測し、報酬関数のより複雑で高次元の表現を可能にすることを目的としています。
  • 模倣学習 (IL): 軌道予測のための IL により、自律システムは人間のドライバーの動作を模倣し、専門家のデモンストレーションと一致する軌道を生成できます。人間のドライバーの知識と専門知識を活用して、より人間らしい予測を行い、人間の運転と同様の方法で環境をナビゲートします。

軌道予測に RL 手法を適用することで、モデルはデータと環境との相互作用から学習し、将来の軌道について正確な予測を行うことができます。ただし、RL アルゴリズムの複雑さとトレーニング データの可用性との間のトレードオフ、およびさまざまな運転シナリオや現実世界の環境における不確実性への一般化の課題を考慮することが重要です。

従来の軌道予測方法

このセクションでは、予測方法を物理ベースモデル、サンプリング法、確率モデルの 3 つの主なカテゴリに分類します。表 II は、軌道予測の従来の方法とその限界および利点を簡単にまとめたものです。図 6 では、いくつかの従来の方法と、自律走行車 (AV) の軌道予測タスクを解決する上でのそれらの役割について説明します。論文の分析の結果、この調査では、論文の 56% が確率法に焦点を当て、論文の 35% がサンプリング法に焦点を当て、残りの 9% の論文がサンプリング法に専念していることがわかりました。

物理学に基づく方法

提案された物理ベースの予測モデルの最初のクラスは、対象物体の将来の動きをモデル化するための基礎として古典力学の運動方程式を使用します。物理的な動作は、動的モデルまたは運動学モデルのいずれかを使用して記述できます。ダイナミクス モデルでは、動きの原因となるタイヤの横方向および縦方向の力が考慮されますが、予測精度と計算量のバランスをとるために、通常は基本的なダイナミクス モデルが選択されます。対照的に、運動学モデルは形式が単純なためより一般的に使用されており、カルマン フィルター (KF) 技術は、不確実性やノイズなど、車両の現在の状態における外乱に対処できます。例えば、Zhang らは、車車間通信と KF に基づいて、ホスト車両が遠隔車両の軌道を予測し、障害物を回避できるようにする方法を提案しました。

サンプリングベースの方法

これらの技術には、交通参加者の将来の状態をサンプリングすることが含まれます。これらの方法は、単一の軌道を予測するのではなく、可能性のある車両の状態の分布を生成するため、ノイズや不確実性に対してより堅牢になります。サンプリングには、複数の軌道セグメントまたは粒子状態を生成するという 2 つの主なタイプがあります。 Houenou らは、この研究で、操縦ベースのアプローチと一定のヨーレートと加速度を仮定したモデルベースのアプローチ (CYRA) を組み合わせた軌道予測法を開発しました。彼らは操縦を決定し、コスト関数を最小化することによって生成されたセットから最適な軌道を選択しました。

確率モデル

軌道予測における確率的フレームワークとは、確率理論を使用して、車両、歩行者、その他の移動物体などの物体または実体の将来の軌道の可能性をモデル化し、推定することを指します。予測プロセスにおける不確実性と変動性を表現し、予測軌道の確率分布または信頼度尺度を提供することが含まれます。確率論的枠組みでは、軌道予測は条件付き確率問題として定式化されることが多く、その目的は観測された過去の軌道、センサー測定値、およびその他の関連情報に基づいて将来の軌道の確率分布を推定することです。これには、確率モデル、統計手法、機械学習アルゴリズムを組み合わせて、データ内の不確実性と相関関係を捉えることが含まれます。

  • ガウス混合モデル: ガウス混合モデル (GMM) は、データの不確実性と複雑さを捉えるために軌道予測でよく使用される確率モデルです。これは、軌道の分布を複数のガウス分布の組み合わせとして表します。各ガウス分布は、軌道の可能なモードまたはクラスターを表します。要約すると、GMM は、データ内の複雑なパターンと変動を捉えることで、軌道予測のための一般的かつ堅牢なアプローチを提供します。これらはマルチモーダル分布を処理できるため、車両が示すさまざまな操作タイプや動作パターンを表現できます。ただし、トレーニングと推論に GMM を使用すると計算コストが高くなる可能性があることに注意することが重要です。さらに、モデル内のガウス成分またはモードの最適な数を決定することは、困難な作業になる可能性があります。
  • ガウス過程: 軌道予測にガウス過程 (GP) を使用する場合、軌道は時間軸に沿って GP から抽出されたサンプルと見なされます。これらのサンプルは N 個の離散点によって表され、N 次元空間にマッピングされます。この N 次元空間では、サンプルはガウス分布に従います。モデリング ステップでは、GP モデルの主な目的は、これらのサンプルに基づいて GP パラメータを推定することです。観測された軌跡のサンプルに GP を当てはめることにより、モデルはデータの根本的なパターンとダイナミクスを捉えます。平均や共分散などの GP パラメータは、GP の特性を定義し、予測される軌道の形状と不確実性を決定します。結論として、GP は柔軟性、確率的予測、適応性、および他の技術との潜在的な統合により、AV の軌道予測に役立つツールです。ただし、軌跡サンプル ベースの方法の 1 つの制限は、新しい環境への適用性が限られていることです。これにより、さまざまなシナリオや環境への適応性が妨げられます。
  • 隠れマルコフモデル: 隠れマルコフモデル (HMM) を使用した軌道予測では、観測シーケンスは交通参加者の以前の状態で構成されます。 HMM アルゴリズムは、過去の観測に基づいて将来の観測の最も可能性の高いシーケンスを推定するために適用されます。要約すると、HMM は時間的な相関関係を捉え、欠損データやノイズの多いデータを処理し、将来の軌道を予測する際の不確実性を考慮できるため、軌道予測に非常に有益です。ただし、HMM の 1 つの仮定は、隠れ状態がマルコフであるということです。つまり、将来の状態への遷移の確率は現在の状態のみによって決まります。
  • 動的ベイジアン ネットワーク: 時系列を組み込み、ベイジアン ネットワーク フレームワークを活用することで、動的ベイジアン ネットワーク (DBN) は、軌道予測に対する操作ベースのアプローチを提供します。 DBN とベイジアン ネットワークは、確率的推論を実行するための基本的な概念と方法を共有しています。要約すると、軌道予測に使用する場合、DBN は交通参加者間の相互作用を考慮するため、従来の機械学習ベースの方法のパフォーマンスが向上します。しかし、DBN は、操作を正確に識別し、軌道を生成するという点で依然として課題に直面しています。既存の方法の多くは、車線維持や車線変更など、2 つまたは 3 つのアクションを区別することに限られており、モデルの幅広いシナリオにわたる一般化能力が制限されます。したがって、DBN ベースの方法をさらに改良して、操縦認識機能を強化し、軌道予測タスクにおけるモデルの一般化能力を向上させる必要があります。

要約する

ディープラーニングに基づく予測手法

従来の予測手法は、基本的な予測シナリオと短期予測タスクにのみ有効です。ディープラーニングベースの軌道予測モデルは、正確な予測に貢献するさまざまな要素を考慮できるため、人気が高まっています。これらのモデルでは、車両の位置、速度、加速度、サイズ、形状などの物理的要因を考慮に入れます。また、交通標識、信号、道路の形状、道路の障害物など、道路関連の要因も考慮に入れました。さらに、車両間の距離、相対速度、通信システムの存在など、相互作用に関連する要因も考慮されます。図 7 はこれらの方法の概要を示しています。次のセクションでは、自律走行車 (AV) の軌道予測のための最も一般的なディープラーニング ベースの方法の概要を説明します。

シーケンスモデリング

ディープラーニング ベースの軌道予測方法では、通常、シーケンス ネットワークを使用して履歴軌道から特徴を抽出し、出力レイヤーとして機能します。これらのネットワークには通常、再帰型ニューラル ネットワーク (RNN)、時間的畳み込みニューラル ネットワーク (TCN)、注意メカニズム (AM)、トランスフォーマーが含まれます。図 8 は、軌道予測の順次モデリングでさまざまなアルゴリズムを使用した研究論文の割合の分布を視覚的に表したものです。 RNN、AM、Transformers などの他のアルゴリズムと比較すると、TCN は AV 軌道予測タスクではあまり使用されていないことがわかります。

  • RNN: リカレント ニューラル ネットワーク (RNN) は時間情報の処理を目的として設計されており、従来の機械学習手法と畳み込みニューラル ネットワーク (CNN) は空間情報の処理に適しています。過去のタイムステップ データの記録を保持し、入力状態と非表示状態を組み合わせて目的の出力を生成します。ただし、多数の時間ステップを処理する場合、RNN の勾配が弱くなったり爆発したりして、問題が発生する可能性があります。この問題に対処するために、Long Short-Term Memory (LSTM) や Gated Recurrent Unit (GRU) などのゲート付き RNN が開発されました。 RNN ベースの軌道予測モデルは、単一の RNN モデルと複数の RNN モデルに分類されます。操縦または単峰性軌道予測に基づいて軌道を予測するには、単一の RNN モデルが使用されます。さらに、補助モデルに組み込むことで、知覚的相互作用の予測などのより複雑な機能を実現できます。ニューラル ネットワークの開発により、さまざまな種類の RNN アーキテクチャが広く使用されるようになりました。 RNN は軌道予測などのデータシーケンスの分析と予測に広く使用されていますが、空間関係 (車両の相互作用など) のモデリングや画像のようなデータ (運転シーンのコンテキストなど) の処理には限界があります。このため、複雑な RNN ベースのソリューションでは、単一の RNN の制限を克服するために複数の手法が必要になることがよくあります。要約すると、RNN は時間的依存性を効果的にモデル化することで、軌道予測のための強力なアプローチを提供します。可変長のシーケンスを処理し、解釈可能性を提供できます。ただし、勾配の消失や爆発、および順次計算の制限が発生する可能性があります。 RNN を軌道予測タスクに適用する場合、これらの要素を理解することが重要です。表 III は、RNN ベースの軌道予測方法をまとめたものであり、秒単位の予測期間 (PH) と予測される軌道の数に関する情報を示しています。この表には、トレーニングとテストに使用される評価メトリック (EM) も含まれており、各研究の長所と短所が強調されています。

時間畳み込みネットワーク

Temporal Convolutional Network (TCN) は、軌道予測タスクによく使用されるディープ ニューラル ネットワーク アーキテクチャです。軌道予測タスクでは、TCN は過去の軌道データに基づいてトレーニングされ、車両や歩行者の将来の軌道を予測するために使用されます。

要約すると、TCN は、軌道予測タスクにおける時間依存性をモデル化する強力な方法を提供します。これらは短期的および長期的なダイナミクスの両方を捉えることに優れており、効率的な並列計算を実行し、解釈可能な受容野を持っています。ただし、空間関係と長期記憶については追加の考慮が必要になる場合があります。表 IV は、予測期間 (秒単位)、予測される軌道の数、トレーニングとテストに使用される評価指標など、TCN ベースの軌道予測方法をまとめたものです。この表では、各研究の長所と短所も強調されています。

注意メカニズム

注意メカニズム (AM) は、限られた注意リソースを使用して大量のデータから価値の高い情報を効率的に抽出することで、人間の思考プロセスを近似する認知モデルです。これはディープラーニングタスクで頻繁に使用され、自己注意は入力シーケンスに基づいて重みと新しいコンテキストベクトルを識別する一般的な方法です。最近のいくつかの研究では、軌道予測と意図推定に注意メカニズムが使用されています。

要約すると、軌道予測における注意メカニズムにより、関連情報に焦点を合わせ、可変長シーケンスを処理し、解釈可能性を提供し、ノイズに対する堅牢性を強化するモデルの能力が向上します。ただし、計算オーバーヘッド、モデルの複雑さ、注意バイアス、データ依存性に関連する潜在的な欠点もあります。表Vは、注意に基づく軌道予測方法を包括的にまとめたものです。これには、予測期間 (秒単位)、予測される軌跡の数、トレーニングとテストに使用される評価メトリックなどの重要な情報が含まれます。さらに、この表は各研究の長所と短所についての洞察を提供します。

トランス

Transformer は、注意メカニズムの概念を活用したニューラル ネットワーク設計であり、さまざまなプロジェクトで使用されてきました。要約すると、トランスフォーマーは複雑な依存関係と相互作用を捉えることで、軌道予測の可能性を示しています。スケーラビリティ、転移学習機能、複数のエージェントを処理する機能を提供します。ただし、膨大な計算リソースが必要となり、解釈可能性やデータ効率の面で課題が生じる可能性があります。表 VI は、Transformer ベースの軌道予測方法をまとめたものであり、予測期間 (秒単位)、予測される軌道の数、トレーニングとテストに使用される評価メトリックなどの主要な詳細を示しています。さらに、表では各研究の長所と短所が強調されています。

視覚モデリングに基づく

予測方法には 2 種類あり、予測を策定する方法が異なります。 1 つ目は鳥瞰図 (BEV) アプローチで、アルゴリズムを使用して、トップダウンの地図のようなビューでデータを処理します。 2 つ目は、自車両の視点から世界を観察する自車両カメラ予測です。ただし、さまざまな要因により、エゴカーカメラアプローチは一般に BEV アプローチよりも困難です。まず、BEV アプローチは視野が広く、より正確な予測を提供しますが、エゴカー カメラ アプローチは視野が狭く、予測範囲が限られています。さらに、エゴカーカメラアプローチは、BEVアプローチよりも障害物の影響を受けやすくなります。これらの困難にもかかわらず、ほとんどの車両は道路上のターゲットエージェントと EV の位置を特定するためのカメラにアクセスできないため、エゴカーカメラアプローチは EV のみのアプローチよりも依然として有益です。したがって、予測システムは、図 9 に示すように、自車両の視点から世界を見ることができるはずです。さまざまなビジョンベースの技術と、それらが自律走行車の軌道予測タスクの解決にどのように貢献しているかを図 10 に示します。 AV の研究論文では、各技術が軌道予測にほぼ同等に貢献しているとされています。このセクションでは、この問題の解決における畳み込みニューラル ネットワーク (CNN) とグラフ ニューラル ネットワーク (GNN) の応用に焦点を当てます。

CNN

畳み込みニューラル ネットワークは、軌道予測を含むさまざまなコンピューター ビジョン タスクに効果的に適用されてきました。 CNN は主に画像データ用に設計されていますが、軌道シーケンスを構造化されたグリッドのような入力として扱うことで、軌道予測に適応させることができます。

ただし、CNN フレームワークを使用するほとんどの技術では、鳥瞰図 (BEV) を入力として受け取り、交通状況をトップダウンで表示します。 BEV 画像は、LiDAR ポイント クラウド、占有グリッド (OG)、高解像度マップ (HD マップ) など、複数のデータ ソースを使用して作成できます。最近のいくつかの研究では、CNN を利用して複雑な BEV 表現から特徴を抽出しています。

要約すると、CNN は空間パターンをキャプチャし、軌跡データ内の空間関係を識別するのに優れています。パラメータ共有の点で効率的であり、より大きなデータセットを処理できます。ただし、時間的な依存性をモデル化したり、可変長のシーケンスを処理したりするのが難しい場合があります。表 VII は、秒単位で測定された予測期間と予測される軌道の数を含む、CNN ベースの軌道予測方法をまとめたものです。この表には、トレーニングとテストに使用される評価指標の概要も示されており、各研究の長所と短所も強調されています。次のセクションでは、GNN に基づいて車両の軌道を予測するアプローチを紹介します。

GNN

相互作用関連の要因を考慮した予測手法を検討する場合、環境の各要素はグラフ内のノードとして考えることができます。しかし、現実世界の多くのアプリケーションは非ユークリッド空間からデータを生成し、ユークリッド空間データを分析するための従来のディープラーニングベースの方法は、この設定ではパフォーマンスが低下します。すべてのシーンは、可変サイズの順序付けられていないノードを持つ不規則なグラフとして表現できます。また、畳み込みなどの一部の主要な操作は、近くのノードの数の変動により、グラフに直接適用できません。ただし、グラフ内の各ノードはエッジを介して他のノードに接続されており、これを使用してさまざまなオブジェクトの相互依存性を判断できます。グラフ ニューラル ネットワーク (GNN) は、相互作用する相関要素に基づいて車両の軌道を予測するという課題に適しています。方法を図11に示します。

  • GCN: グラフ畳み込みネットワーク (GCN) は、グラフ ニューラル ネットワークの分野でよく使われる手法です。畳み込み演算を従来の画像データ処理からグラフデータ処理に拡張します。重要なアイデアは、ネットワーク内のノードとその隣接ノードの特徴から相互作用を考慮した特徴を抽出できるマッピング関数を作成することです。要約すると、GCN は、オブジェクト間の空間的な依存性と関係を明示的にモデル化することにより、軌道予測のための有望なアプローチを提供します。コンテキスト情報を効果的にキャプチャし、不規則なグラフ構造を処理できます。ただし、GCN を軌道予測タスクに適用する場合は、スケーラビリティ、グラフ構築、および時間依存性モデリングを慎重に考慮する必要があります。表VIIIは、GCNベースの軌道予測方法の概要を示しています。これには、秒単位で測定された予測期間、予測された軌道の数、およびトレーニングとテストに使用される評価メトリックが含まれます。この表は、各研究の長所と短所も強調しています。

  • GAN:ワンホップ近隣からデータを収集する方法は、グラフ注意ネットワーク(GAT)とGCNによって大きく異なり、GATは静的正規化畳み込みプロセスではなく注意メカニズムを採用しています。要約すると、GATを使用すると、モデルはグラフの関連ノード(車両、歩行者など)に焦点を合わせて、さまざまな重みを割り当てて、特定のオブジェクトの軌跡を予測するための各ノード機能の重要性をキャプチャします。ただし、GATのパフォーマンスは、グラフ構造の品質と表現に大きく依存します。適切なグラフ表現を設計し、ノードとエッジの選択を検討することは、最良の結果を達成するために重要です。表IXは、GANベースの軌道予測方法を要約し、予測される軌跡の数と数秒で測定された予測地平線を強調しています。この表は、各研究の長所と短所、およびトレーニングとテストに使用される評価メトリックに関する洞察も提供します。

  • 他のGNN:HDマップは、自律車両の軌跡予測において重要な役割を果たします。 HDマップは、車線のマーク、交通信号、道路境界など、道路網に関する詳細な情報を提供します。これは、車両または歩行者の将来の軌跡をより正確に予測するのに役立ちます。研究者は、自律的な車両軌道予測の精度と堅牢性を改善するために、高精度マップ、センサーデータ、機械学習アルゴリズムなど、複数の情報源を統合する方法を模索しています。表Xは、予測された軌跡の数と数秒で測定された予測期間に焦点を当てた、軌道予測のための他のグラフニューラルネットワークベースの方法をまとめたものです。この表は、各研究の長所と短所、およびトレーニングとテストに使用される評価メトリックも提供します。

CNNとGNNの組み合わせ

一部の研究者は、RNNとCNNの組み合わせを使用して、軌道予測のために時間的および空間情報を処理するモデルを提案しています。表XIは、CNNベースの軌道予測方法をまとめたもので、予測される軌道の数と数秒で測定された予測期間を強調しています。この表は、トレーニングとテストに使用される評価メトリックを含む、各研究の長所と短所も強調しています。

生成モデル

マルチモーダルの軌跡を予測すると、結果の多様性の可能性があるため、課題と不確実性が発生します。この問題に対処するために、一部の研究者は生成モデルに目を向けて、基礎となる多様性をキャプチャできるマルチモーダル軌跡を作成しました。ただし、マルチモーダル軌道予測モデルが効果的であるためには、その出力分布が多様性、社会的受容性、制御可能性などの特定の要件を満たす必要があります。 1つのグラウンドトゥルースのみを使用して最適な分布を達成することは困難な場合があり、それほど多様で容認できない予測につながる可能性があります。この課題を克服するために、生成的敵対ネットワーク(GANS)と変分自動エンコーダー(VAE)が解決策として提案されています。図12は、軌跡予測タスクの自律車両(AVS)を支援する際の2つの生成モデルに関する研究論文の参加(パーセンテージで表現)を示しています。両方のモデルは、予測プロセスにほぼ等しく貢献し、正確な軌跡予測を生成する際の共通の責任を示しています。

  • GAN:軌道予測タスクでは、入力データに基づいて現実的な軌跡を生成するために、生成的敵対ネットワーク(GAN)が使用されます。ジェネレーターは、履歴軌道データを入力として取得し、将来の軌跡を生成しますが、識別子は生成された軌跡の信頼性を評価します。発電機は、識別子をだまして生成された軌跡が現実であると信じることにより、生成された軌道のリアリズムを改善するように訓練されています。この方法は図13に示されています。表XIIは、GANベースの軌道予測方法をまとめたものです。

  • VAE:Autoencoder(AE)は、エンコーダーを使用してデータを圧縮し、デコーダーを使用してデコードして、最小再構成エラーで再構築された出力を生成します。ただし、AEは、単にデータを「記憶」し、データ生成機能が限られていると批判されています。対照的に、変異自動エンコーダー(VAE)には、空間全体を生成する能力があり、自動エンコーダーの非正規化された潜在スペースの問題を解決します。 VAEは、再建の損失と類似性の損失を最小限に抑えることを目指しています。表XIIIは、変分自動エンコーダーに基づいた軌道予測方法をまとめたものです。

強化学習ベースの方法

RL手法は、潜在コスト関数を推定するか、軌道予測の最適なポリシーを直接識別するために使用されます。どちらのアプローチでも、観測されたエージェントは、特定のコスト関数に基づいて最適なポリシーを利用することにより、常に目標を達成しようとすると想定されています。図15は、AVでのRLメソッドの適用を示しています。 MDPのフレームワーク内で、RLベースの方法は、以下で説明するように、逆補強学習(IRL)メソッド、模倣学習(IL)メソッド、および深いIRLメソッドに分けることができます。図14は、パーセンテージで表されるRLのさまざまなバリアントに関する研究記事の分布と、AVSの軌跡予測のタスクの解決に関与していることを示しています。

逆強化学習

逆補強学習(IRL)の背後にある主なアイデアは、観測されたエージェントの行動を説明する報酬機能を学ぶことです。 IRLの目標は、観測された軌跡を直接模倣することではなく、根本的な動機またはそれらの軌跡を推進する目標を理解することです。報酬関数を推測することにより、アルゴリズムは観測された軌跡を超えて一般化し、将来の軌跡について予測することができます。要約すると、IRLにはより深い洞察とより柔軟な軌道予測を提供する可能性がありますが、専門家のデモンストレーションの要件と品質と計算の複雑さに関連する課題は、実際のアプリケーションで慎重に考慮する必要があります。

深い逆補強学習

Deep Inverse Renforcement Learning(Deep IRL)は、エンタープライズディープニューラルネットワーク(DNN)の専門家デモンストレーションから報酬機能を学ぶための逆補強学習(IRL)の拡張です。

要約すると、Deep IRLは、深いニューラルネットワークを活用することにより、より強力で適応的な軌道予測モデルの可能性を提供します。ただし、自律運転の軌跡予測でのアプリケーションを成功させるには、データ要件、計算の複雑さ、解釈可能性、および過剰適合に関連する課題に慎重に対処する必要があります。

模倣学習

逆補強学習(IRL)アルゴリズムの欠点は、直接的な報酬機能がほとんどまたはまったくない状況でトレーニングすることが困難であることです。この問題に対処するために、模倣学習(IL)が解決策として提案されています。 ILは、コスト機能を必要とせずに、専門家の観察に基づいてポリシーを迅速に決定することを目指しています。要約すると、ILとGailは、報酬が限られているか、直接報酬機能がない場合にRLアルゴリズムのトレーニングの課題に対処できる有望なアプローチです。人間の運転行動をモデル化し、現実的な予測を生み出すことでの成功は、他の現実世界のシナリオでのアプリケーションの可能性を開きます。表XIVは、強化学習ベースの軌道予測方法をまとめ、各研究の長所と短所を強調しています。

データセット

データセットを次の表にまとめます。

評価インジケーターは、次の表にまとめられています。

話し合う

このセクションでは、提案されたモデルの公正な評価を代表モデルとの比較を通じて提示します。選択された基準には、軌道予測タスクに関連するさまざまな要因と、このフィールドでモデルを使用するための全体的な前提条件が含まれます。それにもかかわらず、この比較は一般的なパターンを明らかにし、特定の機能と使用シナリオの理解を提供します。ディープラーニングベースのモデルと強化学習ベースの方法を比較する必要があります。比較結果は、表XVIIにまとめられています。

深い学習ベースのモデルは、長期的な予測を最大8秒にすることができるため、長期間にわたって正確な予測を生成する能力を実証しています。ただし、これらのモデルはしばしばニューラルネットワークで構成されているため、ブラックボックスモデルと見なされているため、解釈可能性を低下させ、検証と承認の観点から課題を提示する可能性があります。それにもかかわらず、これらのモデルは、オブジェクトの相互作用やセマンティックデータを含む複数のソースからニューラルネットワークにさまざまな機能を統合できるため、全体的性の利点があります。ただし、優れた予測パフォーマンスを得るには、効果的な機能を慎重に選択することが重要です。空間的特徴と対応する表現を使用すると、被験者間の相互作用を考慮することができ、インタラクティブな認識が可能になります。ディープラーニングベースのモデルは、さまざまなレベルの抽象化で複雑なプロセスを記述でき、予測結果として軌道を出力できます。ただし、これらのモデルは、包括的で堅牢な予測を実現するために、特定のアプリケーション領域の効果的なトレーニングデータを反映する必要があります。したがって、これらのモデルは非常にデータ依存性です。さらに、これらのモデルの適応性は、モデルトレーニングデータの範囲内のシナリオに限定されています。その全体的なアプローチにより、ディープラーニングベースのモデルは、使用されるニューラルネットワークのサイズによって強く影響を受ける高い計算コストに関連付けられていることがよくあります。ただし、現在の技術状態では、ディープラーニングベースのモデルが最高の予測精度を提供します。

補強学習ベースのアプローチは、長期的な予測を行うこともできます。ただし、解釈可能性の程度は、使用される特定の方法によって異なります。間接モデルは、戦略の提案された出力を解釈するために使用できる状態アクションタプルにマッピングされたコスト関数を生成します。それにもかかわらず、専門家の議論からコスト関数がどのように決定されるかを説明することは困難です。出力ポリシーの直接モデルは、デモンストレーションからコスト関数を明示的に推測するものではなく、説明が容易になります。これらのモデルは、複数のオブジェクト間の相互作用を入力機能として直接扱うことができます。さらに、ロードマップからのセマンティック情報を含む幅広い機能を入力として使用して、これらのモデルを統合することができます。

強化学習ベースのモデルは、基礎となる戦略を活用することにより、複雑な戦略を説明できます。ただし、モデルの出力は通常、オブジェクトが実行できる状態アクションタプルが含まれているため、通常は離散操作で構成されています。明示的な軌跡は後続のモジュールから導き出すことができますが、これらのモデルはトレーニングのためにデモンストレーションを含むさまざまなデータに大きく依存しています。包括的なコスト関数または堅牢な戦略を抽出することは、専門家の行動観察に強く依存しているため、正しくトレーニングすることが困難であるため、特に困難です。強化学習ベースのモデルは、オブジェクトの動きを推測して、未知のシナリオに適応できるように設計されています。ただし、深い学習ベースのモデルと同様に、補強学習方法に基づく全体的なモデルには、計算コストが高くなります。さらに、堅牢な戦略を学習する複雑さは、予測の精度に悪影響を与える可能性があります。

課題と今後の動向

チャレンジ

  • 不確実性:トラフィックエージェントの将来の軌跡は本質的に不確実であり、100%正確であると予測することはできません。センサー測定のノイズ、予測不可能な環境の変化、他の交通エージェントの未知の意図など、さまざまな要因がこの不確実性につながる可能性があります。
  • 複雑なダイナミクス:交通剤の動きは、重力、摩擦、空力を含むさまざまな物理的法則の影響を受ける可能性があります。これらのダイナミクスは非常に複雑で非線形である可能性があるため、正確にモデル化することは困難です。
  • センサーのカバレッジは限られています。自動運転車は、カメラ、ライダー、レーダーなどの環境を感知するためにセンサーのセットに依存しています。ただし、図18に示すように、これらのセンサーのカバレッジは制限されており、閉塞、気象条件、および他のトラフィックエージェントの動きを正確に追跡することを困難にする可能性のあるその他の要因の影響を受ける可能性があります。
  • 限られたデータ:場合によっては、軌道予測で利用可能なデータが制限または不完全になる場合があります。これは、センサーが故障したときに発生したり、履歴データが失われたり破損したりする可能性があります。
  • 長期予測:長期範囲で軌跡を予測する(3秒以上)は、初期予測の小さなエラーが悪化し、実際の軌道からの重大な逸脱につながる可能性があるため、困難な場合があります。
  • 複雑な道路環境:自動運転車は、交差点、ラウンドアバウト、混雑した都市部など、複雑で動的な道路環境で動作します。これらの環境で軌跡を予測するには、他の車両、歩行者、サイクリストなど、複数の被験者間の複雑な相互作用を処理できるモデルが必要です。
  • マルチモーダル出力:自律運転では、エージェントの行動はマルチモダリティを示します。ここでは、図19に示すように、過去の軌跡が複数の潜在的な将来の軌跡を持つことができます。
  • まばらでうるさいデータ:特に建物やその他の構造がセンサーと追跡されるオブジェクトの間の視線を妨げる可能性のある都市部では、センサーからのデータはまばらでうるさいことがあります。これにより、時間の経過とともに他のトラフィックエージェントの動きを正確にモデル化することが難しくなる可能性があります。
  • マルチエージェントの相互作用:多くの現実世界のシナリオでは、複数のエージェントが相互作用し、その軌跡は相互依存しています。 1つのプロキシの軌跡を予測すると、図20に示すように、他のプロキシの動作に依存する可能性があります。これにより、問題がさらに困難になります。
  • 不均一環境:不均一な環境とは、さまざまなタイプの車両、歩行者、サイクリスト、さまざまな種類の道路、それらの間の複雑な相互作用など、さまざまな要素を含む環境を指します。この環境で軌道を効果的に予測するには、予測モデルは、さまざまなタイプのエージェントを検討し、コンテキスト情報を組み合わせ、センサーデータを融合し、複数のエージェント間のモデルの相互作用、不確実性を推定し、適応性を実現する必要があります。
  • 安全性批判的なアプリケーション:自動運転車は安全性が批判的なシステムであり、軌道予測のエラーは、事故や怪我を含む深刻な結果をもたらす可能性があります。したがって、軌道予測アルゴリズムは、明確なセキュリティマージンを使用して、非常に正確で信頼性が高い必要があります。
  • リアルタイムの制約:自動運転車はリアルタイム環境で動作し、軌道予測アルゴリズムはリアルタイムでデータを処理して予測を生成できる必要があります。これには、センサーによって生成された大量のデータを処理できる効率的なアルゴリズムとハードウェアアーキテクチャが必要です。

今後の方向性

  • コンテキストと意図の組み合わせ:現在の軌道予測方法の制限の1つは、通常、他の車両の動きにのみ焦点を当てていることです。これは、軌道予測の精度を改善するために、道路レイアウトや交通ルールなどのコンテキスト情報、および他のドライバーの意図をどのように調査するかを探る将来の研究なしです。
  • マルチセンサー統合:自動運転車は、環境を感知するためにセンサーのセットに依存しています。これには、カメラ、LIDAR、レーダー、その他のセンサーからデータを融合するための新しいアルゴリズムの開発、およびアコースティックセンサーやサーマルセンサーなどの新しいセンサーモードの探索が含まれます。
  • 不確実性モデリング:軌道予測は本質的に不確実であり、将来の研究では、予測パイプラインを介して不確実性をモデル化および伝播する方法を探ることができます。これには、ベイジアンニューラルネットワークなどの新しい確率モデルの開発、または不確実性を定量化および伝播するための新しいテクノロジーの探索が含まれる場合があります。
  • 人間の知覚軌跡予測:自動運転車が動作する環境には、他の車両だけでなく、歩行者やサイクリストも含まれます。将来の研究では、人間の行動を知覚し、混雑した都市環境での歩行者とサイクリストの動きを正確に予測できる軌道予測方法を開発する方法を探ることができます。
  • リアルタイムの実装とハードウェアアクセラレーション:自動運転車はリアルタイム環境で動作し、軌道予測アルゴリズムはデータを処理してリアルタイムで予測を生成できる必要があります。将来の研究では、リアルタイムのパフォーマンスのために軌道予測アルゴリズムを最適化する方法と、効率的なコンピューティングのための新しいハードウェアアーキテクチャの開発方法を探ることができます。
  • 安全性と堅牢性を確保する:自律運転システムでは安全性が重要です。将来の研究では、安全性と堅牢性を優先する軌道予測方法の開発に焦点を当てる必要があります。これには、まれまたは異常を処理するための手法の研究、困難な気象条件の予測の精度の向上、軌跡予測アルゴリズムの倫理的側面の考慮が含まれます。
  • 相対軌道予測:相対軌道予測とは、自転車または座標系に比べて、周囲のオブジェクトまたはエージェントの将来の動きまたは経路を予測するタスクを指します。将来の研究では、自転車と比較して、他の車両、歩行者、サイクリストの相対的な変位、速度、軌跡の推定に焦点を当てる必要があります。
  • ランダムな障害の知覚された軌道予測:このアプローチとは、周囲の環境に予期しない障害物またはランダムな障害物の存在を考慮した場合の車両の将来の軌跡を予測することを指します。これらの障害物は、道路間の動物または物体、歩行者の突然の到着、および道路間の不確実な障害につながる道路事故です。将来の研究では、まれなイベントを予測モデルに組み込み、これらのまれなイベントに関連するデータを収集して分析して、より包括的で堅牢な予測モデルを開発することに焦点を当てる必要があります。
  • 困難な気象条件:大雨、雪、霧、視界の低さなどの厳しい気象条件は、センサーの性能に影響を与え、軌道予測の重要なデータの可用性を制限する可能性があります。将来の研究では、厳しい気象条件下での軌道予測の信頼性と精度を改善するために、センサー融合、適応フィルタリング、確率モデリング、機械学習などの技術の組み合わせに焦点を当てる必要があります。
  • 車両間(V2V)通信および車両間(V2X)通信戦略:V2V通信とは、車両間の情報の直接交換を指します。 V2X通信はV2Vを超えて拡張され、インフラストラクチャ、歩行者、サイクリスト、交通管理システムなどの他のエンティティとの通信が含まれます。場所、速度、加速、意図などのリアルタイムデータを共有することにより、車両は協力して軌道予測を強化できます。
  • いくつかのアプローチの組み合わせ:セクション3、4、および5は、軌道予測タスクに対処するための複数の戦略を提案しています。特定の環境と要件に応じて、ミキシングは異なる形をとることができます。これにより、より正確で堅牢な軌道予測につながる可能性があります。

元のリンク:https://mp.weixin.qq.com/s/wx8xtga6zr-pvn2s-etlta

<<:  スマートネットワークとスマート製造を備えた新エネルギーインテリジェントコネクテッドビークルがデジタル変革への道を開く

>>:  生成AIを使用して学生のイノベーションを促進する

ブログ    

推薦する

防疫、試験監督、願書記入、大学入試にAIがどう対応するかをご覧ください!

今年の大学入試には最初から最後までAIが登場した。 2020年の大学入試は史上最難関と言っても過言で...

...

...

...

...

GPT-4の予測の新たな波は、大きすぎず密度も高くないテキストのみのモデルに向けて到来している。

2020年5月、GPT-3はGPT-2の1年後に正式にリリースされました。GPT-2も、オリジナル...

Google Gemini の大きな転換? Stanford Meta Chinese は推論性能が GPT-3.5 よりも優れていることを証明

Gemini の推論能力は本当に GPT-4 よりも弱いのでしょうか?以前、Google の大ヒット...

工業情報化部など8つの部門:地域人工知能データ処理センターの建設を検討

12月29日、工業情報化部、国家発展改革委員会、教育部、財政部、中国人民銀行、国家税務総局、金融監督...

...

ジェフ・ディーンの1万語の記事:2020年のGoogleの10大分野におけるAI技術の発展

ジェフ・ディーン氏は数万語に及ぶ長文の記事を公開し、過去1年間のGoogleのさまざまな分野での成果...

クイックソートアルゴリズムの実装と最適化

[[385051]]この記事はWeChatの公開アカウント「Beta Learns JAVA」から転...

...

...

...

人工知能時代の到来により、代替が難しい仕事はどれでしょうか?

現在、人類社会は人工知能の時代に入り、人工知能技術は生活のあらゆる分野で実証され、人類社会の継続的な...