深層畳み込みネットワークに基づく自動運転のためのマルチモーダル軌道予測の簡単な分析

道路上で安全かつ効率的に運行するためには、自動運転車は人間の運転手と同じように周囲の交通参加者の行動を予測できなければなりません。現在、軌道予測に関する研究がますます注目を集めています。この記事では主に、軌道予測の難しさ、つまり予測のマルチモーダル性について説明します。同時に、この記事のもう一つのハイライトは、ラスター画像の畳み込みを通じて予測を実現することです。著者らは実験を通じて現時点で最高の予測効果を得た。この記事は、軌道予測関連分野の研究にとって一定の学習価値と参考価値を持っています。

自動運転は、難しさと潜在的な社会的影響の両面において、現在人工知能の分野が直面している最大の課題の 1 つです。自動運転車（SDV）は、交通事故を減らし、何百万人もの命を救いながら、より多くの人々の生活の質を向上させる可能性を秘めています。しかし、自動運転の分野には多大な注目が集まり、業界関係者も取り組んでいるにもかかわらず、最高の人間のドライバーに匹敵するレベルで動作できるシステムを開発するには、まだやるべきことがたくさんあります。その理由の 1 つは、交通行動の不確実性が高く、SDV が道路上で遭遇する可能性のある状況が多岐にわたるため、完全に汎用的なシステムを構築することが難しいためです。安全で効率的な運行を確保するには、自動運転車はこの不確実性を考慮し、周囲の交通参加者のさまざまな行動を予測する必要があります。私たちはこの重要な問題に対処し、複数の可能な軌道を予測すると同時にそれらの確率を推定する方法を提案します。この方法では、各参加者の周囲をラスター画像にエンコードし、深層畳み込みネットワークへの入力として、タスク関連の特徴を自動的に取得します。広範囲にわたるオフライン評価と最先端のベースラインとの比較を経て、提案された方法は SDV による閉鎖道路テストで実証され、成功しました。近年、人工知能（AI）の応用分野は前例のない進歩を遂げ、インテリジェントなアルゴリズムは急速に私たちの日常生活に欠かせないものになってきています。何百万人もの人々に影響を与えた例をいくつか挙げると、病院では病気の診断にAI手法が活用されています[1]、マッチメイキングサービスでは学習したモデルを使用して潜在的なカップルを結び付けています[2]、ソーシャルメディアのフィードはアルゴリズムによって構造化されています[3]。それでも、AI革命はまだ終わっておらず、今後数年間でさらに加速する可能性があります。興味深いことに、自動車部門はこれまで人工知能の応用が限られてきた主要産業の 1 つです。大手自動車メーカーは、先進運転支援システム（ADAS）[5]に人工知能（AI）を活用することで一定の進歩を遂げてきましたが、その能力を完全に引き出すには、自動運転車（SDV）などの新しいインテリジェント技術の出現が必要です。車の運転は多くの人にとって一般的な活動であるが、数年の経験を持つ人間の運転手にとっても危険な作業である[6]。自動車メーカーは、より優れた設計とADASシステムを通じて車両の安全性の向上に取り組んでいますが、年々統計を見ると、公道での悪影響を逆転させるにはまだ多くの作業が必要であることがわかります。特に、2015年には米国における交通事故による死亡者は総死亡者数の5％以上を占め[7]、交通事故の大部分は人的要因によって引き起こされた[8]。残念ながら、これは最近起こった問題ではなく、研究者たちは何十年もその原因を解明しようと努めてきました。研究には、運転者の注意散漫[9]、アルコールや薬物使用[10]、[11]、運転者の年齢[6]の影響の調査、および運転者に間違いを犯す可能性があることを認めさせ、最も効果的に彼らの行動に影響を与える最善の方法の調査が含まれます[12]。驚くことではないが、既存の文献に共通するテーマは、人間は輸送システムの中で最も信頼性の低い部分である、ということである。これは、SDV の開発と広範な適用を通じて改善できます。ハードウェアとソフトウェアの技術における最近の進歩により、これが可能となり、ロボット工学と人工知能の分野がこれまでで最も大きな社会的影響を及ぼす可能性が開かれました。自動運転技術は長い間開発されてきましたが、最も初期の試みは1980年代のAL-VINN [13]の研究にまで遡ります。しかし、2007年のDARPAアーバンチャレンジ[14]、[15]の結果からも明らかなように、技術の進歩がより広く利用できるレベルに達したのはごく最近のことである。ここで、チームは複雑な都市環境をナビゲートし、公道でよくある状況に対処し、人間が運転する車両とロボットが運転する車両の両方と対話する必要があります。これらの初期の成功により、自動運転分野への関心が高まり、多くの業界プレーヤー（Uber や Waymo など）や政府機関が SDV の実現に向けた技術的および法的基盤を確立するために競争しています。しかし、進歩はあるものの、SDV を人間レベルで機能させ、完全に商業化するには、まだ多くの作業が必要です。現実世界で安全かつ効率的に動作するために重要な課題は、周囲のアクターの動きを正確に予測することであり、成功するシステムでは、それらの固有のマルチモーダルな性質も考慮する必要があります。我々はこの課題に焦点を当て、ディープラーニングベースの研究[16]を基に、HDマップと環境をエンコードしてアクターの将来を予測する鳥瞰図（BEV）ラスターを作成し、以下の貢献をしました：（1）単一の軌跡を推測するのではなく、複数の軌跡とその確率を与えるアプローチを提案することで、最先端の技術を拡張しました。（2）マルチ仮説アプローチの広範なオフライン研究の後、このアプローチは閉鎖道路のSDVで正常にテストされました。

図 1 は、私たちのモデルが 6 秒後の軌道の多様性をどのように捉えているかを示しています。このアプローチでは、ラスタライズされた車両のコンテキスト（高解像度の地図や他のアクターを含む）をモデル入力として使用し、動的環境におけるアクターの動きを予測します[16]。車両が交差点に近づくと、マルチモーダルモデル (モード数を 2 に設定) では、直進する確率が右折する確率よりもわずかに低いと推定されます (図 1a を参照)。 3 ステップ後、車両は直進を続け、右折する確率が大幅に減少します (図 1c)。車両は実際には交差点を直進し続けることに注意してください。図 1b と 1d に示すように、単峰性モデルではシーンのマルチモーダル性を捉えることができず、むしろ 2 つのモーダル性の平均を大まかに予測していることがわかります。関連研究、行為者の将来の行動を予測する問題は、最近の多くの出版物で議論されてきました。このトピックの包括的な概要は[17]、[18]に記載されています。このセクションでは、自動運転の観点から関連する研究をレビューします。まずは、自動運転業界で実際に使われているエンジニアリング手法を紹介します。次に、特にディープラーニング手法に重点を置いて、動作予測のための機械学習手法について説明します。自動運転システムにおける動作予測導入されている自動運転システムのほとんどは、参加者の行動を予測するために確立されたエンジニアリング手法を使用しています。一般的なアプローチとしては、基礎となる物理システムに関する仮定に基づいて物体の状態を時間の経過とともに伝播させ、カルマンフィルタリング（KF）[19]、[20]などの技術を使用して物体の将来の動きを計算することが挙げられる。このアプローチは短期的な予測には有効ですが、モデルが周囲の状況 (道路、他の参加者、交通ルールなど) を無視するため、長期的にはパフォーマンスが低下します。この問題を解決するために、メルセデス・ベンツ[21]が提案した方法は、地図情報を制約として使用して車両の長期的な将来位置を計算します。システムはまず、検出された各車両を地図上の 1 つ以上の車線に関連付けます。次に、マップトポロジ、車線の接続性、および車両の現在の状態の推定に基づいて、各車両と関連する車線ペアに対してすべての可能なパスが生成されます。このヒューリスティックは、一般的には妥当な予測を提供しますが、車両と車線の関連付けにおけるエラーの影響を受けやすいです。既存の展開エンジニアリング方法の代替として、提案された方法は、車両が通常道路と車線の制約に従うことをデータから自動的に学習し、道路上で観察されるさまざまな状況にうまく一般化します。さらに、車線関連付けに関する既存のアイデアを組み合わせることで、アプローチの拡張を提案します。機械学習予測モデル手作業で設計されたモデルは、多くの異なる交通シナリオに拡張することができない。そのため、隠れマルコフモデル[22]、ベイジアンネットワーク[23]、ガウス過程[24]などの機械学習モデルが代替として使用されるようになった。最近、研究者は逆強化学習（IRL）を使用して環境コンテキストをモデル化する方法に焦点を当てています[25]。キタニら[26]はシーンセマンティクスを考慮し、逆最適制御を使用して歩行者の経路を予測したが、既存のIRL手法はリアルタイムアプリケーションには非効率的である。多くの実用的なアプリケーションにおけるディープラーニングの成功[27]により、人々はその動作予測への応用を研究するようになりました。最近のリカレントニューラルネットワーク (RNN) の成功により、Long Short-Term Memory (LSTM) と呼ばれる研究ラインがシーケンス予測タスクに使用されるようになりました。 [28]、[29]の著者らは、LSTMを社会的相互作用における歩行者の将来の軌道を予測するために適用した。 [30]では、過去の軌跡データを使用して車両の位置を予測するためにLSTMが適用されました。 [31]では、ゲート付きリカレントユニット（GRU）と呼ばれる別のRNNの変種が条件付き変分オートエンコーダ（CVAE）と組み合わせられ、車両の軌道を予測しました。さらに、[32]、[33]は畳み込みニューラルネットワーク（CNN）を一連の視覚画像に適用することで、画像ピクセルから直接単純な物理システムの動きを予測しました。 [16]では、著者らはCNNを使用して短期的な車両軌道を予測し、単一のアクターの周囲をエンコードしたBEVラスター画像を入力として取り込むシステムを提案し、その後、このシステムは交通弱者にも適用されました[34]。これらのアプローチは成功しているものの、正確な長期交通予測に必要な、将来の軌道の潜在的な多様性には対処していません。現在、マルチモーダルモデリングの問題に取り組む研究が数多く行われています。混合密度ネットワーク（MDN）[35]は、ガウス混合モデルのパラメータを学習することでマルチモーダル回帰問題を解決する従来のニューラルネットワークです。しかし、高次元空間で動作する場合の数値的不安定性のため、MDN を実際にトレーニングするのは困難な場合がよくあります。この問題に対処するために、研究者らは、真の値に最も近い予測のみを考慮した損失を使用して、ネットワークのアンサンブル[36]をトレーニングするか、または単一のネットワークをトレーニングして、M個の異なる仮説に対応するM個の異なる出力を生成することを提案している[37]。私たちの研究は、好ましい実証的結果に基づいてこれらの努力に基づいて進められています。さらに、[38]では、著者らは、6つの操縦クラスに確率を割り当てるモデルを学習することにより、道路車両のマルチモーダル軌道予測を行う方法を紹介した。このアプローチでは、事前に定義された一連の個別の動機が必要であり、複雑な市街地運転ではこれを定義するのが難しい場合があります。あるいは、[28]、[29]、[31]では、著者らはサンプリングを介してマルチモーダル予測を生成することを提案したが、これは複数の軌跡を生成するために繰り返し前方パスを必要とする。私たちが提案する方法は、単一のフォワード CNN モデル上でマルチモーダル予測を直接計算します。

図2.

ネットワークフレームワーク提案手法このセクションでは、交通参加者のマルチモーダル軌道予測の提案手法について説明します。まず、問題の定義とシンボルの使用法を紹介し、次に、設計した畳み込みニューラルネットワークの構造と損失関数について説明します。問題の定義では、 LIDAR、超音波レーダー、カメラなど、自動運転車に搭載されたセンサーからのリアルタイムデータストリームにアクセスできることを前提としています。さらに、このデータは既存の検出および追跡システムで使用され、周囲のすべての交通参加者の状態推定値 S を出力するものと想定されます (状態には、検出ボックス、位置、速度、加速度、方向、方向角度の変化率が含まれます)。トラッカーの出力状態を評価するための離散時間のセットは、連続する時間ステップ間の時間間隔が固定されているものとして定義されます（トラッカーが 10 Hz で動作している場合は 0.1 秒）。次に、時刻 tj における i 番目のトラフィック参加者のトラッカーの状態出力を sij と定義します (i=1,…,Nj)。 Nj は、時刻 tj に追跡されているすべてのトラフィック参加者の数です。一般に、新しい交通参加者がセンサーの感知範囲内に現れたり、以前に追跡された交通参加者がセンサーの感知範囲を超える可能性があるため、交通参加者の数は常に変化していることに注意してください。さらに、自動運転車が走行するエリアの道路や歩道の位置、車線方向などの詳細な高精度地図情報Mが利用可能であると想定します。マルチモーダル軌道モデリングこれまでの研究[16]に基づいて、まず、図1に示すように、交通参加者と周囲の交通参加者（他の車両や歩行者など）の地図環境をエンコードしたBEVラスター画像をラスター化します。次に、時刻 tj における i 番目の交通参加者のグリッドマップと状態推定値 sij が与えられた場合、畳み込みニューラルネットワークモデルを使用して、M 個の将来の状態シーケンスと各シーケンスの確率を予測します。ここで、m はモードの数を表し、H は予測の時間ステップを表します。ラスタライズ法の詳細な説明については、私たちの以前の研究[16]を参照してください。一般性を損なうことなく、完全な状態推定値の代わりに i 番目の交通参加者の将来の x 座標と y 座標のみを推測することで作業を簡素化し、残りの状態推定値は状態シーケンスと将来の位置推定値から取得できます。時刻 tj における交通参加者の過去および未来の位置座標は、時刻 tj における交通参加者の位置を基準としており、前方方向が x 軸、左方向が y 軸、交通参加者検出フレームの中心が原点となります。本論文で提案するネットワーク構造を図 2 に示します。入力は、解像度 0.2 メートルの 300 x 300 RGB グリッド画像と、交通参加者の現在の状態 (車両速度、加速度、進行方向角度の変化率) です。出力は、M モードの将来の x 座標と y 座標 (各モードには 2H 出力があります) とその確率 (各モードに 1 つのスカラー) です。したがって、各トラフィック参加者は (2H+1)M の出力を持ちます。次に、確率出力はソフトマックス層に渡され、合計が 1 になるようにします。任意の畳み込みニューラルネットワークアーキテクチャをベースネットワークとして使用できることに注意してください。ここでは、MobilleNet-v2 を使用します。マルチモーダル最適化関数このセクションでは、軌道予測問題に固有のマルチモーダル性をモデル化するための提案損失関数について説明します。まず、時刻 tj における i 番目の交通参加者の m 番目のモードの単峰性損失関数を、実際の軌跡点と予測された m 番目のモード間の平均変位誤差 (または L2 ノルム) として定義します。

直接使用できる単純なマルチモーダル損失関数は ME 損失であり、次のように定義されます。

しかし、第4章の評価結果から、モダリティ崩壊問題のため、ME損失は軌道予測問題には適していないことがわかります。この問題に対処するために、我々は[37]に触発されて、軌道空間のマルチモダリティを明示的にモデル化する新しいマルチ軌道予測（MTP）損失を提案する。 MTP 法では、まず、時刻 tj における i 番目の交通参加者について、ニューラルネットワークの順方向伝播を通じて M 個の出力軌跡を取得します。次に、任意の軌道距離の式を使用して、実際の軌道に最も近いモード m を決定します。

最も一致するモダリティ m を選択した後、最終的な損失関数は次のように定義できます。

ここで、I はバイナリ指標関数であり、条件 c が真の場合は 1、そうでない場合は 0 になります。また、カテゴリクロスエントロピー損失は次のように定義されます。

α は 2 つの損失のバランスをとるために使用されるハイパーパラメータです。言い換えれば、最も一致するモード m の確率を 1 に近づけ、他のモードの確率を 0 に近づけます。トレーニング中、位置出力は最適モードのみを更新し、確率出力はすべてのモードを更新することに注意してください。これにより、各モードは参加者の行動の異なるカテゴリ（まっすぐ歩く、曲がるなど）に特化され、次の実験に示すように、モダリティの崩壊の問題にうまく対処します。

図 3: モード選択方法 (モードは青で表示)。グラウンドトゥルース (緑) は、変位を使用する場合は右折モードに一致し、角度を使用する場合は直進モードに一致します。いくつかの異なる軌道距離関数を試しました。特に、最初のオプションとして、2 つの軌道間の平均変位を使用します。ただし、この距離関数は、図 3 に示すように、交差点でのマルチモーダル動作を適切にモデル化しません。この問題に対処するために、交通参加者の現在の位置と実際の軌跡および予測軌跡の最後の位置の間の角度を考慮して、交差点シナリオ用の改良されたオドメトリ機能を提案します。第4節では定量的な比較結果を示す。最後に、損失（2）と（4）については、畳み込みニューラルネットワークのパラメータをトレーニングして、トレーニングセットの損失を最小化します。

私たちのマルチモーダル損失関数は、モダリティの1つの選択に依存しないことに注意し、負のガウス対数尤度を使用して軌道点の不確実性を予測する論文[16]に私たちのアプローチを一般化することは簡単です。車線追従マルチモーダル予測前回は、単一の順方向伝播パスで複数のモダリティを直接予測できる方法について説明しました。 [21]では、各車両は車線（つまり車線追従車両）に関連付けられており、暗黙的に複数の軌跡を出力する方法を提案している。特に、追従可能な車線がわかっていて、車線スコアリングシステムを通じて不可能な車線を除外すると仮定して、別のラスターレイヤーを追加してこの情報をエンコードし、車線追従軌跡を出力するようにネットワークをトレーニングします。次に、シーンごとに、複数の異なる車線追従グリッドマップを生成することで、マルチモーダル軌道を効果的に予測できます。トレーニングセットを生成するには、まず車両が実際に走行する車線を決定し、それに基づいて入力グリッドマップを構築します。次に、M = 1（この場合、ME と MTP は等しい）に設定して、前に導入した損失関数を使用して車線追従 (LF) モデルをトレーニングします。実際、LF と他の方法を同時に使用して、それぞれ車線追従と他の交通参加者に対処することができます。このアプローチは完全性のためだけに導入したものであることに注意されたい。なぜなら、実践者にとっては、[21]で説明されているように、ラスタライゼーションの考え方と既存の車線追従手法を組み合わせてマルチモーダル予測を得ることが有用であるかもしれないからである。

図 4. 同じシーン内の異なる追従車線ラインに対する LF モデルの軌跡出力の例 (薄いピンクで表示) 図 4 では、同じシーンのグリッドを示していますが、薄いピンクでマークされた 2 つの異なる追従車線ラインを使用しています。一方は直進し、もう一方は左折します。この方法によって出力される軌道は意図した経路によく沿うため、車線追従車両の複数の予測軌道を生成するために使用できます。実験では、ペンシルバニア州ピッツバーグ、アリゾナ州フェニックスで、さまざまな交通状況（異なる時間帯や異なる日など）で手動で運転して 240 時間分のデータを収集しました。生のセンサーデータはカメラ、ライダー、超音波レーダーから取得され、UKF[40]と運動学モデル[41]を使用してj人の交通参加者を追跡し、追跡された各車両の状態推定値を10Hzの速度で出力します。 UKF は、大量のラベル付きデータで高度に最適化およびトレーニングされ、大規模な実際のデータで広範囲にテストされています。各トラフィック参加者は、追跡1 の各個別の瞬間における単一のデータポイントに相当し、静的なトラフィック参加者を除外すると、全体のデータには 780 万のデータポイントが含まれます。予測時間は 6 秒 (つまり、H = 60)、α = 1 とし、3:1:1 の分割比を使用してトレーニングセット、検証セット、テストセットを取得しました。提案手法をいくつかのベースライン（(1)前向きUKFリアルタイム推定の状態、(2)単一軌道予測（STP）[16]、(3)ガウス混合軌道空間MDN[35]）と比較する。

このモデルはTensorFlow [42]で実装され、16枚のNvidia Titan X GPUカードでトレーニングされました。トレーニングにはオープンソースの分散フレームワークHorovod[43]を使用し、24時間以内に完了しました。各GPUで処理されるバッチサイズを64に設定し、トレーニングにはAdamオプティマイザー[44]を使用し、初期学習率を10-4に設定し、20,000回の反復ごとに0.9倍に減らします。すべてのモデルはエンドツーエンドでトレーニングされ、自動運転車に展開され、GPU を使用して平均約 10 ミリ秒の時間でバッチ処理を実行します。実験結果動きの予測に関連する誤差指標である変位（1）と、地上の真実からの縦方向と横方向の偏差をそれぞれ測定するトラックに沿った誤差と横方向の誤差[45]を使用して方法を比較します。マルチモード法では確率が提供されるため、最も可能性の高いモードの予測誤差を使用する評価方法も考えられます。しかし、マルチモーダル予測に関する初期の研究[31]では、この指標は単峰性モデルに有利であることがわかった。なぜなら、単峰性モデルは平均予測誤差を明示的に最適化しながら非現実的な軌道を出力するからである（図1の例を参照）。我々は[31]と[37]の既存の設定を反映し、低確率の軌跡を除外し（しきい値を0.2に設定）、残りの設定の最小誤差モードを使用してメトリックを計算します。この方法で計算された結果は、自動運転車の観測された性能とより一致していることがわかりました。表1. 異なる方法の予測誤差の比較（メートル単位）

表 1 では、予測ステップが 1 秒と 6 秒の場合の誤差と、予測ステップ全体にわたる第 1 レベルのさまざまなモード数 M (モード数は 2 ～ 4) の平均メトリックを示しています。まず、単峰型モデル (UKF や STP など) は明らかに稼働時間の予測には適していないことがわかります。しかし、1 秒という短期予測結果は妥当であり、6 秒という予測誤差は最適なマルチモーダル法よりも大幅に大きくなっています。このような結果は、短期的には交通参加者が物理的条件や周囲の環境によって制約され、その結果、真実の値はほぼ単峰性となるため、予想される結果である[16]。一方、長期的な視点から見ると、予測問題のマルチモーダルな性質がより明らかになります (たとえば、交通参加者が交差点に近づくと、まったく同じシナリオでいくつかの異なる選択を行う可能性があります)。単峰性予測ではこの問題が十分に考慮されず、図 1 に示すように分布の平均を直接予測します。さらに、M のさまざまな値に対して、MDN と ME が STP と同様の結果を与えることは注目に値します。その理由は、よく知られているモード崩壊問題であり、1 つのモードのみが非退化予測を提供するからです。したがって、実際には、妥協したマルチモーダルアプローチは単一モードに戻り、複数のモダリティを完全に捕捉できなくなります。 [37]の著者らはMDNに関するこの問題を報告し、マルチモーダル仮説モデルはそれほど影響を受けないことを発見したが、これは我々の実験結果によってさらに確認されている。 MTP アプローチに焦点を移すと、他の方法に比べて明らかな改善が見られます。平均誤差と 6 秒誤差の両方が全体的に減少しており、これらの方法が交通問題のマルチモーダルな性質を学習したことを示しています。長期予測ではその効果がより顕著であるにもかかわらず、短期 1 秒と長期 6 秒の予測誤差は他の方法よりも低くなっています。興味深いことに、結果は、M = 3 の場合、すべての評価指標が最高に達することを示しています。表2. 6秒における各モードの変位誤差

次に、MP トレーニングに最適なマッチングモダリティを選択するために、さまざまな軌跡距離メトリックを評価しました。表 1 は、距離の関数として変位を使用すると、角度を使用する場合よりもわずかにパフォーマンスが向上することを示しています。ただし、この選択の影響をよりよく理解するために、テストセットを左折、右折、直進の 3 つのカテゴリに分割し (テストセット内の交通参加者の 95% はほぼ直進しており、残りは曲がる方向に均等に分散しています)、6 秒予測の結果を表 2 に報告します。角度を使用すると、旋回時のハンドリングが向上し、直進時のハンドリングがわずかに低下することがわかります。これは、角度マッチング戦略によって交差点でのパフォーマンスが向上するという私たちの仮説を裏付けるものであり、これは自動運転車の安全性にとって非常に重要です。これらの結果を考慮して、このセクションの残りの部分では、角度モードマッチング戦略の MTP モデルを使用します。

図 5。1 ～ 4 つの異なるモードが左から右への出力軌道に与える影響。図 5 では、モードの数 M を増やすと、M=1 (つまり、推定軌道は直進モードと右折モードの平均に近い) のときであることがわかります。モードの数を 2 に増やすと、直進モードと右折モードが明確に分離されます。さらに、M を 3 に設定すると、左折モードが表示されますが、その確率は非常に低くなります。M=4 に設定すると、興味深い結果が得られます。直進モードは「高速」モードと「低速」モードに分割され、交通参加者の縦方向の速度をモデル化します。交差点から離れた直線道路でも同じ効果が見られ、直進モードがいくつかの異なる速度モードに分割されます。

図 6. モード確率補正の分析最後に、予測されたモード確率の補正を分析します。特に、テストセットを使用して、予測されたモード確率と実際の軌道に最も一致するモード確率との関係を計算します。予測される確率に従って軌跡をセグメント化し、各セグメントの平均モダリティ一致確率を計算しました。図 6 は M = 3 を使用した結果を示していますが、他の M の値の結果も同様です。プロットは y=x 基準線に非常に近いところをたどっており、予測される確率が適切に調整されていることがわかります。交通参加者の行動には本質的に不確実性があるため、道路上での安全で効率的な運転を確保するために、自動運転車は周囲の交通参加者の将来の軌道を複数考慮する必要があります。本稿では、自動運転問題のこの重要な側面を取り上げ、車両の動きを予測するためのマルチモーダルモデリングアプローチを提案します。この方法では、まず交通参加者の周囲をエンコードしたラスターマップを生成し、畳み込みニューラルネットワークモデルを使用して、いくつかの可能な予測軌道とその確率を出力します。私たちはいくつかのマルチモーダルモデルについて説明し、最先端の方法と比較することで、私たちのアプローチの実際的な利点を実証します。広範囲にわたるオフライン評価の後、このアプローチは自動運転車でテストされ、成功しました。

<<: ソフトウェア定義車の基礎 - FOTA および SOTA ソリューション

>>: 「ブラックボックス」アルゴリズムの下ではAIへの信頼は疑わしいが、説明可能なAIは開発の「最初の年」を迎える