この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。 序文と著者の個人的な理解インタラクティブ認識と自動運転 (IAAD) は、人間の道路利用者と安全かつ効率的に対話できる自律走行車の開発に焦点を当てた、急速に成長している研究分野です。これは、自動運転車が人間の道路利用者の行動を理解し、予測できることが求められるため、困難な作業です。この文献レビューでは、著者らは IAAD 研究の現状を調査します。用語の調査から始まり、ドライバーと歩行者の行動をシミュレートするための課題と既存のモデルに焦点を当てます。次に、認知、機械学習、ゲーム理論的アプローチを網羅した、インタラクション モデリングのさまざまな手法の包括的なレビューを示します。この論文は、IAAD に関連する潜在的な利点とリスク、および将来の研究探究にとって重要な主な問題について議論して結論を下します。 インタラクティブ知覚入門近年、ロボット工学や機械学習の進歩により、自動運転車技術の開発への関心が高まっています。これにより、自動運転エンジニアは、自動運転タスクの複雑さに対処できるアルゴリズムを開発できるようになります。自動運転車は、交通の質を向上させ、交通事故を減らし、移動時間の質を向上させる可能性を秘めています。今日、ますます多くの自律走行車が現実世界に導入され、他の道路利用者と環境を共有しています。これにより、自動運転車が他の道路利用者を理解してスムーズにやり取りすることができず、交通渋滞や安全上の問題につながる可能性があるという懸念が生じている。効率的かつ安全に運行するために、自動運転車は人間のような動作をし、他の道路利用者とのやり取りを考慮した最適な動作を生成する必要があります。これは、潜在的な交通衝突を減らすために非常に重要です。たとえば、交差点で慎重に、しかし不必要に停止すると、追突事故につながる可能性があります。完全自律走行車を開発するには、認識、意思決定、計画、制御など、自律走行車技術の多くの側面で進歩が必要です。自動運転車の行動が周囲の道路利用者の行動に影響を与え、またその逆も当てはまるため、周囲の道路利用者との相互作用は、彼らの行動を予測し、それに応じて自動運転車の決定を下す上でますます重要になります。 この論文の目的は、自動運転の文脈におけるインタラクティブな知覚動作計画と意思決定の最新技術を徹底的に調査することです。具体的には、まず、人間の道路利用者の行動モデルを取り上げ、道路上での人間の道路利用者の意思決定に影響を与える要因に焦点を当てます。自動運転車にとって、ドライバーと歩行者の行動モデルが非常に重要であるのには理由があります。まず、自動運転車の周囲での道路利用者の行動を評価および予測するために使用できます。第二に、自動運転車における人間のような動作の開発に役立つ可能性があります。したがって、それらは予測価値を持ち、モデル/システム設計に関連する洞察を追加します。 このレビューは 5 つの主要部分に分かれており、インタラクティブな認識と自動運転のさまざまな領域をカバーしています。第 2 章では、インタラクティブ知覚自動運転で使用される用語を紹介します。論文の構成の概要については、下の図 1 を参照してください。第 3 セクションでは、人間の運転決定に影響を与えるヒューマンファクターの研究と歩行者の行動の研究について説明します。第 4 章では、インタラクション モデリングの既存の手法の概要と分類について説明します。最後に、セクション 5 と 6 では、インタラクティブなシナリオでのモーション プランニングと意思決定の最新手法について説明します。 近年、自動運転は活発な研究分野となっていますが、研究のほとんどは車両のみが関与するシナリオに焦点を当てています。車両と歩行者の両方を含む異種のシナリオを扱う研究は比較的少ないです。この論文では異種シーンに焦点を当てていますが、セクション 5 と 6 では歩行者のいないシーンの処理に関する関連作業についても説明します。これは、これらの論文で使用されている手法が混合トラフィック シナリオに簡単に適応できるため、または混合トラフィック シナリオの処理に関する一般的な問題に対する重要な洞察を提供できるためです。 インタラクティブ知覚自動運転用語インタラクティブな知覚動作計画と意思決定の最近の進歩について説明する前に、この論文ではまずこの分野で使用されるいくつかの用語を定義します。自動運転の分野では、「エゴビークル」という用語は、制御および研究の対象となる特定の車両を指します。自車両の周囲を占有する他のすべての車両、自転車、歩行者などは、相互作用する障害物とみなされ、周囲の交通参加者と呼ばれます (下の図 2a を参照)。近い将来、道路交通が完全に自動化される可能性は低いため、自動運転車は必然的に、人間の運転手や歩行者などの道路利用者 (HRU) が混在する環境で運行されることになります。したがって、相互作用を考慮した自動運転は、周囲の HRU と安全かつ効率的に相互作用できる自動運転車の開発に重点を置いた研究分野です。従来の自動運転方法では、通常、周囲の HRU を動的障害物と見なします。しかし、彼らは現状に適応するために常に行動を変えることになるため、これは現実的なアプローチではありません。 通常、周囲の複数の HRU が、HRU 同士または自車両との間でスペースを共有する際に競合が発生する可能性があります。この状況では、2 人以上の道路利用者が近い将来に同じ空間領域で同じ位置を占有する意図を持っていると合理的に推測できます (図 2b を参照)。衝突に巻き込まれた道路利用者は、相互作用的な行動を示すと考えられており、空間共有の衝突がなければその行動は異なるものとなるでしょう。さらに、相互作用は必ずしも対立を伴うわけではありません。これは、道路利用者の意図を示し、HRU に影響を与える明示的または暗黙的なコミュニケーションです。例えば、ドライバーは前方車両の方向指示器に基づいて運転戦略を立てることができ、前方車両と自車両が同じ車線にならず、近い将来に衝突が起きないようにすることができます。したがって、インタラクティブな動作とは、道路利用者が他の人の行動に適応したり、応答を要求したり、望ましい目標を達成するための行動をとったりするために、さまざまな方法で行動することを指します。運転中は常に相互作用が発生するため、自動運転車向けに開発されるアルゴリズムは、道路利用者間の相互作用のダイナミクスを理解することが不可欠です。このようなアルゴリズムはインタラクション知覚と呼ばれ、最近の自動運転研究の焦点となることが多いです。現在、安全で社会的に受け入れられるインタラクティブ認識型自動運転システムは、いくつかの課題によって制約されています。課題の 1 つは、HRU がどのように相互作用するかについての革新的な理論が欠如していることです。これは難しい作業です。開発される理論は、HRU の動作の予測とモデル化に限定されず、動作パターンとその基礎となるメカニズムの調査も含まれるからです。人間と同じように、自律走行車を交通にシームレスに統合するには、より高度な行動理論とモデルが必要になります。もう 1 つの課題は、他の HRU と安全かつ効率的に相互作用し、人間の基準を満たす自律走行車の動作を生み出すアルゴリズムを開発する必要があることです。下の図3は、自動運転車両システムを構成する主要部分を示しています。センサーからの生データは、周囲の状況を検出して位置特定を実行する認識モジュールによって処理され、自車が目的地に到達するためのグローバルルート計画を生成できるようになります。シナリオをさらに解釈し、周囲の交通参加者に関する予測に基づいて行動することもできます。道路利用者は互いの軌道や決定に影響を与える可能性があるため、相互作用を考慮したモデルは予測タスクにおいて重要な役割を果たします。 意思決定と経路計画は、自動運転における最も重要な 2 つのタスクです。これらは、車両が環境内でどのように移動するかを決定する役割を担っています。意思決定とは、一連の可能な選択肢の中から行動を選択するプロセスです。たとえば、車両は車線を変更するか、減速するか、停止するかを決定する必要がある場合があります。経路計画とは、車両がたどる安全で実行可能な軌道を生成するプロセスです。意思決定と経路計画は密接に関連しています。意思決定プロセスでは通常、「左に車線変更する」などの高レベルの計画が出力されます。次に、経路計画プロセスがこの計画を取得し、車両がたどることができる詳細な軌道を生成します。どちらのタスクも、車両の現在の位置、機能、周囲の交通状況を考慮する必要があるため、インタラクティブな認識モデルはどちらのタスクにも非常に関連しています。制御システムの観点から見ると、車両のダイナミクスは、その状態、つまり位置と方向、およびそれらの時間微分によって表されます。環境の状態は、すべての動的エンティティと静的エンティティの状態によって決まります。シーン理解システムの一部として周囲のユーザーの意図や行動の好みを捉える追加の潜在空間変数を捉えることで、物理状態空間を拡張することもできます。 人間行動研究とインタラクションこのセクションでは、特にコミュニケーションの観点から、自律走行車または従来の車両と対話する人間の運転手や歩行者を含む HRU (人間の道路利用者) の行動に関する実証的研究とモデリング研究の結果を総合します。道路での相互作用に関わるコンテンツの研究に重点が置かれており、相互作用を認識する自動運転車の開発を前進させる可能性のある洞察を発見することを目的としています。ルート選択、天候、規制などのマクロ交通状況の影響についても研究することは、この論文の範囲を超えています。 運転行動研究ドライバー行動モデルは、さまざまな運転シナリオでドライバーがどのように行動するかを予測し、理解するために使用されます。これらのモデルは、輸送システムの安全性と効率性を向上させ、自律走行車の設計プロセスを支援するために使用できます。運転行動には、個人の特性(年齢、性別、性格、経験)、環境要因(道路や気象条件)、社会的要因(運転者と HRU とのやり取りなど)など、多くの要因が影響する可能性があります。ここでは、車両と歩行者の相互作用に関連する DBM に焦点を当てます。 最も一般的なドライバー行動モデルは次のとおりです。
既存の研究では、自然な運転データ分析を通じて、歩行者が存在する場合の運転者の行動が明らかにされています。 [24]の著者らは、車線に沿って歩いている歩行者を追い越すとき、反対方向に歩いている歩行者を追い越すとき、または対向車がいるときに、運転者は最小横方向の車間距離を小さくし、追い越し速度を低くする傾向があることを発見しました。最小横方向クリアランスと衝突までの時間の関係は、追い越し速度とわずかに相関しているだけです。 [25]の結果によると、車両の減速行動は、衝突までの初期時間(TTC)、歩行者の横断意図の主観的判断、車両速度、歩行者の位置、横断方向に関連していることが示された。 複数の車両と歩行者が相互作用する複数の道路利用者の設定については、あまり注意が払われてきませんでした。 [26]では、著者らは交差点で収集されたデータに基づいて、交差点での運転者と歩行者の行動をシミュレートする、複数の道路利用者の敵対的逆強化学習(IRL)フレームワークを開発した。全体として、DBM は輸送システムの安全性と効率性を大幅に向上させる可能性を秘めた有望な研究分野です。ただし、これらのモデルの開発と検証にはまだ多くの作業が必要です。今後の研究では、ドライバーの内部状態、環境、他の HRU との相互作用など、より広範な要因を考慮した、より包括的なモデルの開発に重点を置く必要があります。 歩行者行動研究歩行者は最も脆弱な道路利用者であると考えられており、保護装備がなく、ゆっくりと移動するため、歩行者の行動と AV と歩行者の相互作用を調査することは、安全性と受容性に明らかに関連しています。歩行者の行動は数十年にわたって広範囲にわたる研究の対象となってきました。自動運転車の登場により、最近、歩行者の行動に関する多くの新たな研究課題が生まれています。この分野での研究が膨大であることと著者らの目的を考慮して、このセクションでは網羅的な調査ではなく、主な研究を概観します。このレビューでは、コミュニケーション、横断行動の理論とモデル、自律走行車に関連するアプリケーションという 3 つの観点から、車両と相互作用する歩行者の行動に関する研究を取り上げます。目的は、インタラクティブな認識機能を備えた自律走行車の開発におけるそれらの価値を特定し、要約することです。 コミュニケーション動的な交通環境では、道路利用者は意図的または無意識的に動きや空間的な合図を通じて互いに情報を伝え、明示的および暗黙的なコミュニケーションを生み出します。研究の結果は、ドライバーの役割がないため、自動運転車の運動学および信号情報が歩行者の道路行動に大きな影響を与えるという点で一致しています。したがって、歩行者の道路行動に影響を与える主要な行動の手がかりと信号を特定することは非常に重要です (下の図 5a を参照)。 車両からの動きの合図などの暗黙的なコミュニケーション信号には、道路利用者自身の動きに影響を与える道路利用者の行動が含まれますが、他の道路利用者の意図や動きの合図として解釈されることもあります。接近する車両と歩行者との距離、つまり TTC は、歩行者の行動に影響を与える最も重要な暗黙の情報です。証拠によれば、歩行者は TTC よりも距離を重視する傾向があるようです。つまり、同じ TTC の場合、車両がより高速で接近すると、歩行者はより頻繁に道路を横断することになります。最近の研究では、歩行者は車両の動きから得られる情報を 1 つの情報源だけに頼るのではなく、複数の情報源を活用していることがわかっています。速度、距離、TTC が歩行者の行動に与える影響は連動しています。 ブレーキ動作は歩行者の行動に影響を与えるもう一つの重要な暗黙の情報です。車両の動きは、歩行者の車両に対する信頼、感情、歩行者の意思決定への影響に関係しています。接近する車両が早めに減速し、緩やかにブレーキをかけると、歩行者は安心し、素早く道路を渡り始めました。急ブレーキをかけると歩行者は回避行動を取るようになります。一方、早いブレーキ操作と強いピッチングは、歩行者が車両の意図を理解するのに必要な時間を短縮します。車両が低速で歩行者に近づき、道を譲ると、歩行者の理解が妨げられる可能性があります。 交通量や隙間の大きさなどの交通特性は、歩行者に暗黙的な情報を提供します。交通量が多いと、歩行者は車間の間隔が狭くなることを受け入れざるを得なくなり、時間コストの増加によりリスクを冒す傾向が高まります。しかし、待つ傾向のある歩行者はより用心深く、危険な休憩を受け入れる可能性が低いというかなりの証拠があります。交通量と歩行者の横断行動の関係は状況に依存し、交通のギャップの大きさと順序によって影響を受ける可能性があります。 さらに、歩行者の道路への動き、道路脇に立つこと、歩行者の頭の方向は、接近する車両に重要な暗黙の情報を伝える可能性があります。歩行者は、道路に足を踏み入れたり、近づいてくる車の方を見たりして、通行権を主張することがよくあります。 明確なコミュニケーションシグナル 道路利用者が自分の動きや認識に影響を与えることなく、他の道路利用者に信号情報を伝達する行動を指します。一般的なシナリオとしては、車両が外部ヒューマンマシンインターフェース (eHMI) を介して歩行者に情報を送信する場合が挙げられます。人間の運転手がいない自動運転車の場合、eHMI が重要になります。歩行者と自動運転車の相互作用における eHMI の利点を裏付ける証拠は数多くあります。ヘッドライト、ライトストリップ、擬人化シンボルなど、さまざまなタイプの eHMI プロトタイプが提案されていますが、最適な eHMI 形式と伝達される情報については、いまだに合意が得られていません。 多くの研究により、eHMI のパフォーマンスはさまざまな要因に依存することが示されています。歩行者の eHMI に対する親しみやすさ、信頼度、解釈は、歩行者に情報を伝達する際の eHMI の有効性に大きく影響する可能性があります。たとえば、歩行者は、新しい eHMI (ライトストリップ) よりも、従来の eHMI (点滅するヘッドライト) を車両に譲るよう指示する合図としてよく理解します。 eHMI が故障した場合、歩行者が eHMI を過度に信頼し、車両の動きの合図に過度に依存する可能性があり、これは危険です。 eHMI によって配信される「横断OK」などの自己中心的なメッセージは、「停止」などの他の人に割り当てられたメッセージよりも説得力があります。さらに、eHMI の信頼性は天候、照明条件、車両の挙動によっても影響を受けます。たとえば、悪天候の場合、歩行者は車両の標識を読めないことがあります。車両が譲ったり急激に減速したりしない場合、歩行者の道路横断意欲は eHMI の影響を受けません。車両ではなく道路インフラに eHMI をインストールしたり、車両の動きの合図と組み合わせて eHMI を使用するなどの他のコンセプトは、純粋な eHMI よりも優れたパフォーマンスを発揮する可能性があります。 さらに、車両の観点からはあまり一般的ではありませんが、歩行者も明示的な信号を使用して自動運転車両と通信します。これらの信号にはアイコンタクトや手振りが含まれ、歩行者はこれらを使って自動運転車が自分たちに気づき、通行権を要求することができるようにします。人間の運転手の不在を補うために、自動運転車は運転席にヒューマノイドの視覚アバターを配置し、無線通信技術を利用して車両と歩行者間のコミュニケーションを強化することができます。 横断行動の理論とモデル歩行者の横断行動にはさまざまな認知プロセスが関与します。これまでの研究では、歩行者の横断行動を相互作用の中で構築するには、知覚、決定、開始、移動という 3 つのレベルのプロセスが必要であることが示されています。この仮定に基づいて、次のセクションでは、これら 3 つの認知プロセスに関する歩行者横断行動の理論とモデルを統合します (図 5b を参照)。 ギブソンによって確立された視覚の理論は、物体が観察者に近づくにつれて、網膜上のその像が拡大し、人間の衝突知覚の基礎を形成すると説明しています。横断歩道の場面では、網膜上の車両の像の拡大率が一定の閾値に達すると、歩行者は車両が近づいていると認識します。これを視覚的迫り来る現象といいます。心理物理学的モデルでは、この拡大率は、歩行者の瞳孔に近似する車両によって形成される視角の変化、̇θ と表記されるように簡略化されます (図 6a)。最近の研究では、歩行者は接近する車両を観察するための重要な視覚的手がかりとして̇θを使用していることが示されています。しかし、̇θ は空間情報を提供しますが、車両が歩行者の位置にいつ到着するかを伝えません。横断のシナリオでは、車両が道を譲るときに、歩行者は車両が時間内に停止できるかどうかを推定するために時間情報を必要とします。 Lee の数学的実証は、θ と ̇θ の比として表される視覚的な手がかり τ が、接近する車両の TTC を示す可能性があることを示しています。さらに、τ の 1 次時間微分 (̇τ と表記) は、現在の減速率が衝突を回避するのに十分かどうかを検出するために使用されます。さらに、この研究では、歩行者は特定の角度、つまり車両と歩行者の視線の間の角度である方位角で、差し迫った衝突イベントを視覚的に認識する可能性があることがわかりました (図 6b)。 視覚的な手がかりに加えて、歩行者の知覚は知覚戦略に依存する可能性があります。 Tian らによる研究では、歩行者による車両行動の推定は横断決定の別のプロセスまたはサブプロセスである可能性があることが示されました。交通の隙間が大きい場合、歩行者は車両の運転行動よりも隙間の大きさに頼る傾向があります。同様に、デルシアは、衝突イベントが遠くにある場合、人間は θ や ̇θ などの「ヒューリスティック」な視覚的手がかりを使用する傾向があることを示しました。しかし、衝突が差し迫るにつれて、τ などの光学不変量が知覚を支配し、より豊富な時空間情報を提供します。 知覚メカニズムに加えて、さまざまな要因が歩行者の知覚に影響を与える可能性があります。研究によると、高齢者や子供の歩行者は、加齢による知覚の限界により、衝突のリスクが高くなることが分かっています。年配の歩行者は接近する車両を判断する際にTTCよりも距離に頼る傾向があり、一方、子供はより高速で接近する車両を検知するのが困難でした。注意散漫、特に視覚や手動機能(スマートフォンの使用など)に関連する注意散漫は、重要な注意力をそらし、歩行者の交通状況を観察する能力に影響を与える可能性があります。対照的に、音楽を聴くなどの認知的注意散漫は、歩行者の知覚に大きな影響を与えない可能性があります。 意思決定 信号のない無信号交差点では、歩行者は道を譲る車両や譲らない車両と接触することがよくあります。譲り合わない場合、歩行者は通常、接近する車両間のギャップを評価して横断の決定を行います。これはギャップ受容行動 (GA) と呼ばれます。この概念により、Raff モデル、HCM2010 モデル、Rasouli モデルなどの臨界ギャップ モデルが開発されました。さらに、バイナリ ロジット モデルは交差決定をバイナリ変数として扱い、人工ニューラル ネットワーク (ANN)、サポート ベクター マシン (SVM)、ロジスティック回帰 (LR) などの機械学習アルゴリズムを利用します。たとえば、Kadali らは ANN を使用して、さまざまな独立変数に基づいて横断の決定を予測しました (図 6c)。一方、Sun らは、歩行者の年齢、性別、グループ サイズ、車両の種類などの変数を使用して LR を使用しました。 譲り合う車両が関与するシナリオでは、横断の決定は、バイモーダル横断行動 (BC) と呼ばれるバイモーダル パターンに従うことがよくあります。歩行者は、交通の隙間が十分に大きい場合や、車両が停止しようとしている場合に横断する傾向が強くなります。しかし、このような状況での意思決定は、意思決定の手がかりと衝突リスクとの間に拮抗関係があり、交通のギャップとは負の相関があり、車両の速度とは正の相関があるため、困難になる可能性があります。 Zhuらは、車両の速度と距離に基づいて横断の決定を横断、ジレンマ状態、待機の3つのグループに分類しました(図6d)。さらに、Tianらは、歩行者がBC行動に応じて異なる意思決定戦略を採用すると仮定し、横断の意思決定をさまざまな視覚的手がかりへの反応としてモデル化しました。 上記のアプローチは、観察された行動パターンに基づいて横断の決定をシミュレートしますが、他のモデルは、これらの決定の根底にある心理的メカニズムをさらに深く掘り下げます。具体的には、Tian らは、歩行者の視覚的な手がかりに基づいて GA の動作をシミュレートし、より複雑な視覚認識メカニズムを備えた譲り合いのシナリオにそれを拡張しました。 Wang らは、強化学習 (RL) モデルを使用して、限られた知覚メカニズムに基づく歩行者の横断行動を捉えました。さらに、ドリフト拡散モデルなどの証拠蓄積 (EA) モデルと呼ばれるモデルのクラスでは、横断の決定は視覚的な証拠とノイズの蓄積によって決定され、特定のしきい値に達すると決定が確定すると提案されています。大規模な心の理論を統合して、歩行者の横断の決定を詳細に説明しました(図6e)。さらに、ゲーム理論は、歩行者と車両が通行権を交渉する際の横断決定をシミュレートするためにも適用されます。従来のゲーム理論、シーケンシャルチキン (SC) ゲーム、ダブルアキュムレーター (DA) ゲームを使用して、動的交差決定を特徴付けます。 環境の多様性と歩行者の異質性により、横断決定のモデル化はさらに複雑になります。たとえば、複数の車線を横断する場合、歩行者は車線で待機し、交通の隙間を 1 つずつ受け入れることになります。これはローリング ギャップ動作として知られています。車線で待っている歩行者は、交通の隙間が小さくても受け入れる可能性が高くなる一方、縁石で待っている歩行者は、そうする可能性が低くなるかもしれません。もう 1 つの複雑なシナリオは、双方向の道路を横断することですが、これは身体的にも認知的にも困難です。歩行者は両側の車両を考慮する必要があります。同様に、交差点で渋滞した連続交通を横断するのは困難です。歩行者は交通の上流の横断ギャップを予測し、安全性と時間効率の間でトレードオフを行う必要があるためです。一般的に、歩行者は待ち時間が長くなるにつれて、より危険な横断の機会を受け入れる傾向があると考えられています。しかし、新たな証拠は、待つ傾向のある歩行者はより用心深く、危険な休憩を受け入れる可能性が低いことを示唆している。歩行者の異質性に関しては、ANN モデルと LR モデルを適用して、横断決定に対する年齢の影響を特徴付けます。携帯電話の使用などの注意散漫も、歩行者の横断の判断に影響を与える可能性があります。 ANN を適用して、携帯電話の使用が横断の決定に与える影響をシミュレートします。さらに、歩行者は集団で道路を横断することが多く、集団行動を示しています。この行動は、グループのメンバーがグループの中心から一定の距離を保つ傾向として説明されます。 EA モデルは、以前の道路利用者の決定の影響を考慮して、グループの意思決定における情報カスケードを特徴付けるために使用されます。 開始と練習 横断開始時間 (CIT) は、歩行者が道路を横断し始めるまでにかかる時間を表し、歩行者の意思決定の動的な性質を反映しています。一般的に、CIT とは、横断の機会が生じてから歩行者が動き始めるまでの期間のことです。ドリフト拡散理論によれば、CIT は認知システムにおけるノイズ証拠の蓄積によって影響を受け、歩行者の認知システムと運動システムの効率を反映します。車両の動き、年齢、性別、注意散漫など、さまざまな要因が CIT に影響を及ぼす可能性があります。車の速度が速くなると、歩行者はよりゆっくりと横断し始める傾向があります。さらに、女性の歩行者は男性よりも早く横断を開始する傾向があり、高齢者は若い歩行者よりも早く横断を開始する傾向があります。注意散漫の影響はその構成要素によって異なります。 歩行者が道を譲らない車両に遭遇した場合、車両と歩行者との距離が短くなるにつれて衝突の危険性が高まります。そのため、歩行者は接近する車両の「スナップショット」を評価して、素早く判断を下すことが多いのです。このような場合、CIT の分布は通常、集中しており、右に偏っています。このような場合、CIT をシミュレートするために、指数ガウスモデルやシフト Wald (SW) 分布などの応答時間モデルが使用されます。たとえば、CIT は SW 分布に従う変数としてモデル化されます (下の図 7a)。 前のセクションで述べたように、車両譲歩シナリオでは、CIT は二峰性分布を示します。初期の CIT グループの場合、歩行者が同様の意思決定戦略を採用するため、分布は譲歩なしのシナリオの場合と似ています。しかし、遅いグループの場合、分布は複雑であり、標準的な応答時間分布では説明できませんでした。この複雑さに対処するために、時間とともに変化する証拠を持つ EA モデルが提案されており、複雑な形状の CIT 分布の生成が可能になります (下の図 7b)。さらに、応答時間モデルの結合分布は、車両譲歩シナリオにおける CIT をモデル化するために使用されます。さらに、歩行者の横断開始パターンを学習するために RL モデルが適用されます。 歩行者が横断を開始した後、道路を横断する必要があります。歩行は横断行動の重要な要素であり、近くの車両の存在、インフラ、歩行者の年齢、注意散漫など、多くの要因の影響を受けます。歩行者は車両を避けるために歩く軌道を調整します。複数車線の交差点では、車線に沿って移動して待機し、各車線の交通の隙間を順番に受け入れる傾向があります。横断歩道を渡るとき、歩行者は通常、他の状況での通常の歩行速度よりも速く歩きます。性別は歩行速度に有意な影響を与えなかったが、青年と高齢者の歩行速度は遅かった。携帯電話の使用など、注意散漫になると歩行者の歩行速度が低下する可能性があります。 これらの動作は、セルオートマトン (CA) モデル、社会的力 (SF) モデル、学習ベースの方法などの微視的な歩行者動作モデルを使用してシミュレートできます。 CA モデルは空間、時間、状態が離散的であるため、歩行者と車両の相互作用などの複雑な動的システムをシミュレートするのに最適です。ニュートンの第2法則に基づくSFモデルは、歩行者と車両の相互作用と大規模な歩行者の流れをシミュレートするために使用されます(以下の図7c)。 SFモデルは、低速車両を含む複雑な相互作用シナリオで歩行者グループの交差挙動をシミュレートするために使用されます。 上記のホワイトボックスモデルとは対照的に、学習方法に基づいたブラックボックスモデルもあり、自然データセットまたは事前に定義された環境から歩行者の歩行行動を学習します。たとえば、人工ニューラルネットワーク(ANN)は、歩行者とビデオから抽出された他のオブジェクトとの間の相対的な空間的および運動関係を考慮して、歩行者の歩行行動を学習するために採用されています。 SFモデルの出力は、さまざまな歩行者の歩行行動をシミュレートするために、ANNへの入力として供給されます。長期の長期メモリネットワーク(LSTM)歩行の軌跡予測モデルが提案されています(以下の図7d)。さらに、RLおよびIRLモデルは、歩行者の歩行行動をシミュレートするためにも使用されます。 RLモデルを適用して、SF環境で複数の歩行者の歩行行動を学びます。 IRLモデルを開発して、ビデオデータセットから歩行者の歩行行動を学習します。 自律車両の用途近年、自動運転車と歩行者との相互作用を研究することに関心が高まっています。この関心により、歩行者交差行動の理論とモデルを適用して、これらの相互作用における自律車のパフォーマンスを強化または評価する大規模な研究につながりました(以下の表2)。 一般的なアプローチは、自律車両での意思決定を支援するために、実際のデータセットから歩行者の意図と軌跡を学習する学習ベースの方法を使用することです。たとえば、グラフの畳み込みニューラルネットワークベースの歩行者軌道予測モデルが提案されています。これは、自律的な車両ユースケースの決定論的および確率論的な将来の軌跡を予測する過去の歩行者軌跡を考慮しています。他の類似のモデルは、相互作用の社会的文脈を考慮して、予測の精度を改善することを目指しています。たとえば、LSTMの歩行者軌道予測モデルが提案されました。これは、過去の軌跡、歩行者の頭の向き、およびアプローチ車両までの距離を入力と見なします。さらに、歩行者の交差意図を予測することを目的とした研究があります。 SVM、LSTM、およびANNは、それぞれ歩行者の交差意図を予測するために適用されます。 学習方法は、歩行者の軌跡と意図を予測するのに効果的であることが示されています。ただし、これらのモデルは、強力なパフォーマンスを達成するために大量のデータを必要とし、十分なデータがない相互作用ケースの処理に制限されています。さらに、これらのモデルのブラックボックスの性質により、生成された軌跡と意図を解釈することを困難にする可能性があります。これらの問題に対処するために、専門家モデルが開発されました。たとえば、SFモデルは、TTCなどのより多くの相互作用の詳細と車両と歩行者の間の相互作用角を組み込むことにより、自律車の歩行者の軌跡を予測するように変更されています。さらに、SFおよびCAモデルは、歩行者の交差行動を表現し、歩行者との相互作用における自律車の意思決定を導くために、自律車両決定モジュールに埋め込まれています。 さらに、交差決定モデルは、自律車両の研究にも適用されています。たとえば、自律車両決定モジュールの歩行者交差決定を特徴付けるために、クリティカルギャップ交差モデルが採用されました。自動運転車の防御的および競争力のある相互作用行動を設計するために、速度距離モデルを適用します。 LRモデルは、提案された自律運転車決定モジュールの歩行者交差決定モデルとして使用されます。交差決定の動的でインタラクティブな性質を高めるために、ゲーム理論モデルも使用され、自律車両との道の権利を交渉する際の交差決定をシミュレートします。研究者はまた、自律車の意思決定戦略を設計するために、歩行者の認識理論またはモデルを使用しようとしました。たとえば、コントロール理論は、視覚的な手がかり、τ、および方位角に基づいて自律的な車両と歩行の結合挙動をシミュレートするために使用されます。ベアリング角を使用して、自律車両と歩行者の生成挙動のモデリング。 相互作用モデリング相互作用モデリング手法は、交通の予測から自律的な運転計画や意思決定まで、さまざまな自律運転タスクにとって重要です。自律運転における社会的相互作用の理解とモデリングは、シーンのダイナミクスを予測し、安全な自律運転行動を確保するために重要です。正確な予測により安全性が向上しますが、自律運転行動の誤解は事故につながる可能性があります。さらに、自動運転車の行動の社会的影響を理解することで、車両が歩行者を渡るように早期に停止するなど、周囲の交通に影響を与えることができます。相互作用モデリング手法はさまざまなタスク領域に適用できるため、著者は、設計された特定の運転タスクに関係なく、それらをさまざまなインタラクションモデリング手法に分類することに焦点を当てています。 まず、学習方法とモデルベースの方法を区別できます。機械学習と深い学習技術を利用して、自律運転の分野で広範な研究が行われています。学習方法では、モデルは大きなデータセットから学習されます。この方法のファミリは、システムの事前知識を必要としません。データ駆動型の方法は、例のデータセットでトレーニングされ、予測または決定を行うために使用されます。対照的に、モデルベースのアプローチは、システムの理論的理解から始まります。この事前知識は、システムの数学モデルを作成するために使用されます。次に、経験的データを使用して、モデルを検証するか、そのパラメーターをチューニングして、モデルの予測とデータの違いを最小限に抑えます。 別の区別は、アプローチが人間の行動を説明するために人間の心の認知的特徴を明示的に活用するか、環境入力を決定/行動にマッピングしようとする相互作用を暗黙的にシミュレートするかどうかに基づいています。セクション3に示されている人間の行動研究は、明示的な方法を開発するためのガイドとして役立ちます。たとえば、ゲームの理論的アプローチは、交通参加者を互いの行動を積極的に考慮する合理的な道路利用者と見なすことにより、より明確なアプローチを採用します。一方、非認知的アプローチの例として、社会力アプローチはより経験的な視点を提供し、相互作用中の道路利用者の推論を説明するプロセスを明示的に詳述することなく、互いの行動に対するアクターの影響を捉えます。著者は、相互作用を明示的にシミュレートするか暗黙的にシミュレートするかに基づいて、既存のモデリングアプローチを区別することを提案しています。 これら2つの基準に基づいて、著者は4つの主要な相互作用モデリングカテゴリを特定しました。これらは、以下の図8に示すものです。 学習ベースの暗黙的方法これらの方法は、機械学習または深い学習技術に依存しています。相互作用は暗黙的にモデル化されています。つまり、道路利用者の動作はモデルによって説明できないことを意味します。モデルは、データからの入出力マッピングのみを学習します。モデル学習は、インタラクティブモデルアーキテクチャを活用することで実現できます。一般的に、相互作用に特化したニューラルネットワークアーキテクチャを使用する深い学習方法は、このカテゴリに分類されます。 このタイプの方法では、目標は、道路利用者の将来の行動を予測する確率的生成モデルを学ぶことです。このモデルは、周囲の道路利用者の状態と、学習可能なパラメーターθのセットを含む環境Xの状態Xに条件付けられた確率分布です。 認知機能を備えた学習ベースの方法これらのアプローチは、学習システムへの入力として使用される明示的に手作りの相互作用機能に依存しています。このタイプの相互作用機能には、人間の推論の背後にある特定の認知プロセスを反映する時間間隔(TTC)、相対距離などが含まれます。たとえば、周囲の車両の車線変更意図の分類のために、車両間相互作用を利用するLSTMが開発されています。インタラクティブな機能は、周囲の車線の最悪のTTCと車両の相対距離を考慮したリスクマトリックスで構成されています。グラフの畳み込みネットワークもこのカテゴリに分類されます。これは、インタラクション機能をグラフの隣接マトリックスで明確にモデル化できるためです。 このタイプのアプローチでは、目標は、1の道路利用者の将来の動作と同様の確率生成モデルを学習することです。この場合、確率分布は、環境状態Xの条件下と明示的な手作りのインタラクティブ機能I(x)の下にあります。 モデルベースの非認知アプローチこれらの方法でのモデリングは非認知的です。なぜなら、相互作用は道路利用者の行動の背後にある認知プロセスについて積極的に推論しないためです。このグループの方法には、社会的勢力と潜在的な分野が含まれます。相互作用は、経験的データに基づいて調整できる一連の学習可能なパラメーターを含む潜在機能(またはSF)によって説明されます。別の一連の方法には、ドライバーの行動がリスクベースのフィールドによって引き起こされるという仮定に基づいて、リスクフィールドベースの方法を駆動することが含まれます。モデルベースの暗黙的アプローチの利点は、それらを簡単に解釈でき、トラフィックルールやシーンコンテキストなどのドメインの知識に組み込むことができることです。一部のモデルは、潜在的なフィールドを定義し、道路ユーザーのアクションをフィールドの勾配に比例すると定義しています。 それ以外の場合、力を直接モデル化することができ、勾配操作a∝f*(*x)の必要性を排除できます。 モデルベースの認知アプローチモデルベースの認知アプローチは、人間の意思決定の背後にある推論プロセスを説明しています。それは、ユーティリティの最大化モデルと認知モデルの2つの主要な方法に区別できます。 ユーティリティの最大化方法では、人間はオプティマイザーとしてモデル化されており、将来の有用性を最大化するための行動を選択します。 これらの方法には、ゲーム理論とマルコフの意思決定プロセス(MDP)が含まれます。ゲーム理論のアプローチでは、道路利用者は、互いにどのように反応するかを考慮して、競合または協力するプレイヤーとしてモデル化されています。ゲーム理論フレームワークは、人間のドライバー間の動的相互作用をモデル化するための透明で明確なソリューションを提供し、意思決定プロセスの明確な説明を可能にします。ただし、この方法は、道路ユーザーの数が増えると計算の複雑さに対処するのが難しいため、計算処理の要件を満たすことは困難です。もう1つの可能な解決策は、人間の行動をMDPの道路ユーザーとしてモデル化することです。これは、結果が機会や意思決定者の影響を受けたときに決定をモデル化するための優れたフレームワークを提供します。 MDPのソリューションは、DRLアルゴリズムやモンテカルロツリー検索などの学習方法を通じて、または動的プログラミング技術を使用して見つけることができます。 メソッドの2番目のセットは、心理的認知プロセスを使用して、道路ユーザーの行動の背後にある行動動機を捉えることを目的としています。この一連のメソッドには次のものが含まれます。
次のセクションでは、各カテゴリの相互作用モデリングをより詳細に分析します。特に、認知学習および非認知学習方法については、次のセクションで説明します。モデルベースの認知アプローチは、社会的力と潜在的な分野、駆動リスクフィールドモデル、精神理論、刺激反応モデル、および証拠蓄積モデルなど、前の章で詳細に議論されています。次の章には、MDPやゲーム理論などのユーティリティモデル法が含まれます。 学習ベースのアプローチ機械学習(ML)方法は、オブジェクトの検出、シナリオ理解、パス計画、制御など、自律運転のさまざまなタスクで広く使用されています。大量のデータから学ぶことにより、MLメソッドは人間よりも正確で効率的な決定を下すことを学ぶことができます。このセクションには、前のセクションで特定された暗黙的および明示的な学習ベースのアプローチを含め、関連する論文をより詳細に紹介します。以下の図9は、いくつかの学習ベースのアプローチの概要を示しています。 ニューラルネットワーク学習表現の最新の進歩のおかげで、生センサーデータを入力として使用して、ステアリング、スロットルなどの出力制御コマンドを使用してパス計画と制御の問題を解決するエンドツーエンドの駆動方法を使用することが可能になりました。ただし、高次元の生の知覚データ(Lidar Point Cloud、Camera Imagesなど)から運転タスク全体を学習することは、同時に知覚と意思決定を学習することを伴うため、困難です。ほとんどの作業では、仮説的なシナリオ表現の行動方法を学ぶプロセスは、モーション計画と意思決定モジュールに利用できます。実際、これにはエンドツーエンドの運転を2つの主要なモジュールに分割する必要があります。1つは、自動運転車が見る方法を学び、もう1つは行動方法を学ぶ必要があります。 エンドツーエンドの自律運転のためのタスクを計画および制御するための2つの主要なアプローチがあります(行動方法を学ぶ):
模倣学習とは、道路ユーザーが専門家のプレゼンターの行動を模倣することでタスクを実行し、自律システムとロボットをトレーニングするための貴重な方法となる機械学習パラダイムです。 [151]では、相互作用機能はグラフ注意ネットワーク(GAT)を介して学習されます。ネットワークへの入力には、周囲の道路ユーザーの運動学的情報が含まれており、鳥瞰図からシーン表現をエンコードするベクトルを特徴としています。このモデルは、カーラシミュレーターのプロのドライバーによって生成された合成データでトレーニングされています。模倣学習方法は通常、トレーニングシナリオと同様のシナリオでうまく機能しますが、シナリオがトレーニングの分布から逸脱している場合に失敗することがよくあります。データセット集約(Dagger)などのアルゴリズムは、人間に標識されたデータを目に見えない状況に追加することにより、模倣学習戦略のパフォーマンスを改善できます。ただし、専門家に新しいトレーニングサンプルにラベルを付けることを要求することは、高価で実行不可能です。 深いニューラルネットワークは、シーンの理解とモーション予測のコンテキストで広く使用されています。 [127] et al。同様に、最大プーリング操作を備えたSTARトポロジーネットワークを使用して、マルチエージェント予測の相互作用特性を検討します。 CidnnはLSTMを使用して、個体群の各歩行者の動きを追跡し、位置予測のためのターゲット歩行者に近接していることに基づいて、各歩行者の動き特性に重みを割り当てます。 [129]の研究は、データセットを作成し、VP-LSTMと呼ばれるフレームワークを提案し、異種の道路ユーザーのさまざまなLSTMアーキテクチャを活用することにより、混雑したハイブリッドシナリオの車両と歩行者の軌跡を予測しました。生成的敵対ネットワーク(GAN)が[130]に適用され、シナリオのあらゆる道路利用者の合理的な予測を生成します。これらの方法の一般的な特徴は、空間的および時間的相互作用特性をキャプチャするために、プーリング操作と組み合わせた再発性ニューラルネットワークの使用です。ソーシャルプールの操作中、周囲の道路利用者の隠された状態は、現在の道路利用者の動きを予測するための機能になります。拡散モデルは、時空間的軌跡のモデリングにますます人気があり、歩行者と車両の軌跡を予測するために使用できるもう1つの深い学習技術のセットです。 グラフィック畳み込みネットワーク(GCN)は、インタラクティブな道路利用者との軌道予測タスクで広く使用されています。これらの方法では、道路構造は、各ノードがトラフィック参加者を表すグラフとして表されます。各ノードは、交通参加者のカテゴリ(車、トラック、歩行者など)、その位置または速度などの情報を運ぶことができます。明示的な相互作用は、グラフの隣接マトリックスでモデル化できますが、暗黙の部分にはグラフの畳み込み層が含まれます。 GCNはトラフィック予測で広く使用されており、最近、MORT In Motion Planningと組み合わせて使用されています。 相互作用をモデル化するために使用できる他の機械学習手法には、ガウスプロセスや非表示のマルコフモデルを含む確率的グラフモデルが含まれます。 ユーティリティベースのアプローチユーティリティベースの道路利用者は、ユーティリティ関数を使用して意思決定をガイドし、可能な世界状態に値を割り当て、最高のユーティリティにつながるアクションを選択します。目標の満足度に基づいて州を評価する目標ベースの道路ユーザーとは異なり、ユーティリティベースの道路ユーザーは複数の目標を処理し、確率とアクションコストを考慮することができます。ユーティリティベースの方法には、マルコフの意思決定プロセス(MDP)およびゲーム理論モデルが含まれます。 マルコフ決定過程MDPは、意思決定の問題をモデル化するための数学的枠組みであり、結果は部分的にランダムであり、意思決定者によって部分的に制御されます。 MDPのモデリングフレームワークを以下の図10に示します。 MDPの問題を解決するには、動的なプログラミングと補強学習の2つの主な方法があります。一般に、後者は自律運転により高次元の状態空間により適しているため、自律運転により適しています。 強化学習Rehnection Learning(RL)は、Markovの意思決定プロセス(MDP)を使用して複雑な環境をモデル化し、望ましい報酬を最大化する戦略を学ぶためのアルゴリズムのセットを含んでいます。伝統的に、動的プログラミングは、この目標を達成するための信頼できる方法であり、各状態の価値をターミナル状態から始動し、初期状態まで逆に作業することにより、この目標を達成するための信頼できる方法です。この方法は、小さな状態空間でうまく機能します。ただし、自律運転の分野など、RLの課題に直面すると、RLの課題に直面すると、これはコンピューティングの負担につながる可能性があります。より一般的には、RLはディープニューラルネットワーク(DRL)を使用して強化されます。 DRLアルゴリズムは、サンプルの効率とスケーラビリティの観点から動的プログラミングアルゴリズムよりも優れている場合がありますが、それらはより複雑で、より困難なトレーニングを受けている可能性があります。自律運転のためのDRLの適用に関するより詳細な研究については、参照してください。 自律運転におけるDRLソリューションは、使用されるシナリオ、状態空間表現、アクションスペース、および使用されるアルゴリズムに従って分類されます。 DRLで一般的に使用されるステータス表現を以下の図11に示します。
ベクトルベースの表現は、コンパクトで効率的な方法でそれらを表現することにより、交通情報を犠牲にして、周囲の車両の固定サブセットにオブジェクトを制限します。 BEV画像と占有グリッドは、固定方法で環境を表現する簡単な方法を提供し、簡単に更新できます。ただし、交絡または不確実性の高い環境では、それらは不正確である可能性があります。この図は、道路利用者間の関係がコンパクトな方法で簡単に表現できることを示しています。一方、グラフの更新は、周囲の道路のユーザーの数が増えるにつれて複雑になり、計算上高価になる可能性があります。 アクション空間は、連続または個別にすることができます。継続的な作用には、通常、自転車の縦方向の加速度とステアリング角が含まれます。離散アクションは通常、解決される特定のタスクに依存します。たとえば、車線変更シナリオでは、離散アクションには、左側のレーンの変更、現在の道路の維持、右側のレーンの変更が含まれます。低レベルのコントローラーは、アクションを実行するために車両のステアリングと加速を調整します。 ほとんどのDRLペーパーは、車両のみの交通シナリオに焦点を当てていますが、ハイブリッドトラフィックシナリオや車両のようなインタラクションを扱う論文は限られています。いくつかの研究には、モバイルロボットの群衆ナビゲーションが含まれます。 [174]では、DRLを使用して、マルチエージェント環境でロボットをナビゲートします。 [175]では、[174]のモデルは、注意ベースのニューラルネットワークとソーシャルプールを使用することにより改善されています。 [176]では、DQN Road Usersを使用して自動ブレーキシステムが開発されました。著者は、衝突シナリオからサンプリングするために、優先エクスペリエンスリプレイ(PER)と同様の外傷性メモリを実装しています。 [178]では、DQN道路ユーザーがクロスパスエンガーとの衝突を回避するように訓練されており、さらに歩行者の衝突回避シナリオでドライバーを支援するためのADASシステムを開発するために使用されます。 Deshpande et al。同様のシナリオでは、[180]の著者は、継続的なアクションを使用してSAC道路ユーザーを開発しました。報酬関数にSVOコンポーネントを統合することにより、車両を訓練して、向社会的行動から攻撃行動まで、さまざまな社会的に一貫した行動をとることができます。 現実世界のシナリオでディープ補強学習(DRL)を展開することは、大きな課題に直面しており、オープンな研究分野です。いくつかの研究は、DRL戦略を追加の微調整なしに実際のアプリケーションに直接実装し、信号のない交差点などのシナリオで有効性を示しています。深い学習のサブフィールドであるTransfer Learningは、現在、シミュレーション環境から現実の世界への知識の移転を調査しています。 2つの主要な技術には、ドメインの適応とドメインのランダム化が含まれます。ドメインのランダム化では、この方法は、現実世界を特定のケースとしてカバーするのに十分な大きさのトレーニングデータセットを持つように設計されています。ドメインの適応を通じて、目標は、ソース分布からのターゲット分布でうまく機能するモデルを学習することです。 DRLに関連するもう1つの問題は、学習ベースの戦略にはトレーニングコストが高く、セマンティック解釈を実装することが困難であることです。最近、一部の研究者は、上記の欠点を解決するために、解釈可能な学習アルゴリズムと生涯学習アルゴリズムに焦点を合わせています。 マルチエージェント強化学習複数のRLロードユーザーが現実の世界に展開され、互いに相互作用すると、問題はマルチエージェント強化学習(MARL)になります。マルチエージェントシステムに対処するには、その方法がいくつかあります。最初のアプローチは、集中コントローラーを使用してフリート全体を管理することです。状態寸法を追加してすべての車両を含め、共同アクションベクトルを持つことにより、問題は再び単一のエージェントの問題になります。欠点は、状態と行動空間の次元が増加し、学習をより複雑にする可能性があることです。最近、グラフィカルな表現が問題の次元の呪いを克服するために使用されています。レベルKゲーム理論に触発された別のアプローチは、単一のDRL学習者を使用しますが、周囲の道路利用者を以前のレプリカに置き換えることです。この手法は、競争力のあるDRLシナリオで使用される自己ゲームに似ています。最後のアプローチは、MARLメソッドを使用して問題を開発することです。複数の学習者が並行して作業します。各道路ユーザーの別の集中批評家を学習するため、各道路ユーザーが異なる報酬機能を持つことができるように、マルチエージェント深度決定論的ポリシーグラデーション(MADDPG)メソッドが[187]で提案されています。詳細については、Marlに関する広範な研究があります。自律運転では、MARLの他のアプリケーションがその中にあります。 部分的に観察可能なマルコフの意思決定プロセス部分的に観察可能なマルコフの意思決定プロセス(POMDP)は、MDPの一般化です。プロセス状態が意思決定者によって直接観察されない場合、MDPは部分的に観察可能と見なされます。 POMDPは計算的に高価ですが、さまざまな現実的な意思決定プロセスをモデル化するための一般的なフレームワークを提供します。ハードウェアの改善により、POMDPは自律運転の適用でますます人気が高まっています。 [190]では、POMDPは群衆の中のモバイルロボットをナビゲートするために使用されています。ロボットは、歩行者の将来の目標に対する信念を維持しています。 POMDPは、歩行者に存在するときに自動車の意思決定にも使用されます。 POMDPでは、自転車の周りの道路利用者は環境の一部としてモデル化されており、信念ベクトルはその意図をモデル化するために使用されます。 [189]では、著者は、マルチエージェント相互作用の知覚に関する意思決定戦略を開発しました。POMDPとしてモデル化された問題、および注意ベースのニューラルネットワークメカニズムが相互作用をモデル化するために使用されます。 POMDPは、交差点での環境閉塞の下での意思決定の問題を解決するためにも使用されます。インタラクティブな意思決定におけるPOMDPの他のアプリケーションについては、[193] [194]を参照してください。従来の制御方法は通常、センサーの不確実性と計画を順番に処理します。状態の推定器がセンサーのノイズと不確実性を処理し、決定論的戦略を使用して、推定状態に基づいてアクションを決定します。一方、POMDPはそのような分離を行わず、戦略は信念状態に基づいて決定されます。周囲の道路利用者は、意思決定者(MARL)として明示的にモデル化するか、単一の道路ユーザーが動作する環境(RLまたはDRL)と見なすことができます。 ゲーム理論モデルゲーム理論は、合理的な経路のユーザー間の戦略的相互作用を研究する数学的モデルです。ゲーム理論は主に経済学で使用されていますが、自律運転にも表示されます。特に、動的でない非協力的なゲーム理論は、自律運転にとって非常に重要です。ゲームに複数の決定が含まれ、決定の順序が重要である場合、各参加者は自分の利益を追求し、他の人の利益と部分的に対立する場合、それは非協力的です。動的でない非協力的なゲーム理論には、離散時間と連続時間のゲームが含まれ、マルチエージェント環境に対する最適な制御の自然な拡張を提供します。 ゲーム理論は、最適なプレーヤーの仮定の下で平衡ソリューションを研究しています。その中で、複数の概念が軌道ゲームに適用されます。ダイナミックゲームは、利用可能な情報に基づいてオープンループとフィードバックゲームに分かれています。フィードバックゲームの場合、各道路ユーザーはゲームの現在の状態に関する情報を取得できます。 2番目のタイプのゲームは、自律運転のセットアップをより正確に説明していますが、そのシンプルさのためにオープンループソリューションを使用することが望ましいことがよくあります。自律運転の一般的なバランスには、オープンループナッシュ、オープンループスタークカーバーグ、閉ループナッシュ、閉ループスタークカーバーグバランスが含まれます。このトピックの詳細については、[197]を参照してください。 道路利用者のダイナミクスが衝突を避けるための制約などの制約のセットに準拠する必要がある場合、平衡は一般化された平衡と呼ばれます。一般化された平衡問題に対する数値解は[220]で研究されています。オープンループナッシュバランスの取れたフォーミュラの欠点は、プレイヤーが自分の行動が周囲の道路のユーザーの動作にどのように影響するかを直接推測できないことです。この点で最初の単純化は、たとえば[203]のドローン自律競争のコンテキストなど、オープンループのスタークセルバーグ平衡です。 Starkelbergコンペティションでは、リーダーは最初に行動し、次にフォローアッププレーヤーを順番にフォローし、優先順位の高い人が優先順位の低い人が自分の行動をどのように計画するかを検討できるようにします。 [207]では、著者は、オープンループStarckerbergゲームに基づいた自律レースのための連続したダブルマトリックスゲーム方法を提案しています。 Starkelbergレシピの他のアプリケーションも見つけることができます。一般化されたフィードバックナッシュ平衡の問題を解決するためのレシピは、[223]に記載されています。 Sadigh et al。人間は自動運転車の計画を推定し、それに応じて行動しますが、自律的な車両は人間の行動を間接的に制御することを想定して、独自の行動を最適化します。 一般的に、ゲーム理論の方法は次の問題に直面しています:(1)道路利用者数の増加と時間的視点の増加とともに、計算の複雑さは指数関数的に増加し、他の道路利用者の行動は自分自身に知られていると想定しています。行動戦略はより困難になります。当然のことながら、ゲーム理論は、行動の相互依存性といくつかの問題に対する正確な解決策を捉える上で大きな利点を持っています。ゲーム理論の分野における多くの論文自律運転は、問題をさらに簡素化したり、近似ソリューションを見つけたりすることにより、これらの問題を軽減しようとします。次に、フィールドのいくつかの論文を見て、それらの単純化された仮定を分析します。 Level-K理論は、他の人が自分よりも複雑ではないと人々が考えると仮定して、ナッシュの均衡の合理的な期待の論理を破ります。这就是Level-k推理,其中迭代过程在k步之后停止。其他道路使用者被建模为Level-k-1的参与者。 Level-k道路使用者假设所有其他道路使用者都是Level-(k-1),并基于这一假设进行预测,并相应地做出反应。在[219]中,Level-k推理被应用于环状交叉口场景。这种方法还在[206]中被纳入了一个RL框架中:作者将问题限制为两个交互道路使用者,并使用基于DQN的RL方法解决了具有两辆车的马尔可夫博弈。在[218]中,Level-k推理被采用来解决交叉口的冲突。作者们表明,在自车辆是Level-k道路使用者且所有周围车辆都是Level-k-1或更低级别的情况下,冲突可以很容易地解决。然而,当两个道路使用者都是相同级别时,碰撞的数量增加,这表明需要进一步改进以处理具有相同类型道路使用者的场景,这在多个自动驾驶汽车的情况下是至关重要的。 为了保持计算复杂性可控,可以通过确定与自车辆进行交互的所有道路使用者的子集来减少道路使用者的数量。时间视角也可以通过考虑远程视角控制器或暗示分层博弈规划而进行限制。后者包括具有短视角战术规划者和具有长视角战略规划者的组合。第一个负责准确仿真问题的动力学,第二个负责使用近似动力学决定战略。 迭代线性二次(LQ)方法在机器人学和控制领域日益普遍。[201]的作者将问题表述为具有非线性系统动力学的一般和差分博弈。在[202]中,他们将他们的方法扩展到具有反馈线性化动力学的系统。解决博弈理论问题的另一种方法是使用迭代最佳响应来计算纯纳什均衡,即纯策略中的纳什均衡。[216]的作者提出了一种“敏感性增强”的迭代最佳响应求解器。在[204]中,提出了一种基于IBR的在线博弈论轨迹规划器。该规划器适用于在线规划,并在竞争性赛车场景中展示出复杂的行为。Williams等人提出了一个IBR算法,以及一个信息论规划器,用于控制两个地面车辆在紧密接触中。 在[13]中,Schwarting等人提出了解决纳什均衡问题的迭代最佳响应的替代方法,该方法基于将优化问题重新制定为使用Karush–Kuhn–Tucker条件的本地单层优化。在[137]中,博弈论被用来建模其他车辆的决策制定。他们提出了一个并行游戏交互模型(PGIM),用于提供积极和社会合规的驾驶交互。为了解决环境不确定性,将博弈论的纳什均衡概念扩展到POMDPs。在[215]中,作者通过构建关于其他道路使用者目标和约束的多个假设,对其他道路使用者的意图存在不确定性进行了考虑。 讨论与未来挑战在这次全面的调研中,介绍了对自动驾驶进展至关重要的两个关键部分:人类行为研究和交互建模。这些部分构成了理解和优化自动驾驶场景中复杂交交互态的基础。在本部分,将强调未来自动驾驶研究中交互场景的挑战和研究方向。 人类行为研究在社会对自动驾驶的强烈愿望驱动下,人类行为研究在近年来再次成为一个热门话题,尤其是在自动驾驶汽车背景下的研究。为了更好地理解自动驾驶汽车交互过程中的行人行为,仍然需要克服许多挑战。 总体而言,驾驶员行为模型的探索是一个具有潜力的研究领域,有望在交通系统的安全性和效率方面取得实质性的改进。然而,在这些模型的开发和验证方面仍有大量工作需要进行。未来研究应优先考虑创建更全面的模型,涵盖更广泛的因素,包括驾驶员的心理状态、周围环境以及与道路上其他人的交互。 对于行人行为研究,一个重要的挑战是沟通。首先,尽管大多数研究者都同意eHMI的有效性,但在其内容、形式和视角方面仍然缺乏共识。一个悬而未决的问题是,eHMI是否应该是拟人化的还是非拟人化的。对于文本和非文本的eHMI,也出现了类似的问题。此外,由于道路上存在多个行人,当前的eHMI主要设计为一对一的相遇,这可能会误导其他行人。还存在许多类似的问题,阻碍了eHMI的标准化。另一方面,由于诸如车辆运动学之类的隐含信号被广泛接受、普遍、常见且可靠,因此它们的关键作用不能被忽视。虽然研究人员已经尝试通过操纵隐含信号(如车辆减速率、横向距离和俯仰)来影响行人,但这些努力不足以确保安全有效的沟通。这些沟通方法缺乏相关理论支持,以证明沟通信息的准确有效传递。此外,在研究方法方面,包括车辆驾驶行为设计、主观和客观实验设计等方面,可靠的研究范式的缺乏也是一个问题。另外,如何有效而流畅地将eHMI和隐含信号结合起来,以利用双方的优势,也是一个有趣的研究方向。 另一个挑战是行人行为研究。行人的决策制定和行为模式受到交互情境、交通环境和参与者多样性的影响。然而,这些方面目前缺乏足够的研究关注。现有研究通常侧重于特定和简单的交互情境,以控制变量或简化研究复杂性。然而,现实生活中涉及大量复杂情景,包括多车道、双向或非结构化道路的过路口、面对密集连续交通流的过路口、多行人过马路的情景等。此外,行人的异质性,如性别、年龄、分心和群体效应,也在交互中发挥着重要作用。值得注意的是,许多影响因素,如等待时间和分心,仍然缺乏共识。因此,由于缺乏充足且可靠的结果,研究结论主要依赖于假设,突显了对行人道路行为基本机制理解的不足。 关于行人行为建模,近年来基于学习的方法变得越来越吸引人。端到端的深度神经网络可以有效捕捉复杂的行为机制,在行人意图预测和轨迹预测领域取得了显著进展。然而,其黑盒性质不能忽视。这些方法需要大量的数据来实现稳健的性能,这限制了它们对数据不足的零星案例的可扩展性。此外,黑盒模型在解释其决策和行为逻辑方面存在困难,这给建模带来了新问题。相反,专家模型,如社会力模型、证据积累模型或博弈论模型,具有坚实的心理和行为基础,其行为决策逻辑清晰且可解释。然而,大多数这些模型只在有限的数据集上进行了验证,或者仍处于实验室验证阶段,缺乏大量的工程实践。因此,未来需要进一步完善专家模型的理论,并在大量真实数据集上进行广泛验证。此外,专家模型和数据驱动模型在不同方面具有优势。可能的未来趋势是找到两种模型共同使用的平衡点。 最后,考虑到关于自动驾驶的整体文献中只有很小一部分明确考虑了行人行为,有必要增加行人行为模型的应用,可能包括但不限于行人行为预测、自动驾驶汽车行为设计和虚拟自动驾驶汽车验证。 インタラクティブモデリング随着自动驾驶技术的不断发展,对交互建模的研究将在解决挑战和推动更安全、可靠的自动驾驶车辆发展中发挥关键作用。 自动驾驶研究中引起关注的一种突出方法是使用基于学习的方法。这些方法具有端到端解决方案的吸引力,直接将感知输入和目的地知识映射到自动驾驶车辆的行为中。然而,这样的系统可能表现为黑盒,导致在出现故障时解释性问题以及对模型进行验证的困难。此外,完成整个驾驶过程的任务庞大,即学习整个驾驶过程,这也带来了重大挑战。因此,当前的研究努力将这一任务分解为子任务,包括路线规划、感知、运动规划和控制,并利用基于学习的方法来解决这些部分挑战。 通过模仿学习或在深度强化学习(DRL)方法中进行仿真来学习交互行为的优势也在不断增强。しかし、課題はまだ残っています。大多数基于深度学习的决策假设理想的道路场景和对周围环境的完美感知。然而,现实世界的条件往往涉及遮挡、传感器噪声和环境异常。在这些偶发事件中保持系统性能并处理部分或嘈杂信息是一个持续存在的研究挑战。不确定性来自周围交通参与者的不可预测行为,以及传感器噪声和车辆模型。此外,在仿真环境中训练的模型(如DRL模型)引发了一个问题,即如何弥合仿真和现实之间的差距。已经提出了几种策略,包括使仿真更加现实、领域随机化和领域自适应。这些方法旨在使模型能够应对现实世界的不可预测性和复杂性,确保其在道路上有效应用所学到的知识。 学习为基础的方法的另一种替代方法是基于模型的方法。这组方法包括博弈论模型、行为模型(在前一部分中已讨论)、社会力和势场。 博弈论提供了灵活性和适应性,可以有效处理各种情况,而无需依赖特定的数据分布。其关键优势之一是能够在给定情境中处理道路使用者的规划和预测。然而,计算方面存在一种权衡。随着道路使用者数量和时间范围的增加,计算负担也增加。研究人员提出了一些增强博弈论解决方案的策略,包括分层博弈论公式、将周围道路使用者的优化问题限制为近似解决方案、级别k博弈论,或提高非线性优化求解器的性能。 另一方面,社会力或势场方法提供了一种快速计算的解决方案。它们可以用于预测周围道路使用者的行为,也可以用于自动驾驶车辆的控制。社会力模型依赖于对人类行为的简化假设。它们通常将行人视为具有固定特征的粒子或道路使用者,忽视了人类决策制定的认知方面,这可能导致对复杂且动态的人类行为的不切实际的表示。这些方法的未来研究方向包括整合认知元素或上下文信息,如道路规则和交通信号。探索整合机器学习技术以提高社会力模型的适应性和预测能力也是可能的未来研究方向。 现有研究主要集中在车辆之间的交互中,这在自动驾驶中无疑起着关键作用。然而,有迫切需要开发能够处理与人类道路用户的交互,尤其是行人交互的方法。随着自动驾驶领域的不断发展,揭示治理与各种道路用户之间的沟通和交互的理论和模型,将在技术上变得更加重要,有望推动自动驾驶场景中的安全性和效率。 原文链接:https://mp.weixin.qq.com/s/VDDLPUHU3HsQZ08iaFDGWw |
<<: SparseOcc: 完全にスパースな 3D パノラマ占有予測 (セマンティック + インスタンス デュアル タスク)
>>: 生成AIは昨年人気が高まったが、米国のIT関連の仕事の数はわずか700件しか増加しなかった
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
AI は数年前にテクノロジーの世界で人気を博しましたが、今では何千もの業界で革新と徹底的な応用が行わ...
01 ハイテク時代の失業ゼロ半世紀以上前、有名な数学者ジョン・フォン・ノイマンは、機械を製造するコ...
近年、プラスチックのリサイクルは改善されてきましたが、埋め立て地に廃棄されるプラスチック廃棄物は大き...
人工知能(AI)は60年前の1956年の夏に誕生しました。今日の科学技術の発展により、人工知能は人間...
人工知能の急速な発展に伴い、音声認識は多くのデバイスの標準機能になり始めています。音声認識はますます...
ロボットが人間の仕事を奪うかどうかという進行中の議論は、世界中のメディアの注目を集めている。勤勉な従...
[[245072]] 1. ニューロン- 脳の基本要素を形成するニューロンと同様に、ニューロンはニュ...
人工知能 (AI) が人材情報プラットフォームを変革することで採用業界に革命をもたらしていることは否...
人工知能の誕生は第二次世界大戦中に連合国が暗号解読機を開発し、それがナチスドイツのエニグマ暗号を解読...