2021年10月11日にarXivにアップロードされた論文「混合交通流における人間の運転する車両のエラーによって引き起こされる衝突の差し迫った状況への対処:CAV向けのモデルベースの強化学習アプローチ」は、パデュー大学のコネクテッドおよび自動運転交通センター(CCAT)の著者らによって執筆されたもので、そのうちの1人はCMUのロボット工学研究所(RI)の客員教授です。 この論文では、コネクテッド自律走行車 (CAV)、人間が運転する車両 (HDV)、コネクテッド人間が運転する車両 (CHDV) などの混合交通フローも研究しています。最近では、この研究方向に関する論文はあまり多くありません。 本稿では、CAV に導入され、HDV による衝突を予測して回避する軌道を生成する、シンプルなモデルベースの強化学習 (RL) システムを開発します。このモデルには、ディープラーニング ベースの動作予測モデルや MPC による高速軌道計画アルゴリズムなど、エンドツーエンドのデータ駆動型アプローチが採用されています。 このシステムは、車両ダイナミクスの物理的環境に関する事前の知識や仮定を必要とせず、あらゆるタイプの車両(トラック、バス、オートバイなど)に導入できる一般的なアプローチです。 CARLA シミュレーターで複数の差し迫った衝突シナリオをトレーニングおよびテストします。 車両とあらゆるものをつなぐ (V2X) 機能を備えたコネクテッド自律走行車 (CAV) が事故ゼロを実現する鍵であると考えられています。しかし、安全性が極めて重要なシナリオ データは依然として大量に必要であり、その量は不足していることが多いです。 モデルベースの強化学習 (RL) は、データを使用して状態遷移モデルを推定し、推定されたモデルに基づいて計画を立てます。 この組み合わせアプローチは、データ/トレーニング効率とモデル非依存という 2 つのアプローチの利点を活用します。 一般的に、AV 軌道計画のためのモデルベースの RL 方法は、状態予測と経路計画という 2 つのモジュールで構成されます。 状態予測は、物理的環境の推定として、過去の情報から将来の状態を推測するという問題に特に対処します。 言い換えれば、過去の軌跡に基づいて、ターゲットが近い将来(予測期間)にどのような状態(位置、速度、加速度など)に到達するかを周囲に「伝える」ことになります。 ここでの状態予測モジュールは、ニューラル ネットワーク構造に基づいています。実験では、3 層の全結合ニューラル ネットワーク (FCN)、単層長短期記憶ネットワーク (LSTM)、単層 FCN (線形回帰) の 3 つのモデルがテストされました。周囲の車両の変化により、集中型モデルの代わりに分散型予測モデルが採用され、つまり、各インテリジェントエージェントは異なる状態予測モデルを持ちます。 経路計画は状態予測モデルに基づいています。状態予測は不完全であるため、計画モジュールはエラーの伝播を防ぐために安全なパスを確実に出力する必要があります。第二に、計画モジュールは、特に新しいエージェント(歩行者が突然道路を横断したり、周囲の車両が積極的に車線を変更したりする場合)が出現したときに、非常に動的なシナリオに適応する必要があります。 モデル予測制御 (MPC) は一般的な制御方法であり、上記の両方の基準を満たす一般的な方法です。重要な考え方は、各タイムステップで「再計画」し、現在の最適な軌道の最初のステップのみを実行することです。この方法は、各タイムステップでアクションの実現可能性を評価するため、急速に変化するシーンに対応できます。 古典的な MPC は、物理環境 (システム ダイナミクス) の「与えられた」モデルを使用して、計画問題を複雑な最適化問題として定式化しようとします。モデルベースの RL 設定では、著者らは MPC とデータ駆動型状態予測モジュールを組み合わせて、複雑な最適化アルゴリズムを高速でシンプルな計画アルゴリズムに置き換えます。提案された方法の利点には、データ効率、モデルの解釈可能性、安定性、およびシナリオ間の転送可能性(堅牢性)が含まれます。 MPC の計画方法は、次の 4 つのステップで構成されます。
エンドツーエンドのアルゴリズム全体は次のとおりです。 エンドツーエンドのアルゴリズムは、ウォームアップ フェーズ (データの収集)、トレーニング フェーズ (状態予測モデルの推定)、およびパス プランニング フェーズ (衝突の回避) の 3 つの主要なフェーズで構成されます。 これら 3 つのステップは、モデルベースの RL メソッドのプロセスに従います。つまり、経験を収集し、モデルを推定し、推定されたモデルを使用して計画を立てます。 テスト (計画) フェーズで得られた経験をリプレイ メモリに追加し、モデルを再トレーニングして、展開後もモデルを改善できるようにすることができます。 図に示すように、重大な衝突状況が 2 つあります。主な原因は、図の灰色の車両による違法または強引な車線変更です。赤色の車両が灰色の車両の死角に入っていることが、現実世界で起こり得ることです。 図に示すように、CARLA では 4 台の車両がシミュレートされています。黄色の車両は「故障した」 HDV を表し、赤色の車両は CAV を表します。 写真では、黄色の HDV が灰色の車両を追い越そうとしていますが、死角にある赤色の車両 (CAV) を認識できません。この積極的な車線変更は、特に狭い運転環境では衝突につながる可能性があります (CAV は急ブレーキをかけることができません。急ブレーキをかけると青い HDV との追突事故につながるからです)。 CAV は、システムの崩壊を回避するために一連の操作を実行する必要があります。シミュレーションでは、黄色の HDV が左側から追い越し、右側の CAV と側面衝突する可能性があるシナリオも設定されています。 シミュレーションのステップ サイズは 0.05 秒/ステップ (または 20 ステップ/秒) で、黄色の HDV の積極的な追い越しアクションは、Logitech G27 レーシング ホイールを使用した手動運転によって生成されます。さらに、著者らは、CARLA シミュレータに接続するための Open AI ジムと Python API インターフェースを開発しました。 以下は、異なる運転速度での衝突回避成功の実験結果の比較です。 |
<<: ベアリングポイント調査 - 2022 年の 5 つのテクノロジー トレンド
自動運転がどれだけ遠い未来の話なのか議論されている中、自動運転の旅客バス、アルファバス・スマートバス...
著者のJean-Christophe Baillie氏は、Novaquarkの創設者兼社長であり、「...
現在、データはデジタル環境に残っており、共有する動機はほとんどありません。これにより、Google、...
「ここ数年、情報技術分野で私たちが学んだ最大の教訓の一つは、主要な中核技術は私たち自身の独立したイノ...
過去数年間、世界中の地域の医療システムは、他のほとんどの業界よりも大きな変化を遂げてきました。パンデ...
近年、人工知能の継続的な成熟に伴い、生体認証技術は生活のあらゆる分野に浸透し、コストが削減され、効率...
ロボットは新しい常態の中で私たちの生活を変えています。たとえば、ソーシャルロボットには、感情療法、認...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
近年、生成的事前トレーニング済みモデル (GPT など) の台頭により、自然言語処理の分野に革命が起...
[51CTO.com からのオリジナル記事] 自然言語処理は、人工知能の開発において常に克服しなけ...