2021年10月1日にarXivにアップロードされた論文「強化学習を使用した不確実性の存在下での自律走行車のモーションプランニング」は、Huawei Noah Labとカナダのケベック大学の著者によって執筆されました。 不確実性が存在する状況での動作計画は、自律走行車の開発における主な課題の 1 つです。この論文では、限られた視野、遮蔽、感知距離の制限によって引き起こされる知覚の不確実性に焦点を当てています。この問題は通常、遮蔽領域またはセンサーの認識範囲外に隠れたターゲットが存在するという想定を考慮して受動的な安全性を確保することで解決されます。ただし、特に多数の仮想ターゲットを考慮する必要がある場合、これは保守的な計画と高価な計算につながる可能性があります。 著者らは、最悪の結果を最適化することで不確実性を処理する強化学習 (RL)ベースのソリューションを提案しています。このアプローチは、エージェントが単純に平均期待報酬を最大化しようとする従来の RL とは対照的です。これは安全でなく、堅牢性も低いアプローチです。このアプローチは、ポリシー最適化メソッドがランダムな結果の下限を最大化する分布 RLの上に構築されています。この修正は、さまざまな RL アルゴリズムに適用できます。概念実証として、ここではこれを 2 つの異なる RL アルゴリズム、 Soft Actor-Critic (SAC)とDeep Q-Network (DQN)に適用します。 この方法は、遮蔽された状況での横断歩道と視野が限られた曲がりくねった道路という 2 つの困難な運転シナリオで評価されます。アルゴリズムは、SUMO 交通シミュレータを使用してトレーニングおよび評価されます。提案された方法は、従来の RL アルゴリズムと比較して、人間の運転スタイルに匹敵する、より優れた動作計画動作を生成するために使用されます。 RL アプローチには、値ベースとポリシーベースの 2 つの主なタイプがあります。この論文では、2 つの方法の不確実性の問題についてそれぞれ説明します。 分布強化学習(論文「分位点回帰による分布強化学習」、AA 人工知能カンファレンス、2018 年) は、各状態とアクションのペアの可能な結果の分布を推定することを目的としています。 報酬分布にアクセスすることにより、状態の値を、起こり得る結果の最悪のケース(下限)に割り当てることができます。 RL でランダム変数の分布を推定する強力なアプローチは、分位点回帰 (QR)です。これは、N 個の分位点によって定義される分布で、最初の分位点は可能な報酬のおおよその下限です。このアプローチ、 QR-DQNは、価値関数を含む任意の RL アルゴリズムに適用できます。 これを行うには、価値関数を強化し、N 個の分位数を推定し、その分布を近似する必要があります。 分位点回帰 (QR) を使用して分位点値を推定する場合、回帰プロセスによって値が最低から最高までランク付けされます。 したがって、最初の値は下限の推定値として直接使用されます。この方法は、保守的QR-DQN(CQR-DQN)と呼ばれます。 別の RL アルゴリズムである SAC (論文「 Soft actor-critic: Off-policy maximum entropy deep enhancement learning with a stochastic actor 」、ICLR 2018 を参照) は、Actor-Critic フレームワークに従います。 Q ネットワークをトレーニングしてポリシーに従う価値を推定し、Q 値を最大化するようにポリシーをトレーニングします。 ここで、SAC は分位点回帰 (QR) によって拡張され、 QR-SACと呼ばれます。 実際には、Q ネットワークは分位数を推定するために拡張されます。 次に、QR-DQN と同様に、状態とアクションのペアの Q 値が推定されます。つまり、最初の分位値が下限推定値として使用されます。したがって、QR-DQN の分散ベルマン方程式を修正することで、Critic の分散 SAC ベルマン更新規則を得ることができます。この方法は保守的QR-SAC(CQR-SAC)と呼ばれます。 入力認識では、OGM は遮蔽された領域に関する情報、道路網のラスター画像を提供し、道路利用者が存在する可能性のある場所を特定します。 さらに、シーンの目標に関する明示的な情報を提供せずに、モーション プランナーが OGM から目標を認識できるようにしたいと考えています。この動作計画問題を解決するために、Frenet フレームワークで最適な軌道を検索します。 これは、フレネ フレームの従来の動作計画アプローチに似ています。 Frenet フレームワークでは、車線中心に沿った軌道が直線軌道になり、検索空間が簡素化されます。各軌道には、現在の速度、現在の横方向オフセット、最終速度、および最終横方向オフセットが含まれます。軌道が確立された後、車両速度および横方向位置は、一次指数軌道に従って、所定時間内に初期値から最終値まで徐々に変化します。 RL エージェントの入力には、OGM の 2 つのフレーム (現在と前回)、道路ネットワークの現在のフレーム、現在の速度が含まれ、報酬は安全性、快適性、移動性の観点から定義されます。 RL の観点からの 1 つの考え方は、エージェントのアクションが軌道として定義され、将来の状態でのエージェントのアクションが現在の状態でのアクションと同じであると仮定すると、軌道を評価することは Q 値を推定することと同等であるということです。このようなアルゴリズムはそれぞれ(CQR-DQN、CQR-SAC)値バージョンとして記録されます。 もう 1 つの考え方は、RL 定式化では、将来の状態のアクション (軌道) はエージェントの戦略に依存し、将来のアクションが現在のアクションと異なる可能性があることを認識した上で評価されるというものです。 状態とアクションのペアに割り当てられた Q 値は、エージェントのポリシーに従った場合に期待される報酬です。このようなアルゴリズムはそれぞれ(CQR-DQN、CQR-SAC)戦略バージョンとして記録されます。 ポリシーに従って評価することで柔軟性が高まり、モーション プランナーはより優れたソリューションを見つけられる可能性があります。次の図は、軌道とポリシーを評価するときに評価されるパスを示しています。 実験は2つのシナリオに分かれています。まず、写真のように、歩行者が道路を横断しており、障害物があります。 2 つ目は、図に示すように、曲がった道路によって発生する閉塞です。 実験ではSUMOシミュレーションを使用しました。比較される RL 方法には、SAC、QR-SAC、CQR-SAC ポリシー バージョン、CQR-SAC 値バージョン、DQN、QR-DQN、CQR-DQN ポリシー バージョン、CQR-DQN 値バージョンが含まれます。 3 つのベンチマーク ルール メソッドは、fixed、naive、aware です。
実験結果は次のように比較されます: 下付き文字の Pai は戦略バージョン、下付き文字の Tao は価値バージョンです。 この研究では、オクルージョンによって生じる不確実性を伴う動作計画の問題に焦点を当て、分布強化学習を活用して平均報酬ではなく最悪の報酬を最大化することで、最悪の報酬を最大化する戦略が実際の強化学習問題における望ましい動作にどのように適合するかについて説明します。 SAC と DQN を Quantile Regression (QR) で拡張して、最悪のシナリオを最適化するアクションを見つけます。 SUMO シミュレーション環境を使用して、一連の遮蔽シナリオの下で自律運転モーション プランナーを設計および評価します。報酬関数を微調整せずに遮蔽されたビューとの衝突を回避するために、CQR-SAC と CQR-DQN に基づくモーション プランナーを提案します。 今後の研究では、交差点、ラウンドアバウト、移動車両を含むシナリオなど、より複雑で多様な環境に適用したいと考えています。実際の期待としては、自車両エージェントが他の車両の動作から遮蔽された領域の状態を暗黙的に推測できるということです。 |
<<: 業界のハイエンド複合AI人材を育成するために、第5回AICAチーフAIアーキテクトトレーニングプログラムが開始されました。
>>: 中国語と英語で最大のAIモデルの世界記録が樹立され、大規模モデル競争の新たなステージが到来
[[435721]]少し前に、He Kaiming 氏らによる論文がコンピューター ビジョン界で注目...
共同通信によると、国土交通省は月面に滞在できる基地を建設するため、無人重機の開発を進めている。日本は...
人工知能 (AI) には、問題を理解し解決する神秘的な力があると考える人もいます。人工知能は人々の日...
1. パーソナライズされたタイトル生成パーソナライズされたタイトル生成とは、ユーザー コンテンツとパ...
近年、モバイルインターネット、OTTビデオ、VRなどのビジネスアプリケーションの急速な成長に伴い、通...
[51CTO.com クイック翻訳] 強化学習は自律的な意思決定を実現するのに非常に適しています。対...
[51CTO.com クイック翻訳] Heroku Cloud は、Web 開発者や機械学習愛好家の...
重要:北京大学のチームとTuzhanは共同でSoraの再生計画「 Open Sora」を立ち上げまし...
[[203908]]誰かが尋ねたディープラーニング — どこから始めればよいですか?今はTenso...
[[414878]]私たちは、あらゆるものが感知され、接続され、インテリジェントになる世界に突入して...
10月11日、アリババは2017年杭州雲奇大会で、人類のテクノロジーの未来を探求する実験室「大墨学院...