自動運転のための強化学習：人間主導の経験ベースのアプローチ

[[428302]]

2021年9月26日にarXivにアップロードされた論文「人間のガイダンスによる優先順位付けされた経験ベースの強化学習：方法論と自動運転への応用」は、シンガポールのNTU（南洋理工大学）によって執筆されました。

強化学習 (RL) では、最適化と制御の問題を解決するための定義と計算が必要であり、これが開発の見通しを損なう可能性があります。強化学習に人間のガイダンスを導入することは、学習パフォーマンスを向上させる有望なアプローチです。本論文では、人間のガイダンスに基づいた強化学習フレームワークを確立します。

提案されているのは、強化学習プロセスにおける人間のガイダンスに適応し、RL アルゴリズムの効率とパフォーマンスを向上させる、優先順位付けされた経験再生 (PER)メカニズムです。人間の過重な作業負荷を軽減するために、人間を模倣する増分オンライン学習法に基づいた行動モデルを構築します。

著者らは、提案されたアルゴリズムを評価するために、2 つの難しい自動運転タスクを設計しました。1 つは T 字路での保護されていない左折であり、もう 1 つは高速道路の交通渋滞です。

最近、強化学習ではディープニューラルネットワークが導入され、高次元の環境表現と一般化を処理できるレインボーディープQ学習、近似ポリシー最適化（PPO）、ソフトアクタークリティック（SAC）などのいくつかの一般的な方法が提案されています。

しかし、問題は、環境と知的身体との間の相互作用が比較的非効率的であることです。この目的のために、人間によるガイダンスを導入する方法は 3 つあります。1) 人間の専門家によるフィードバック、行動スコアの付与、2) 人間の介入、一般的には報酬形成法、3) 人間によるデモンストレーション、コンテキスト内での教師あり学習です。

図は、この方法の RL アルゴリズムフレームワークを示しています。

提案された人間ガイドによる Prioritized Experience Replay (PER) メカニズムでは、TDQA は提案された優先度計算スキーム、つまり Time Difference Q-advantage を表し、数字 1 ～ 4 はデータのフロー順序を表し、アクション信号の点線はフレームワークが断続的な人間によるループガイダンスを許可することを示します。

強化学習は、相互作用プロセスを定義するために離散 MDP に基づいており、ここでは戦略のない AC (アクタークリティック) アーキテクチャが採用されています。ポリシー関数（つまり、アクター）は、ベルマン価値関数（つまり、批評家）に基づいて蓄積された将来の報酬から得られる価値関数 Q を最大化します。

このベルマン値関数は、相互作用を実行するポリシーに関係なく、最適なポリシーのみを評価します。したがって、RL はポリシー評価プロセスをポリシー動作から切り離し、エージェントがポリシー外で状態を更新できるようにします。

著者は、ニューラルネットワークを関数近似として使用してアクターと批評家を定式化し、損失関数を通じて目標を達成できます。

従来、バッファーに格納されたエクスペリエンスは均一分布に従い、均一ランダムサンプリングを使用して、RL トレーニング用にバッファーからバッチエクスペリエンスを取得します。限定された経験再生メカニズムでは、経験は不均一に分布し、実際の優先順位は TD エラー (時間差エラー) によって決まります。

TD エラーが大きいほど、その経験はより高度なレベルで学習する価値があることを示します。したがって、TD エラーに基づく優先順位付けされた経験再生 (PER) メカニズムは、RL のトレーニング効率を向上させることができます。

強化学習のトレーニングでは、介入とデモンストレーションという 2 種類の人間主導の動作が使用されます。

介入: 人間の参加者は RL 対話シナリオを識別し、事前の知識と推論能力に基づいてガイダンスを提供する必要があるかどうかを決定します。人間の参加者が介入することを決定した場合、デバイスを操作して RL エージェントから制御を（部分的または完全に）奪取することができます。介入は通常、RL エージェントが壊滅的な動きをしたり、局所最適値に陥ったりしたときに発生します。したがって、RL は介入が発生する不利な状況を回避することを学習できます。

デモンストレーション: 介入イベントが発生すると、人間の参加者がアクションを実行し、対応する報酬信号と次の状態を生成します。生成された遷移タプルは、RL 動作ポリシーではなく人間のポリシーによって発生するため、デモンストレーションデータの一部と見なすことができます。 RL アルゴリズムは、デモンストレーションから熟練した人間の行動を学習できます。

RL エージェントとその環境間の標準的な対話では、RL 動作ポリシーは環境を探索するためのアクションを出力します。アクションが環境に送信されると、そのアクションと対話する一連の遷移が記録され、エクスペリエンスリプレイバッファーに保存されます。特に、人間のポリシーと RL ポリシーからのアクションは同じバッファーに格納されることに注意してください。

事前の知識と推論能力により、人間によるデモンストレーションは、RL 動作ポリシーのほとんどの調査よりも重要になることがよくあります。したがって、キャッシュされた専門家のデモンストレーションに重み付けするためのより効率的な方法が必要です。本稿では、従来の優先順位付けされた経験再生 (PER) TD エラーの代わりに利点ベースの尺度を採用して、優先順位付けされた専門家のデモンストレーション再生メカニズムを確立します。

TD エラーメトリックに加えて、アドバンテージメトリック (Q 計算に基づいているため、 QAまたはQ アドバンテージと呼ばれる) も、特定のエキスパートデモンストレーション変換セットをどの程度取得する必要があるかを評価します。 RL エージェントの機能が RL トレーニングプロセスを通じて変化すると、エキスパートデモンストレーション遷移グループの優先順位も変化し、動的な優先順位メカニズムが実現します。このメカニズム全体はTDQAと呼ばれ、2 つの指標を人々のための単一のガイダンス指標に組み合わせます。

優先順位メカニズムは、キャッシュ内の経験の分布を変更するため、価値関数の予想される推定値にバイアスを導入します。バイアスされた価値ネットワークは強化学習の漸近特性にほとんど影響を与えませんが、場合によっては成熟したポリシーの安定性と堅牢性に影響を与える可能性があります。オプションとして、重要度サンプリング重みを値ネットワークの損失関数に導入することで、バイアスをアニールすることができます。

以下では、RL トレーニングループにおける人間の参加者の行動について説明します。人間の参加者はプロセスに介入して制御を獲得し、RL エージェントのアクションを専門家のアクションに置き換えることができます。トレーニングエピソードの継続的な繰り返しと未熟な RL 戦略により、トレーニングプロセス中に人間の参加者が絶えずデモンストレーションを行うのは退屈になるため、断続的な介入がより実現可能なソリューションになります。この場合、人間の参加者は、重大なシナリオ（壊滅的な動作や局所最適性に陥る）にのみ介入して、RL エージェントを救出し、トレーニング時間を延長します。

ここで報酬形成法は、RL が人間の介入を必要とする状態に陥るのを防ぐために使用されます。ただし、ペナルティがトリガーされるのは、人間が介入した最初のインスタンスのみです。この背後にある理論的根拠は、人間の参加者が制御を獲得すると、彼または彼女の熟練したデモンストレーションは慣性によって一定期間継続され、最初のシーンのみが重要なシーンとして識別されるというものです。

上記のコンポーネントは統合されて、 Prioritized Human-In-the-Loop (PHIL ) RL を形成します。具体的には、優先順位付けされた専門家のデモンストレーション再生と介入ベースの報酬形成メカニズムを備えた、人間がガイドするアクタークリティックフレームワークを通じて、全体的な人間参加型 RL 構成が実現されます。この PHIL アルゴリズムは、オフポリシー RL アルゴリズムであるツイン遅延深層決定論的ポリシー勾配 ( TD3 ) に基づいてインスタンス化されます。上記のコンポーネントは、さまざまなオフポリシーアクタークリティック RL アルゴリズムに適用できます。

最後に、PHIL-TD3 アルゴリズム全体は次のように要約されます。

以前の PHIL-RL と組み合わせて、人間の戦略モデルが必要です。このモデルは、実際の人間の参加者の行動戦略を模倣することで、人間が参加する RL プロセスの作業負荷を軽減します。

PHIL-RL は人間の参加者が実行するとパフォーマンスの向上に最も役立ちますが、過度の参加は疲労を引き起こす可能性があります。著者らは、RL を実行しながら人間のポリシーを模倣する回帰モデルをトレーニングしました。このポリシーモデルは、必要に応じて人間に代わることができます。

RL トレーニングプロセスにおける人間の行動を分析してみましょう。人間の介入がループに断続的に適用され、人間のデモンストレーションがトレーニングセット (キャッシュ) に徐々に追加されます。これを念頭に置いて、オンラインおよび増分ベースの模倣学習アルゴリズム (つまり、データ集約、DAgger) を使用して、オフラインの大規模なデモンストレーションデータの収集による影響を受けない人間のポリシーモデルをトレーニングします。

注: このヒューマンポリシーモデルを PHIL と連携して使用する場合、モデルのアクティブ化条件は特定の環境に応じて手動で定義されます。

以下では、これを自動運転のシナリオに適用する方法について説明します。エンドツーエンドの問題の 2 つのアプリケーション、つまり T 字路での保護されていない左折と高速道路での交通渋滞を選択します。

この図は、自動運転タスクの環境構成を示しています。a. CARLA で確立された T 字路で設計された保護されていない左折シナリオ。b. 左折シナリオの航空写真。赤い点線は左折の軌跡を示しています。c. CARLA で確立された設計された高速道路の渋滞シナリオ。d. 渋滞シナリオの航空写真。赤い点線は後続車両の軌跡を示しています。

T 字路での保護されていない左折: 側道にいる自車両が左折して本線に合流しようとします。交差点には車両を誘導する信号はありません。自車両の横方向の経路は他の技術によって計画されていると想定され、縦方向の制御は RL エージェントに割り当てられます。周囲の車両は、[4、6] m/s の範囲のさまざまなランダムな速度で初期化され、インテリジェントドライバーモデル (IDM) によって制御されて車線維持動作を実行します。周囲のドライバーはすべて攻撃的であるため、自車両に道を譲りません。すべての車両の制御間隔は 0.1 秒に設定されています。

高速道路の渋滞: 自車両は深刻な渋滞に巻き込まれ、他の車両にしっかりと囲まれているため、先頭車両とのギャップを縮め、目標速度で先頭車両に追従しようとします。縦方向の制御は IDM によって 6 m/s の目標速度で行われ、横方向の制御は RL エージェントに割り当てられていると想定されます。周囲の車両は速度範囲 [4, 6] m/s で初期化され、IDM によって次の動作を実行するように制御されます。すべての車両の制御間隔は 0.1 秒に設定されています。混雑した周囲の車両が車線標示を覆い、自車線に特定の先頭車両がないため、この場合は従来の横方向の計画方法が無効になる可能性があります。

RLの状態は次のように定義される。

RL のアクションは 2 つのシナリオで異なります。

T字路を左折

高速道路の渋滞

報酬も 2 つのシナリオで異なります。

T字路を左折

高速

価値関数とポリシー関数の近似には、図に示すようにDeep CNNを使用します。a) ポリシー関数、b) 価値関数

補助機能: 主に車両制御用。RL がステアリングホイールを操作すると、縦方向の制御は IDM によって実現されます。RL がペダルギャップを操作すると、横方向の動きのターゲットは比例積分 (PI) コントローラーを介して計画されたウェイポイントを追跡することです。

実験比較のためのベンチマークアルゴリズムは次のとおりです。

IA-TD3: 介入支援強化学習 (IARL)
HI-TD3: 人間介入強化学習 (HIRL)
RD2-TD3：リカレントリプレイ分散デモンストレーションベースDQN（R2D3）
PER-TD3: バニラ優先エクスペリエンスリプレイ (PER)

RL トレーニングと推論の実験ワークフローを図 (ab) に示します。

トレーニングハードウェアには、運転シミュレーターや高性能ワークステーションが含まれます。運転シミュレーターは、人間の運転データを収集して人間のポリシーモデルをトレーニングするために使用され、ワークステーションは RL トレーニングの処理に特化しています。高精度の自動運転シミュレーションプラットフォーム CARLA を使用して、運転シナリオを実現し、RL 環境相互作用情報を生成します。

テストハードウェアはロボット車両です。トレーニングされた RL ポリシーは車両のコンピューティングプラットフォームに実装され、ワイヤレスネットワークを介して CARLA サーバーと通信します。オンボードの RL 戦略は、CARLA からステータス情報を受信し、制御コマンドを送り返して、リモートで操作し、自動運転タスクを完了します。ロボット車両は、現在のオンボードコンピューティングと通信のシナリオを考慮して、RL ポリシーが有効かどうかをテストするように設計されています。

いくつかの実験結果は次のように比較されます。

著者らは、ヒューマン・イン・ザ・ループ RL のアルゴリズム機能を改善することを目的としたアルゴリズム PHIL-TD3 を提案しました。さらに、人間の参加者の作業負荷を軽減するために、人間の行動をモデリングするメカニズムが導入されています。 PHIL-TD3 は、保護されていない T 字路での左折と高速道路の渋滞という 2 つの困難な自動運転タスクを解決します。

<<: 星が輝くとき - WOT グローバルテクノロジーイノベーションカンファレンス 2021 が間もなく開催されます

>>: 星が輝くとき - WOT グローバルテクノロジーイノベーションカンファレンス 2021 が間もなく開催されます