RL エージェントはオンラインでしかトレーニングできないと誰が言ったのでしょうか? Google がオフライン強化学習の新しいパラダイムを発表

分布の不一致を避けるために、強化学習のトレーニングはオンラインで環境と対話する必要がありますか? Google のこの最新の研究は、最適化の観点からオフライン強化学習研究に新たなアイデアを提供します。つまり、十分に大きく多様なオフラインデータセットでトレーニングされた堅牢な RL アルゴリズムは、高品質の動作を生み出すことができます。この論文のトレーニングデータセットとコードはオープンソース化されています。 Synced は、トレーニングデータセットに 60 個の Atari ゲーム環境が含まれていることを思い出させます。Google は、そのサイズが ImageNet の約 60 x 3.5 倍であると主張しています。

[[322327]]

「オフポリシー学習の可能性は魅力的ですが、それを実装する最良の方法は謎のままです。」—サットン＆バルト（強化学習入門の著者）

ほとんどの強化学習アルゴリズムは、エージェントがオンライン環境と積極的に対話し、収集した独自の経験から学習することを前提としています。これらのアルゴリズムを現実世界の問題に適用するのは困難です。現実世界からさらに収集されたデータはサンプル効率が非常に悪く、予期しない動作が発生する可能性があるためです。シミュレーション環境で実行されるアルゴリズムには、構築が困難な高忠実度のシミュレータが必要です。しかし、多くの現実世界の強化学習アプリケーションでは、これまでに大量のインタラクションデータが収集されており、それを使用して、これまでの豊富な経験を組み合わせることで一般化パフォーマンスを向上させながら、上記の現実世界の問題で実行可能な強化学習エージェントをトレーニングすることができます。

既存のインタラクションデータにより、エージェントが固定データセットから学習し、環境とインタラクトしない完全にオフポリシーの強化学習設定であるオフライン強化学習の効率的なトレーニングが可能になります。

オフライン強化学習は次のような場合に役立ちます。

1) 既存のデータを使用して強化学習エージェントを事前トレーニングする。

2) 固定されたインタラクションデータセットを活用する能力に基づいて強化学習アルゴリズムを実験的に評価する。

3) 現実世界の問題に影響を与える。しかし、オフライン強化学習は、オンラインインタラクションの分布と固定データセット内のインタラクションデータとの不一致により、大きな課題に直面しています。つまり、訓練されたエージェントがデータ収集エージェントとは異なるアクションを実行した場合に、どのような報酬を提供すればよいかがわかりません。

オンラインインタラクションとオフライン RL のフローチャート比較。

「オフライン強化学習に関する楽観的な視点」と題されたこの論文では、Google Brain チームの研究者が、DQN エージェントによって記録された経験に基づいて、Atari 2600 ゲームでのオフライン強化学習のための簡単な実験セットアップを提案しました。彼らは、不一致な分布を明示的に修正しなくても、標準のオフポリシー RL アルゴリズムを使用して収集されたエージェントよりも優れたパフォーマンスを発揮するエージェントをトレーニングできることを示しています。同時に、研究者らは、ランダムアンサンブル混合 (REM) と呼ばれる、オフライン RL で有望な結果を示した堅牢な RL アルゴリズムも提案しました。

要約すると、研究者らは、十分に大きく多様なオフラインデータセットでトレーニングされた堅牢な RL アルゴリズムが高品質の動作を生み出し、新たなデータ駆動型 RL パラダイムを統合できるという、新たな最適化の観点を提案しています。オフライン RL 手法の開発と評価を容易にするために、研究者らは DQN バックトラッキングデータセットを公開し、論文のコードをオープンソース化しました。

論文リンク: https://arxiv.org/pdf/1907.04543.pdf
プロジェクトアドレス: https://github.com/google-research/batch_rl

さまざまな戦略とオフライン強化学習の基礎

さまざまな RL アルゴリズムをまとめると次のようになります。

DQN などのオンラインオフポリシー RL エージェントは、ゲーム画面からの画像のみを受信し、ゲームに関するその他の知識を一切持たずに、Atari 2600 ゲームで人間レベルのパフォーマンスを達成しました。環境状態が与えられると、DQN は将来の報酬 (Q 値など) を最大化する方法に基づいてアクションの有効性を推定します。

さらに、価値関数分布 (QR-DQN など) を使用する現在の RL アルゴリズムは、各状態とアクションのペアに対して単一の期待値を推定するのではなく、すべての可能性のある将来の報酬にわたる分布を推定します。 DQN や QR-DQN などのエージェントは、ポリシーの最適化と、その最適化されたポリシーを使用してより多くのデータを収集することの間で継続的に反復するため、「オンライン」アルゴリズムと見なされます。

理論的には、オフポリシー RL エージェントは、最適化されているポリシーだけでなく、任意のポリシーによって収集されたデータから学習できます。しかし、最近の研究では、標準的なオフポリシーエージェントはオフライン RL 設定では発散したりパフォーマンスが低下したりする可能性があることが示されています。上記の問題を解決するために、これまでの研究では、学習した戦略を正規化して、その戦略更新をオフラインインタラクションデータセットに近づける方法が提案されています。

オフライン RL 用に設計された DQN バックトラッキングデータセット

研究者らはまず、オフライン RL を再検討するために DQN バックトラッキングデータセットを確立しました。このデータセットでは、60 種類の Atari 2600 ゲームそれぞれで 2 億ステップトレーニングされた DQN エージェントを使用し、スティッキーアクションを使用して問題をより困難にします。つまり、エージェントの現在のアクションではなく、前のアクションを実行する確率が 25% になります。

研究者らは、これら 60 のゲームそれぞれについて、異なる初期化パラメータを持つ 5 つの DQN エージェントをトレーニングし、トレーニング中に生成されたすべてのタプル (状態、アクション、報酬、次の状態) を 5 つのバックトラッキングデータセットに保存し、合計 300 のデータセットを生成しました。

この DQN バックトラッキングデータセットは、環境とのやり取りなしでオフライン RL エージェントをトレーニングするために使用されました。各ゲームバックトラッキングデータセットは ImageNet の約 3.5 倍の大きさで、オンライン DQN を最適化するときに中間ポリシーによって生成されたすべてのサンプルが含まれています。

DQN バックトラッキングデータセットを使用した Atari ゲームのオフライン RL。

DQN バックトラッキングデータセットでオフラインエージェントをトレーニングする

研究者らは、DQN バックトラッキングデータセットで DQN のバリエーションと価値関数分布 QR-DQN をトレーニングしました。オフラインデータセットには DQN エージェントが経験したデータが含まれており、このデータはトレーニングが進むにつれてそれに応じて改善されますが、研究者はオフラインエージェントのパフォーマンスを、トレーニング後に得られた最高のパフォーマンスを発揮したオンライン DQN エージェント (つまり、完全にトレーニングされた DQN) と比較しました。各ゲームについて、オンラインリターンを使用してトレーニングされた 5 つのオフラインエージェントを評価し、最高の平均パフォーマンスを見つけました。

オフライン DQN が同じ量のデータで完全にトレーニングされたオンライン DQN よりも高いスコアを獲得したいくつかのゲームを除き、オフライン DQN のパフォーマンスは後者よりも低くなります。一方、オフライン QR-DQN は、ほとんどのゲームでオフライン DQN や完全にトレーニングされた DQN よりも優れたパフォーマンスを発揮します。これらの結果は、標準的な深層 RL アルゴリズムを使用して強力なオフラインエージェントを最適化できることを示しています。さらに、オフライン QR-DQN と DQN のパフォーマンスのギャップは、オフラインデータを活用する能力にも違いがあることを示しています。

オフライン DQN の結果。

オフライン QR-DQN の結果。

2つの堅牢なオフラインRLエージェント

オンライン RL では、エージェントは高い報酬が得られると思われるアクションを選択し、修正フィードバックを受け取ります。さらに、オフライン RL では追加データを収集することはできないため、一般化機能について推論するには固定データセットを使用する必要があります。研究者らは、モデルアンサンブルを使用して一般化を改善する教師あり学習手法を使用して、次の 2 つの新しいオフライン RL エージェントを提案しています。

アンサンブル DQN は、複数の Q 値推定値をトレーニングし、評価のために平均を取る DQN の単純な拡張です。
Random Ensemble Mixture (REM) は、Dropout にヒントを得た、簡単に実装できる DQN の拡張機能です。 REM の中心的な考え方は、Q 値の推定値が複数ある場合、Q 値推定値の加重組み合わせも Q 値の推定値になるというものです。したがって、REM は各反復で複数の Q 値推定値をランダムに組み合わせ、このランダムな組み合わせを堅牢なトレーニングに使用します。

DQN、価値関数分布 QR-DQN、同じマルチヘッドメカニズムを備えた望ましい RL バリアント QR-DQN アーキテクチャ、DQN と REM を統合したニューラルネットワークアーキテクチャ。

DQN バックトラッキングデータセットをより効率的に活用するために、研究者はオフラインエージェントをトレーニングする際のトレーニング反復回数をオンライン DQN トレーニングの 5 倍に設定しました。パフォーマンスを下の図に示します。オフライン REM は、オフライン DQN およびオフライン QR-DQN よりも優れています。さらに、強力な価値関数分布エージェント、つまり完全にトレーニングされたオンライン C51 とのパフォーマンス比較では、オフライン REM から得られるゲインが C51 よりも高いことが示されています。

オフライン REM とベースラインメソッドのパフォーマンス比較。

Atari ゲームで標準的なトレーニングレジメンを使用する場合、オンライン REM は標準のオンライン RL 設定で QR-DQN と同等のパフォーマンスを実現します。これは、DQN バックトラッキングデータセットとオフライン RL 設定から得られた洞察を活用して、効果的なオンライン RL メソッドを構築できることを示唆しています。

オンライン REM とベースラインメソッドのパフォーマンス比較。

結果の比較: オフライン強化学習における重要な要素

これまでの標準的な強化学習エージェントがオフライン設定で繰り返し失敗するのはなぜでしょうか? Google の研究者は、自分たちの研究と過去の研究との重要な違いをいくつかまとめました。

オフラインデータセットのサイズ。 Google がオフライン QR-DQN と REM をトレーニングするために使用するデータセットは、同じデータ分布を維持しながら DQN バックトラッキングデータセット全体をランダムにダウンサンプリングすることによって取得された簡略化されたデータです。教師あり学習と同様に、データセットのサイズが大きくなるにつれてモデルのパフォーマンスが向上します。 REM と QR-DQN は、データセット全体の 10% のみを使用して、完全な DQN に近いパフォーマンスを実現します。
オフラインデータセットの構成。研究者らは、DQN バックトラッキングデータセット内の各ゲームの最初の 2,000 万フレームでオフライン強化学習エージェントをトレーニングしました。オフライン REM と QR-DQN は、この低品質のデータセットで最善のポリシーよりも優れたパフォーマンスを発揮します。これは、データセットが十分に多様であれば、標準的な強化学習エージェントがオフライン設定で優れたパフォーマンスを発揮できることを示唆しています。
オフラインアルゴリズムの選択。標準的なオフポリシーエージェントは、オフラインでトレーニングされた場合、継続的な制御タスクのパフォーマンスが低下すると主張されています。しかし、Google の研究者は、最近の継続的な制御エージェント (TD3 など) は、大規模で多様なオフラインデータセットでトレーニングした場合、複雑なオフラインエージェントと同等のパフォーマンスを発揮することを発見しました。

低品質のデータセットを使用して、オフライン設定で強化学習エージェントをトレーニングします。

見通し

この Google の研究は、さまざまなポリシーを持つ大量のオフラインデータから学習する場合、ニューラルネットワークにおける一般化の役割を厳密に特徴付ける必要があることを示しています。もう 1 つの重要な方向性は、DQN バックトラッキングデータセットをダウンサンプリングして、さまざまなデータ収集戦略を使用してオフライン RL をベンチマークすることです。

Google の研究者は現在オンラインポリシー評価を使用していますが、「実際の」オフライン RL ではハイパーパラメータの調整と早期停止のためにオフラインポリシー評価が必要です。最後に、モデルベースの RL と自己教師あり学習法もオフライン RL に期待が持てます。

<<: 三方からのアプローチ！ AIがサイバーセキュリティを強化

>>: ブラックボックスの一角を明らかにしよう！ OpenAI、ニューラルネットワークの内部構造を視覚化する「顕微鏡」をリリース