RL エージェントはオンラインでしかトレーニングできないと誰が言ったのでしょうか? Google がオフライン強化学習の新しいパラダイムを発表

RL エージェントはオンラインでしかトレーニングできないと誰が言ったのでしょうか? Google がオフライン強化学習の新しいパラダイムを発表

分布の不一致を避けるために、強化学習のトレーニングはオンラインで環境と対話する必要がありますか? Google のこの最新の研究は、最適化の観点からオフライン強化学習研究に新たなアイデアを提供します。つまり、十分に大きく多様なオフライン データセットでトレーニングされた堅牢な RL アルゴリズムは、高品質の動作を生み出すことができます。この論文のトレーニング データセットとコードはオープンソース化されています。 Synced は、トレーニング データセットに 60 個の Atari ゲーム環境が含まれていることを思い出させます。Google は、そのサイズが ImageNet の約 60 x 3.5 倍であると主張しています。

[[322327]]

「オフポリシー学習の可能性は魅力的ですが、それを実装する最良の方法は謎のままです。」—サットン&バルト(強化学習入門の著者)

ほとんどの強化学習アルゴリズムは、エージェントがオンライン環境と積極的に対話し、収集した独自の経験から学習することを前提としています。これらのアルゴリズムを現実世界の問題に適用するのは困難です。現実世界からさらに収集されたデータはサンプル効率が非常に悪く、予期しない動作が発生する可能性があるためです。シミュレーション環境で実行されるアルゴリズムには、構築が困難な高忠実度のシミュレータが必要です。しかし、多くの現実世界の強化学習アプリケーションでは、これまでに大量のインタラクション データが収集されており、それを使用して、これまでの豊富な経験を組み合わせることで一般化パフォーマンスを向上させながら、上記の現実世界の問題で実行可能な強化学習エージェントをトレーニングすることができます。

既存のインタラクション データにより、エージェントが固定データセットから学習し、環境とインタラクトしない完全にオフポリシーの強化学習設定であるオフライン強化学習の効率的なトレーニングが可能になります。

オフライン強化学習は次のような場合に役立ちます。

1) 既存のデータを使用して強化学習エージェントを事前トレーニングする。

2) 固定されたインタラクションデータセットを活用する能力に基づいて強化学習アルゴリズムを実験的に評価する。

3) 現実世界の問題に影響を与える。しかし、オフライン強化学習は、オンラインインタラクションの分布と固定データセット内のインタラクションデータとの不一致により、大きな課題に直面しています。つまり、訓練されたエージェントがデータ収集エージェントとは異なるアクションを実行した場合に、どのような報酬を提供すればよいかがわかりません。

オンラインインタラクションとオフライン RL のフローチャート比較。

「オフライン強化学習に関する楽観的な視点」と題されたこの論文では、Google Brain チームの研究者が、DQN エージェントによって記録された経験に基づいて、Atari 2600 ゲームでのオフライン強化学習のための簡単な実験セットアップを提案しました。彼らは、不一致な分布を明示的に修正しなくても、標準のオフポリシー RL アルゴリズムを使用して収集されたエージェントよりも優れたパフォーマンスを発揮するエージェントをトレーニングできることを示しています。同時に、研究者らは、ランダム アンサンブル混合 (REM) と呼ばれる、オフライン RL で有望な結果を示した堅牢な RL アルゴリズムも提案しました。

要約すると、研究者らは、十分に大きく多様なオフライン データセットでトレーニングされた堅牢な RL アルゴリズムが高品質の動作を生み出し、新たなデータ駆動型 RL パラダイムを統合できるという、新たな最適化の観点を提案しています。オフライン RL 手法の開発と評価を容易にするために、研究者らは DQN バックトラッキング データセットを公開し、論文のコードをオープンソース化しました。

  • 論文リンク: https://arxiv.org/pdf/1907.04543.pdf
  • プロジェクトアドレス: https://github.com/google-research/batch_rl

さまざまな戦略とオフライン強化学習の基礎

さまざまな RL アルゴリズムをまとめると次のようになります。

DQN などのオンラインオフポリシー RL エージェントは、ゲーム画面からの画像のみを受信し、ゲームに関するその他の知識を一切持たずに、Atari 2600 ゲームで人間レベルのパフォーマンスを達成しました。環境状態が与えられると、DQN は将来の報酬 (Q 値など) を最大化する方法に基づいてアクションの有効性を推定します。

さらに、価値関数分布 (QR-DQN など) を使用する現在の RL アルゴリズムは、各状態とアクションのペアに対して単一の期待値を推定するのではなく、すべての可能性のある将来の報酬にわたる分布を推定します。 DQN や QR-DQN などのエージェントは、ポリシーの最適化と、その最適化されたポリシーを使用してより多くのデータを収集することの間で継続的に反復するため、「オンライン」アルゴリズムと見なされます。

理論的には、オフポリシー RL エージェントは、最適化されているポリシーだけでなく、任意のポリシーによって収集されたデータから学習できます。しかし、最近の研究では、標準的なオフポリシーエージェントはオフライン RL 設定では発散したりパフォーマンスが低下したりする可能性があることが示されています。上記の問題を解決するために、これまでの研究では、学習した戦略を正規化して、その戦略更新をオフラインインタラクションデータセットに近づける方法が提案されています。

オフライン RL 用に設計された DQN バックトラッキング データセット

研究者らはまず、オフライン RL を再検討するために DQN バックトラッキング データセットを確立しました。このデータセットでは、60 種類の Atari 2600 ゲームそれぞれで 2 億ステップトレーニングされた DQN エージェントを使用し、スティッキー アクションを使用して問題をより困難にします。つまり、エージェントの現在のアクションではなく、前のアクションを実行する確率が 25% になります。

研究者らは、これら 60 のゲームそれぞれについて、異なる初期化パラメータを持つ 5 つの DQN エージェントをトレーニングし、トレーニング中に生成されたすべてのタプル (状態、アクション、報酬、次の状態) を 5 つのバックトラッキング データセットに保存し、合計 300 のデータセットを生成しました。

この DQN バックトラッキング データセットは、環境とのやり取りなしでオフライン RL エージェントをトレーニングするために使用されました。各ゲーム バックトラッキング データセットは ImageNet の約 3.5 倍の大きさで、オンライン DQN を最適化するときに中間ポリシーによって生成されたすべてのサンプルが含まれています。

DQN バックトラッキング データセットを使用した Atari ゲームのオフライン RL。

DQN バックトラッキング データセットでオフライン エージェントをトレーニングする

研究者らは、DQN バックトラッキング データセットで DQN のバリエーションと価値関数分布 QR-DQN をトレーニングしました。オフライン データセットには DQN エージェントが経験したデータが含まれており、このデータはトレーニングが進むにつれてそれに応じて改善されますが、研究者はオフライン エージェントのパフォーマンスを、トレーニング後に得られた最高のパフォーマンスを発揮したオンライン DQN エージェント (つまり、完全にトレーニングされた DQN) と比較しました。各ゲームについて、オンライン リターンを使用してトレーニングされた 5 つのオフライン エージェントを評価し、最高の平均パフォーマンスを見つけました。

オフライン DQN が同じ量のデータで完全にトレーニングされたオンライン DQN よりも高いスコアを獲得したいくつかのゲームを除き、オフライン DQN のパフォーマンスは後者よりも低くなります。一方、オフライン QR-DQN は、ほとんどのゲームでオフライン DQN や完全にトレーニングされた DQN よりも優れたパフォーマンスを発揮します。これらの結果は、標準的な深層 RL アルゴリズムを使用して強力なオフライン エージェントを最適化できることを示しています。さらに、オフライン QR-DQN と DQN のパフォーマンスのギャップは、オフライン データを活用する能力にも違いがあることを示しています。

オフライン DQN の結果。

オフライン QR-DQN の結果。

2つの堅牢なオフラインRLエージェント

オンライン RL では、エージェントは高い報酬が得られると思われるアクションを選択し、修正フィードバックを受け取ります。さらに、オフライン RL では追加データを収集することはできないため、一般化機能について推論するには固定データセットを使用する必要があります。研究者らは、モデル アンサンブルを使用して一般化を改善する教師あり学習手法を使用して、次の 2 つの新しいオフライン RL エージェントを提案しています。

  • アンサンブル DQN は、複数の Q 値推定値をトレーニングし、評価のために平均を取る DQN の単純な拡張です。
  • Random Ensemble Mixture (REM) は、Dropout にヒントを得た、簡単に実装できる DQN の拡張機能です。 REM の中心的な考え方は、Q 値の推定値が複数ある場合、Q 値推定値の加重組み合わせも Q 値の推定値になるというものです。したがって、REM は各反復で複数の Q 値推定値をランダムに組み合わせ、このランダムな組み合わせを堅牢なトレーニングに使用します。

DQN、価値関数分布 QR-DQN、同じマルチヘッド メカニズムを備えた望ましい RL バリアント QR-DQN アーキテクチャ、DQN と REM を統合したニューラル ネットワーク アーキテクチャ。

DQN バックトラッキング データセットをより効率的に活用するために、研究者はオフライン エージェントをトレーニングする際のトレーニング反復回数をオンライン DQN トレーニングの 5 倍に設定しました。パフォーマンスを下の図に示します。オフライン REM は、オフライン DQN およびオフライン QR-DQN よりも優れています。さらに、強力な価値関数分布エージェント、つまり完全にトレーニングされたオンライン C51 とのパフォーマンス比較では、オフライン REM から得られるゲインが C51 よりも高いことが示されています。

オフライン REM とベースライン メソッドのパフォーマンス比較。

Atari ゲームで標準的なトレーニング レジメンを使用する場合、オンライン REM は標準のオンライン RL 設定で QR-DQN と同等のパフォーマンスを実現します。これは、DQN バックトラッキング データセットとオフライン RL 設定から得られた洞察を活用して、効果的なオンライン RL メソッドを構築できることを示唆しています。

オンライン REM とベースライン メソッドのパフォーマンス比較。

結果の比較: オフライン強化学習における重要な要素

これまでの標準的な強化学習エージェントがオフライン設定で繰り返し失敗するのはなぜでしょうか? Google の研究者は、自分たちの研究と過去の研究との重要な違いをいくつかまとめました。

  • オフライン データセットのサイズ。 Google がオフライン QR-DQN と REM をトレーニングするために使用するデータセットは、同じデータ分布を維持しながら DQN バックトラッキング データセット全体をランダムにダウンサンプリングすることによって取得された簡略化されたデータです。教師あり学習と同様に、データセットのサイズが大きくなるにつれてモデルのパフォーマンスが向上します。 REM と QR-DQN は、データセット全体の 10% のみを使用して、完全な DQN に近いパフォーマンスを実現します。
  • オフライン データセットの構成。研究者らは、DQN バックトラッキング データセット内の各ゲームの最初の 2,000 万フレームでオフライン強化学習エージェントをトレーニングしました。オフライン REM と QR-DQN は、この低品質のデータセットで最善のポリシーよりも優れたパフォーマンスを発揮します。これは、データセットが十分に多様であれば、標準的な強化学習エージェントがオフライン設定で優れたパフォーマンスを発揮できることを示唆しています。
  • オフライン アルゴリズムの選択。標準的なオフポリシーエージェントは、オフラインでトレーニングされた場合、継続的な制御タスクのパフォーマンスが低下すると主張されています。しかし、Google の研究者は、最近の継続的な制御エージェント (TD3 など) は、大規模で多様なオフライン データセットでトレーニングした場合、複雑なオフライン エージェントと同等のパフォーマンスを発揮することを発見しました。

低品質のデータセットを使用して、オフライン設定で強化学習エージェントをトレーニングします。

見通し

この Google の研究は、さまざまなポリシーを持つ大量のオフライン データから学習する場合、ニューラル ネットワークにおける一般化の役割を厳密に特徴付ける必要があることを示しています。もう 1 つの重要な方向性は、DQN バックトラッキング データセットをダウンサンプリングして、さまざまなデータ収集戦略を使用してオフライン RL をベンチマークすることです。

Google の研究者は現在オンライン ポリシー評価を使用していますが、「実際の」オフライン RL ではハイパーパラメータの調整と早期停止のためにオフライン ポリシー評価が必要です。最後に、モデルベースの RL と自己教師あり学習法もオフライン RL に期待が持てます。

<<:  三方からのアプローチ! AIがサイバーセキュリティを強化

>>:  ブラックボックスの一角を明らかにしよう! OpenAI、ニューラルネットワークの内部構造を視覚化する「顕微鏡」をリリース

ブログ    
ブログ    
ブログ    

推薦する

なぜマスク氏の新しい「脳コンピューターインターフェース」は大きな進歩なのでしょうか?

昨日のマスク氏の発表を見た後、サイバーパンク映画をたくさん思い出し、一晩中夢を見ました。北京時間の昨...

...

...

現在人工知能が適している5つの分野

調査会社IDCが最近発表した「世界の人工知能支出ガイド」によると、世界の人工知能予算は今後4年間で倍...

CLIPのフォーカスエリアを自由に指定!上海交通大学、復旦大学などがAlpha-CLIPをリリース:フルイメージ+ローカル検出機能を同時に維持

CLIP は最も人気のあるビジュアル ベース モデルであり、その適用シナリオには以下が含まれますが、...

NLP事前トレーニングパラダイムが統合され、下流のタスクタイプに絡まらなくなり、Googleの新しいフレームワークは50のSOTAを更新します

この論文では、Google の研究者がさまざまな事前トレーニング パラダイムを統合する事前トレーニン...

Java プログラミング スキル - データ構造とアルゴリズム「単方向リンク リスト」

[[386512]]基本的な紹介リンクリストは順序付きリストですが、メモリ内に次のように保存されま...

人工知能について知っておくべきことすべて

人工知能とは何でしょうか? この質問に対する答えは、誰に尋ねるかによって異なります。 1950 年代...

...

教育割引 Github AI インテリジェントコーディングアシスタント Copilot は、コードに不慣れな場合の悩みを解決します

教育機関向けオファー Github AI スマートコーディングアシスタント コパイロットAIプログラ...

...

...

...