RL エージェントはオンラインでしかトレーニングできないと誰が言ったのでしょうか? Google がオフライン強化学習の新しいパラダイムを発表

RL エージェントはオンラインでしかトレーニングできないと誰が言ったのでしょうか? Google がオフライン強化学習の新しいパラダイムを発表

分布の不一致を避けるために、強化学習のトレーニングはオンラインで環境と対話する必要がありますか? Google のこの最新の研究は、最適化の観点からオフライン強化学習研究に新たなアイデアを提供します。つまり、十分に大きく多様なオフライン データセットでトレーニングされた堅牢な RL アルゴリズムは、高品質の動作を生み出すことができます。この論文のトレーニング データセットとコードはオープンソース化されています。 Synced は、トレーニング データセットに 60 個の Atari ゲーム環境が含まれていることを思い出させます。Google は、そのサイズが ImageNet の約 60 x 3.5 倍であると主張しています。

[[322327]]

「オフポリシー学習の可能性は魅力的ですが、それを実装する最良の方法は謎のままです。」—サットン&バルト(強化学習入門の著者)

ほとんどの強化学習アルゴリズムは、エージェントがオンライン環境と積極的に対話し、収集した独自の経験から学習することを前提としています。これらのアルゴリズムを現実世界の問題に適用するのは困難です。現実世界からさらに収集されたデータはサンプル効率が非常に悪く、予期しない動作が発生する可能性があるためです。シミュレーション環境で実行されるアルゴリズムには、構築が困難な高忠実度のシミュレータが必要です。しかし、多くの現実世界の強化学習アプリケーションでは、これまでに大量のインタラクション データが収集されており、それを使用して、これまでの豊富な経験を組み合わせることで一般化パフォーマンスを向上させながら、上記の現実世界の問題で実行可能な強化学習エージェントをトレーニングすることができます。

既存のインタラクション データにより、エージェントが固定データセットから学習し、環境とインタラクトしない完全にオフポリシーの強化学習設定であるオフライン強化学習の効率的なトレーニングが可能になります。

オフライン強化学習は次のような場合に役立ちます。

1) 既存のデータを使用して強化学習エージェントを事前トレーニングする。

2) 固定されたインタラクションデータセットを活用する能力に基づいて強化学習アルゴリズムを実験的に評価する。

3) 現実世界の問題に影響を与える。しかし、オフライン強化学習は、オンラインインタラクションの分布と固定データセット内のインタラクションデータとの不一致により、大きな課題に直面しています。つまり、訓練されたエージェントがデータ収集エージェントとは異なるアクションを実行した場合に、どのような報酬を提供すればよいかがわかりません。

オンラインインタラクションとオフライン RL のフローチャート比較。

「オフライン強化学習に関する楽観的な視点」と題されたこの論文では、Google Brain チームの研究者が、DQN エージェントによって記録された経験に基づいて、Atari 2600 ゲームでのオフライン強化学習のための簡単な実験セットアップを提案しました。彼らは、不一致な分布を明示的に修正しなくても、標準のオフポリシー RL アルゴリズムを使用して収集されたエージェントよりも優れたパフォーマンスを発揮するエージェントをトレーニングできることを示しています。同時に、研究者らは、ランダム アンサンブル混合 (REM) と呼ばれる、オフライン RL で有望な結果を示した堅牢な RL アルゴリズムも提案しました。

要約すると、研究者らは、十分に大きく多様なオフライン データセットでトレーニングされた堅牢な RL アルゴリズムが高品質の動作を生み出し、新たなデータ駆動型 RL パラダイムを統合できるという、新たな最適化の観点を提案しています。オフライン RL 手法の開発と評価を容易にするために、研究者らは DQN バックトラッキング データセットを公開し、論文のコードをオープンソース化しました。

  • 論文リンク: https://arxiv.org/pdf/1907.04543.pdf
  • プロジェクトアドレス: https://github.com/google-research/batch_rl

さまざまな戦略とオフライン強化学習の基礎

さまざまな RL アルゴリズムをまとめると次のようになります。

DQN などのオンラインオフポリシー RL エージェントは、ゲーム画面からの画像のみを受信し、ゲームに関するその他の知識を一切持たずに、Atari 2600 ゲームで人間レベルのパフォーマンスを達成しました。環境状態が与えられると、DQN は将来の報酬 (Q 値など) を最大化する方法に基づいてアクションの有効性を推定します。

さらに、価値関数分布 (QR-DQN など) を使用する現在の RL アルゴリズムは、各状態とアクションのペアに対して単一の期待値を推定するのではなく、すべての可能性のある将来の報酬にわたる分布を推定します。 DQN や QR-DQN などのエージェントは、ポリシーの最適化と、その最適化されたポリシーを使用してより多くのデータを収集することの間で継続的に反復するため、「オンライン」アルゴリズムと見なされます。

理論的には、オフポリシー RL エージェントは、最適化されているポリシーだけでなく、任意のポリシーによって収集されたデータから学習できます。しかし、最近の研究では、標準的なオフポリシーエージェントはオフライン RL 設定では発散したりパフォーマンスが低下したりする可能性があることが示されています。上記の問題を解決するために、これまでの研究では、学習した戦略を正規化して、その戦略更新をオフラインインタラクションデータセットに近づける方法が提案されています。

オフライン RL 用に設計された DQN バックトラッキング データセット

研究者らはまず、オフライン RL を再検討するために DQN バックトラッキング データセットを確立しました。このデータセットでは、60 種類の Atari 2600 ゲームそれぞれで 2 億ステップトレーニングされた DQN エージェントを使用し、スティッキー アクションを使用して問題をより困難にします。つまり、エージェントの現在のアクションではなく、前のアクションを実行する確率が 25% になります。

研究者らは、これら 60 のゲームそれぞれについて、異なる初期化パラメータを持つ 5 つの DQN エージェントをトレーニングし、トレーニング中に生成されたすべてのタプル (状態、アクション、報酬、次の状態) を 5 つのバックトラッキング データセットに保存し、合計 300 のデータセットを生成しました。

この DQN バックトラッキング データセットは、環境とのやり取りなしでオフライン RL エージェントをトレーニングするために使用されました。各ゲーム バックトラッキング データセットは ImageNet の約 3.5 倍の大きさで、オンライン DQN を最適化するときに中間ポリシーによって生成されたすべてのサンプルが含まれています。

DQN バックトラッキング データセットを使用した Atari ゲームのオフライン RL。

DQN バックトラッキング データセットでオフライン エージェントをトレーニングする

研究者らは、DQN バックトラッキング データセットで DQN のバリエーションと価値関数分布 QR-DQN をトレーニングしました。オフライン データセットには DQN エージェントが経験したデータが含まれており、このデータはトレーニングが進むにつれてそれに応じて改善されますが、研究者はオフライン エージェントのパフォーマンスを、トレーニング後に得られた最高のパフォーマンスを発揮したオンライン DQN エージェント (つまり、完全にトレーニングされた DQN) と比較しました。各ゲームについて、オンライン リターンを使用してトレーニングされた 5 つのオフライン エージェントを評価し、最高の平均パフォーマンスを見つけました。

オフライン DQN が同じ量のデータで完全にトレーニングされたオンライン DQN よりも高いスコアを獲得したいくつかのゲームを除き、オフライン DQN のパフォーマンスは後者よりも低くなります。一方、オフライン QR-DQN は、ほとんどのゲームでオフライン DQN や完全にトレーニングされた DQN よりも優れたパフォーマンスを発揮します。これらの結果は、標準的な深層 RL アルゴリズムを使用して強力なオフライン エージェントを最適化できることを示しています。さらに、オフライン QR-DQN と DQN のパフォーマンスのギャップは、オフライン データを活用する能力にも違いがあることを示しています。

オフライン DQN の結果。

オフライン QR-DQN の結果。

2つの堅牢なオフラインRLエージェント

オンライン RL では、エージェントは高い報酬が得られると思われるアクションを選択し、修正フィードバックを受け取ります。さらに、オフライン RL では追加データを収集することはできないため、一般化機能について推論するには固定データセットを使用する必要があります。研究者らは、モデル アンサンブルを使用して一般化を改善する教師あり学習手法を使用して、次の 2 つの新しいオフライン RL エージェントを提案しています。

  • アンサンブル DQN は、複数の Q 値推定値をトレーニングし、評価のために平均を取る DQN の単純な拡張です。
  • Random Ensemble Mixture (REM) は、Dropout にヒントを得た、簡単に実装できる DQN の拡張機能です。 REM の中心的な考え方は、Q 値の推定値が複数ある場合、Q 値推定値の加重組み合わせも Q 値の推定値になるというものです。したがって、REM は各反復で複数の Q 値推定値をランダムに組み合わせ、このランダムな組み合わせを堅牢なトレーニングに使用します。

DQN、価値関数分布 QR-DQN、同じマルチヘッド メカニズムを備えた望ましい RL バリアント QR-DQN アーキテクチャ、DQN と REM を統合したニューラル ネットワーク アーキテクチャ。

DQN バックトラッキング データセットをより効率的に活用するために、研究者はオフライン エージェントをトレーニングする際のトレーニング反復回数をオンライン DQN トレーニングの 5 倍に設定しました。パフォーマンスを下の図に示します。オフライン REM は、オフライン DQN およびオフライン QR-DQN よりも優れています。さらに、強力な価値関数分布エージェント、つまり完全にトレーニングされたオンライン C51 とのパフォーマンス比較では、オフライン REM から得られるゲインが C51 よりも高いことが示されています。

オフライン REM とベースライン メソッドのパフォーマンス比較。

Atari ゲームで標準的なトレーニング レジメンを使用する場合、オンライン REM は標準のオンライン RL 設定で QR-DQN と同等のパフォーマンスを実現します。これは、DQN バックトラッキング データセットとオフライン RL 設定から得られた洞察を活用して、効果的なオンライン RL メソッドを構築できることを示唆しています。

オンライン REM とベースライン メソッドのパフォーマンス比較。

結果の比較: オフライン強化学習における重要な要素

これまでの標準的な強化学習エージェントがオフライン設定で繰り返し失敗するのはなぜでしょうか? Google の研究者は、自分たちの研究と過去の研究との重要な違いをいくつかまとめました。

  • オフライン データセットのサイズ。 Google がオフライン QR-DQN と REM をトレーニングするために使用するデータセットは、同じデータ分布を維持しながら DQN バックトラッキング データセット全体をランダムにダウンサンプリングすることによって取得された簡略化されたデータです。教師あり学習と同様に、データセットのサイズが大きくなるにつれてモデルのパフォーマンスが向上します。 REM と QR-DQN は、データセット全体の 10% のみを使用して、完全な DQN に近いパフォーマンスを実現します。
  • オフライン データセットの構成。研究者らは、DQN バックトラッキング データセット内の各ゲームの最初の 2,000 万フレームでオフライン強化学習エージェントをトレーニングしました。オフライン REM と QR-DQN は、この低品質のデータセットで最善のポリシーよりも優れたパフォーマンスを発揮します。これは、データセットが十分に多様であれば、標準的な強化学習エージェントがオフライン設定で優れたパフォーマンスを発揮できることを示唆しています。
  • オフライン アルゴリズムの選択。標準的なオフポリシーエージェントは、オフラインでトレーニングされた場合、継続的な制御タスクのパフォーマンスが低下すると主張されています。しかし、Google の研究者は、最近の継続的な制御エージェント (TD3 など) は、大規模で多様なオフライン データセットでトレーニングした場合、複雑なオフライン エージェントと同等のパフォーマンスを発揮することを発見しました。

低品質のデータセットを使用して、オフライン設定で強化学習エージェントをトレーニングします。

見通し

この Google の研究は、さまざまなポリシーを持つ大量のオフライン データから学習する場合、ニューラル ネットワークにおける一般化の役割を厳密に特徴付ける必要があることを示しています。もう 1 つの重要な方向性は、DQN バックトラッキング データセットをダウンサンプリングして、さまざまなデータ収集戦略を使用してオフライン RL をベンチマークすることです。

Google の研究者は現在オンライン ポリシー評価を使用していますが、「実際の」オフライン RL ではハイパーパラメータの調整と早期停止のためにオフライン ポリシー評価が必要です。最後に、モデルベースの RL と自己教師あり学習法もオフライン RL に期待が持てます。

<<:  三方からのアプローチ! AIがサイバーセキュリティを強化

>>:  ブラックボックスの一角を明らかにしよう! OpenAI、ニューラルネットワークの内部構造を視覚化する「顕微鏡」をリリース

ブログ    
ブログ    

推薦する

企業や不動産管理会社が課す顔認識要件をどのように規制するか?あなたの権利を守るには?

[[429833]]ショッピングモールは顔認識カメラをオンにし、情報は「気付かれずに」収集されます...

最新レポート: 従業員の 25% が ChatGPT などの AI ツールに機密データをアップロードしている

新たな調査によると、従業員の15%がChatGPTに会社のデータを頻繁にアップロードしており、そのデ...

メタ、マイクロソフトなどの大手企業は、AIモデルの訓練に海賊版書籍を使用したとして、数人のアメリカ人作家から訴えられた。

現地時間水曜日のブルームバーグの報道によると、数人のアメリカ人作家が最近ニューヨーク連邦裁判所に訴訟...

企業がAIをビジネスに統合する際の課題を克服する方法

調査データによると、AI 対応テクノロジーを導入して活用する準備が完全に整っている企業は世界中でわず...

...

人工知能を使ったチャットボットの構築方法

今日、世界は、パーソナライズされたエクスペリエンスを提供しながら、人間が重要な決定を下したり、重要な...

ディープラーニングモデルを使用して Java でテキスト感情分析を実行する

肯定的ですか? 否定的ですか? 中立的ですか? Stanford CoreNLP コンポーネントと数...

エントロピーを理解する: 機械学習のゴールドスタンダード

[[335033]]決定木からニューラルネットワークへTL;DR: エントロピーはシステム内の混沌の...

...

シンガポールは路上での悪質な行為を検知するためにロボットを使っている

シンガポールは、都市国家内での違法行為を阻止するためにロボットを活用している。しかし、ロボット警官が...

...

...

再帰アルゴリズムの深い理解、誤解された再帰

[[333118]]再帰は、プログラミングの本で説明するのが最も難しい部分である魔法のアルゴリズムで...

...