Rainbow のトレーニングには 1425 GPU 日が必要ですか? Googleは強化学習がコンピューティングコストを削減できると述べている

[[411439]]

DeepMind が提案した Rainbow アルゴリズムは、Atari ゲームをプレイする際の AI のレベルを大幅に向上させることができますが、このアルゴリズムの計算コストは非常に高くなります。主な理由の 1 つは、学術研究の公開基準では通常、新しいアルゴリズムを大規模なベンチマークテストで評価する必要があることです。 Google の研究者は、コンピューティング予算が限られ、小規模から中規模の環境での小規模な実験で、さまざまなコンポーネントを追加および削除し、Rainbow アルゴリズムと一致する結果を得ました。

従来の強化学習とディープニューラルネットワークを組み合わせた深層強化学習は、DQN アルゴリズムの画期的な発表から始まったと一般に考えられています。 DQN の論文では、この組み合わせの大きな可能性が実証され、Atari 2600 ゲームをプレイできる効果的なエージェントを生成できることが示されました。それ以来、多くの方法によって元の DQN が改良され、Rainbow アルゴリズムは多くの最近の進歩を組み合わせて、ALE ベンチマークで SOTA パフォーマンスを実現しました。しかし、この進歩には非常に高い計算コストが伴い、十分な計算リソースを持つ人と持たない人の間の格差はさらに広がります。

ICML 2021の論文「Rainbowの再考：より洞察に富み包括的な深層強化学習研究の推進」で、研究者らは初めてRainbowアルゴリズムに関連する計算コストについて議論した。研究者らは、小規模な実験でレインボーアルゴリズムと一致する結果を得るために複数のアルゴリズムコンポーネントを組み合わせる方法、さらにこのアイデアをより小規模なコンピューティング予算で実施される研究に一般化することで、貴重な科学的洞察が得られる可能性を探りました。

論文アドレス: https://arxiv.org/abs/2011.14826

Rainbow の計算コストが高い主な理由の 1 つは、学術研究の公開基準として、新しいアルゴリズムを大規模なベンチマーク (Atari 2600 ゲームのプレイ方法を学習できる 57 個の強化学習エージェントを含む ALE など) で評価することが求められることが多いためです。 Tesla P100 GPU を使用してゲームをプレイするためのモデルをトレーニングするには、通常約 5 日かかります。さらに、意味のある信頼限界を確立したい場合は、通常、少なくとも 5 回の実行を実行する必要があります。

したがって、57 のゲームすべてで Rainbow をトレーニングして納得のいくパフォーマンス実験データを得るには、約 34,200 GPU 時間 (約 1,425 日) が必要です。このような実験は、トレーニングを複数の GPU で並行して実行できる場合にのみ実行可能であり、小規模な研究グループにとっては実行が困難です。

レインボーアルゴリズム

オリジナルの Rainbow アルゴリズム論文と同様に、この ICML 2021 論文では、研究者らはオリジナルの DQN アルゴリズムに、ダブル Q 学習、優先順位付けされた経験再生 (PER)、競合ネットワーク、マルチステップ学習、分散強化学習、ノイズの多いネットワークなどのコンポーネントを追加した場合の効果を評価しました。

この研究は、4 つの古典的な管理設定で評価されました。これらの環境は、ALE ゲームの場合は 5 日間かかるのに対し、10 ～ 20 分で完全にトレーニングできることに注意してください。

左上: CartPole では、エージェントがカート上のポールを左右に動かしてバランスをとることがゲームタスクです。右上: Acrobot には 2 つのレバーと 2 つの接続ポイントがあり、エージェントは 2 つのレバー間の接続ポイントに力を加えて、下のレバーを特定の高さ以上に持ち上げる必要があります。左下: LunarLander では、エージェントのタスクは 2 つの旗の間に宇宙船を着陸させることです。右下: MountainCar では、エージェントは一定の運動量を使用して、2 つの丘の間を車で走り、右側の丘の頂上に到達する必要があります。

研究者らは、各コンポーネントを DQN に個別に追加した場合と、完全な Rainbow アルゴリズムから各コンポーネントを削除した場合の効果を調査し、全体として各アルゴリズムコンポーネントの追加によってベース DQN の学習パフォーマンスが向上することを発見しました。しかし、この研究では、改善につながるとよく考えられている分散強化学習が、必ずしもそれ自体で改善を生み出すわけではないなど、いくつかの重要な矛盾も発見されました。実際、Rainbow 論文の ALE 結果とは対照的に、従来の制御設定では、分散 RL は他のコンポーネントと組み合わせた場合にのみ改善をもたらします。

上の図は、4 つの従来の制御環境で DQN にさまざまなコンポーネントを追加したときのトレーニングの進行状況を示しています。 x 軸はトレーニングステップ、y 軸はパフォーマンス (高いほど良い) です。

上の図は、4 つの従来のコントロール環境で Rainbow からさまざまなコンポーネントを削除したときのトレーニングの進行状況を示しています。 x 軸はトレーニングステップ、y 軸はパフォーマンス (高いほど良い) です。

研究者らはまた、5 つの小型化された Atari ゲームのセットで構成される MinAtar 環境で Rainbow 実験を再実行し、元の Rainbow 論文と同様の結果を達成しました。 MinAtar ゲームは、オリジナルの Rainbow アルゴリズムで評価された通常の Atari 2600 ゲームよりも約 10 倍速くトレーニングされます。さらに、この研究の実験結果には、ゲームのダイナミクスやエージェントへのピクセルベースの入力の追加など、いくつか興味深い側面があります。したがって、この研究では、古典的なコントロールと完全な Atari 2600 ゲームの中間に位置する、挑戦的な中レベルの環境を提供します。

総合すると、研究者らは、現在の結果が元の Rainbow 論文の結果と一致していること、つまり各アルゴリズムコンポーネントの影響は環境によって異なる可能性があることを発見しました。研究者らは、異なるアルゴリズムコンポーネント間のトレードオフのバランスをとるために単一のエージェントを使用することを提案しており、この研究のレインボーバージョンは、すべてのコンポーネントを組み合わせることで全体的なパフォーマンスが向上したエージェントが生成されるため、元のバージョンと非常に一貫性があると考えられます。ただし、さまざまなアルゴリズムコンポーネント間には細部において重要な違いがいくつかあり、より徹底した調査を行う価値があります。

最適化と損失関数のさまざまな組み合わせに関する実験

DQN が提案されたとき、Huber 損失と RMSProp オプティマイザーの両方が使用されました。研究者はほとんどの時間を他のアルゴリズム設計に費やしているため、DQN を構築するときに同じ選択を使用するのは研究者にとって一般的な方法です。

この研究では、低コストで小規模な古典的制御と MinAtar のコンテキストで DQN で使用される損失関数と最適化装置を再検討します。研究者らは、現在最も人気のあるオプティマイザーである Adam オプティマイザーを使用していくつかの初期実験を実施し、それをより単純な損失関数である平均二乗誤差損失 (MSE) と組み合わせました。新しいアルゴリズムを開発する際には、オプティマイザーと損失関数の選択が見落とされることが多いため、この研究では、これら 2 つを変更すると、すべての古典的制御環境と MinAtar 環境で実験結果が大幅に改善される可能性があることがわかりました。

そこで研究者らは、2 つのオプティマイザー (RMSProp、Adam オプティマイザー) と 2 つの損失関数 (Huber、MSE 損失) のさまざまな組み合わせを作成し、ALE プラットフォーム全体 (60 個の Atari 2600 ゲームを含む) で評価しました。結果は、Adam + MSE の組み合わせが RMSProp + Huber の組み合わせよりも優れていることを示しています。

デフォルトの DQN 設定 (RMSProp + Huber) で、Adam + MSE の組み合わせによってもたらされる改善を評価します (値が高いほど優れています)。

さらに、さまざまなオプティマイザーと損失関数の組み合わせを比較したところ、RMSProp を使用する場合、Huber 損失は MSE よりもパフォーマンスが優れている傾向があることが研究者によって発見されました (これは実線とオレンジ色の破線の間のギャップで示されています)。

さまざまなオプティマイザーと損失関数の組み合わせを比較した、60 個の Atari 2600 ゲームの正規化されたスコアの集計。

研究者たちは、限られた計算予算で、論文「Rainbow: 深層強化学習における改善の組み合わせ」の研究を高いレベルで再現し、新しい興味深い現象を発見することができました。どうやら、何かを初めて発見するよりも、再び訪れる方が簡単なようです。しかし、研究者らは、小規模および中規模の環境実証研究の関連性と重要性を実証するためにこの研究を実施しました。研究者たちは、こうした計算負荷の少ない環境は、新しいアルゴリズムのパフォーマンス、動作、複雑さをより批判的に徹底的に分析するのに適していると考えています。この研究では、AI研究者が小規模環境を貴重なツールとして考慮し、審査員が小規模環境に焦点を当てた実験作業を見逃さないようにすることを期待しています。

<<: 99行のコードでアナと雪の女王の特殊効果の太極拳の進化を実現

>>: コンピュータビジョンプロジェクトのためのオブジェクト検出の初心者向けガイド