Rainbow のトレーニングには 1425 GPU 日が必要ですか? Googleは強化学習がコンピューティングコストを削減できると述べている

Rainbow のトレーニングには 1425 GPU 日が必要ですか? Googleは強化学習がコンピューティングコストを削減できると述べている

[[411439]]

DeepMind が提案した Rainbow アルゴリズムは、Atari ゲームをプレイする際の AI のレベルを大幅に向上させることができますが、このアルゴリズムの計算コストは​​非常に高くなります。主な理由の 1 つは、学術研究の公開基準では通常、新しいアルゴリズムを大規模なベンチマーク テストで評価する必要があることです。 Google の研究者は、コンピューティング予算が限られ、小規模から中規模の環境での小規模な実験で、さまざまなコンポーネントを追加および削除し、Rainbow アルゴリズムと一致する結果を得ました。

従来の強化学習とディープニューラルネットワークを組み合わせた深層強化学習は、DQN アルゴリズムの画期的な発表から始まったと一般に考えられています。 DQN の論文では、この組み合わせの大きな可能性が実証され、Atari 2600 ゲームをプレイできる効果的なエージェントを生成できることが示されました。それ以来、多くの方法によって元の DQN が改良され、Rainbow アルゴリズムは多くの最近の進歩を組み合わせて、ALE ベンチマークで SOTA パフォーマンスを実現しました。しかし、この進歩には非常に高い計算コストが伴い、十分な計算リソースを持つ人と持たない人の間の格差はさらに広がります。

ICML 2021の論文「Rainbowの再考:より洞察に富み包括的な深層強化学習研究の推進」で、研究者らは初めてRainbowアルゴリズムに関連する計算コストについて議論した。研究者らは、小規模な実験でレインボーアルゴリズムと一致する結果を得るために複数のアルゴリズムコンポーネントを組み合わせる方法、さらにこのアイデアをより小規模なコンピューティング予算で実施される研究に一般化することで、貴重な科学的洞察が得られる可能性を探りました。

論文アドレス: https://arxiv.org/abs/2011.14826

Rainbow の計算コストが高い主な理由の 1 つは、学術研究の公開基準として、新しいアルゴリズムを大規模なベンチマーク (Atari 2600 ゲームのプレイ方法を学習できる 57 個の強化学習エージェントを含む ALE など) で評価することが求められることが多いためです。 Tesla P100 GPU を使用してゲームをプレイするためのモデルをトレーニングするには、通常約 5 日かかります。さらに、意味のある信頼限界を確立したい場合は、通常、少なくとも 5 回の実行を実行する必要があります。

したがって、57 のゲームすべてで Rainbow をトレーニングして納得のいくパフォーマンス実験データを得るには、約 34,200 GPU 時間 (約 1,425 日) が必要です。このような実験は、トレーニングを複数の GPU で並行して実行できる場合にのみ実行可能であり、小規模な研究グループにとっては実行が困難です。

レインボーアルゴリズム

オリジナルの Rainbow アルゴリズム論文と同様に、この ICML 2021 論文では、研究者らはオリジナルの DQN アルゴリズムに、ダブル Q 学習、優先順位付けされた経験再生 (PER)、競合ネットワーク、マルチステップ学習、分散強化学習、ノイズの多いネットワークなどのコンポーネントを追加した場合の効果を評価しました。

この研究は、4 つの古典的な管理設定で評価されました。これらの環境は、ALE ゲームの場合は 5 日間かかるのに対し、10 ~ 20 分で完全にトレーニングできることに注意してください。

左上: CartPole では、エージェントがカート上のポールを左右に動かしてバランスをとることがゲーム タスクです。右上: Acrobot には 2 つのレバーと 2 つの接続ポイントがあり、エージェントは 2 つのレバー間の接続ポイントに力を加えて、下のレバーを特定の高さ以上に持ち上げる必要があります。左下: LunarLander では、エージェントのタスクは 2 つの旗の間に宇宙船を着陸させることです。右下: MountainCar では、エージェントは一定の運動量を使用して、2 つの丘の間を車で走り、右側の丘の頂上に到達する必要があります。

研究者らは、各コンポーネントを DQN に個別に追加した場合と、完全な Rainbow アルゴリズムから各コンポーネントを削除した場合の効果を調査し、全体として各アルゴリズム コンポーネントの追加によってベース DQN の学習パフォーマンスが向上することを発見しました。しかし、この研究では、改善につながるとよく考えられている分散強化学習が、必ずしもそれ自体で改善を生み出すわけではないなど、いくつかの重要な矛盾も発見されました。実際、Rainbow 論文の ALE 結果とは対照的に、従来の制御設定では、分散 RL は他のコンポーネントと組み合わせた場合にのみ改善をもたらします。

上の図は、4 つの従来の制御環境で DQN にさまざまなコンポーネントを追加したときのトレーニングの進行状況を示しています。 x 軸はトレーニング ステップ、y 軸はパフォーマンス (高いほど良い) です。

上の図は、4 つの従来のコントロール環境で Rainbow からさまざまなコンポーネントを削除したときのトレーニングの進行状況を示しています。 x 軸はトレーニング ステップ、y 軸はパフォーマンス (高いほど良い) です。

研究者らはまた、5 つの小型化された Atari ゲームのセットで構成される MinAtar 環境で Rainbow 実験を再実行し、元の Rainbow 論文と同様の結果を達成しました。 MinAtar ゲームは、オリジナルの Rainbow アルゴリズムで評価された通常の Atari 2600 ゲームよりも約 10 倍速くトレーニングされます。さらに、この研究の実験結果には、ゲームのダイナミクスやエージェントへのピクセルベースの入力の追加など、いくつか興味深い側面があります。したがって、この研究では、古典的なコントロールと完全な Atari 2600 ゲームの中間に位置する、挑戦的な中レベルの環境を提供します。

総合すると、研究者らは、現在の結果が元の Rainbow 論文の結果と一致していること、つまり各アルゴリズム コンポーネントの影響は環境によって異なる可能性があることを発見しました。研究者らは、異なるアルゴリズムコンポーネント間のトレードオフのバランスをとるために単一のエージェントを使用することを提案しており、この研究のレインボーバージョンは、すべてのコンポーネントを組み合わせることで全体的なパフォーマンスが向上したエージェントが生成されるため、元のバージョンと非常に一貫性があると考えられます。ただし、さまざまなアルゴリズム コンポーネント間には細部において重要な違いがいくつかあり、より徹底した調査を行う価値があります。

最適化と損失関数のさまざまな組み合わせに関する実験

DQN が提案されたとき、Huber 損失と RMSProp オプティマイザーの両方が使用されました。研究者はほとんどの時間を他のアルゴリズム設計に費やしているため、DQN を構築するときに同じ選択を使用するのは研究者にとって一般的な方法です。

この研究では、低コストで小規模な古典的制御と MinAtar のコンテキストで DQN で使用される損失関数と最適化装置を再検討します。研究者らは、現在最も人気のあるオプティマイザーである Adam オプティマイザーを使用していくつかの初期実験を実施し、それをより単純な損失関数である平均二乗誤差損失 (MSE) と組み合わせました。新しいアルゴリズムを開発する際には、オプティマイザーと損失関数の選択が見落とされることが多いため、この研究では、これら 2 つを変更すると、すべての古典的制御環境と MinAtar 環境で実験結果が大幅に改善される可能性があることがわかりました。

そこで研究者らは、2 つのオプティマイザー (RMSProp、Adam オプティマイザー) と 2 つの損失関数 (Huber、MSE 損失) のさまざまな組み合わせを作成し、ALE プラットフォーム全体 (60 個の Atari 2600 ゲームを含む) で評価しました。結果は、Adam + MSE の組み合わせが RMSProp + Huber の組み合わせよりも優れていることを示しています。

デフォルトの DQN 設定 (RMSProp + Huber) で、Adam + MSE の組み合わせによってもたらされる改善を評価します (値が高いほど優れています)。

さらに、さまざまなオプティマイザーと損失関数の組み合わせを比較したところ、RMSProp を使用する場合、Huber 損失は MSE よりもパフォーマンスが優れている傾向があることが研究者によって発見されました (これは実線とオレンジ色の破線の間のギャップで示されています)。

さまざまなオプティマイザーと損失関数の組み合わせを比較した、60 個の Atari 2600 ゲームの正規化されたスコアの集計。

研究者たちは、限られた計算予算で、論文「Rainbow: 深層強化学習における改善の組み合わせ」の研究を高いレベルで再現し、新しい興味深い現象を発見することができました。どうやら、何かを初めて発見するよりも、再び訪れる方が簡単なようです。しかし、研究者らは、小規模および中規模の環境実証研究の関連性と重要性を実証するためにこの研究を実施しました。研究者たちは、こうした計算負荷の少ない環境は、新しいアルゴリズムのパフォーマンス、動作、複雑さをより批判的に徹底的に分析するのに適していると考えています。この研究では、AI研究者が小規模環境を貴重なツールとして考慮し、審査員が小規模環境に焦点を当てた実験作業を見逃さないようにすることを期待しています。

<<:  99行のコードでアナと雪の女王の特殊効果の太極拳の進化を実現

>>:  コンピュータビジョンプロジェクトのためのオブジェクト検出の初心者向けガイド

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

人工知能は諸刃の剣です。EUは利益を促進し、害を避けるための規制を導入しました。

近年、交通と環境に対する要求が継続的に高まっており、わが国の新エネルギー自動車は急速な発展を遂げてい...

CMU と Adob​​e が協力: GAN モデルは事前トレーニングの時代を先導し、トレーニング サンプルのわずか 1% しか必要としません

事前トレーニングの時代に入ってから、視覚認識モデルのパフォーマンスは急速に向上しましたが、生成的敵対...

Gpts ストアの立ち上げが遅れています。適切な Gpts アプリケーションはどこで見つかりますか?

12月2日、OpenAIのChatGPTチームはGPT開発者に手紙を送り、「GPTストア」が202...

ジェネレーティブ AI とクラウド ネイティブは期待が膨らんでいる時期にあります。これらは企業の変革よりも重要ですか?

今年、業界内では「AI 記者会見でない記者会見はない」というジョークが飛び交っています。まさにその通...

人工知能はテクノロジーとデータガバナンスの進化を推進する

2019年以降、アジア太平洋地域全体で政府主導のAIに関する取り組みが急増しています。これらの取り組...

国立国防技術大学は、モバイル環境下で高精度のオンラインRGB-D再構成を実現するROSEFusionを提案

最近、国立国防科技大学の徐凱教授のチームは、高速移動に対するランダム最適化に基づくオンライン RGB...

マイクロソフトCEOナデラ氏:AIはルールを変えるインターネットの波のようなもの

8月18日、マイクロソフトが人工知能(AI)技術の研究開発に注力し、OpenAIに100億ドル以上を...

...

ヘルスケアにおけるAI導入が難しい理由

私たちはほぼ毎日、人工知能と医療業界におけるその応用に関する最新の記事を読んでおり、医療機関などのク...

...

2021年10月のドローン業界の最新動向を3分で振り返る

現在、人工知能や5Gなどの技術の助けを借りて、我が国のドローン開発は急速な成長の軌道に乗っています。...

メリット、PyTorch中国語版の公式チュートリアルはこちら

[[275569]] PyTorchは近年人気のディープラーニングフレームワークですが、公式の中国語...

ウォータールー大学はヒートマップ回帰を放棄し、複数人の姿勢推定のための新しい方法を提案した。

[[436983]]キーポイント推定は、画像内の関心ポイントを特定するコンピューター ビジョン タ...

...