数行のコードで強化学習を実装する

数行のコードで強化学習を実装する

強化学習は過去 1 年間で大きな進歩を遂げ、最先端のテクノロジが 2 か月ごとにリリースされています。 AlphaGo が世界チャンピオンの囲碁プレイヤー、柯潔に勝利したり、マルチエージェントがかくれんぼをしたり、さらには AlphaStar が StarCraft で健闘したりするのを見てきました。

これらのアルゴリズムを実装するには、ディープラーニングと強化学習の両方を十分に理解する必要があるため、非常に困難になる可能性があります。 この記事の目的は、強化学習の学習を簡単に開始できるように、いくつかの便利なパッケージをすぐに使い始めることができるようにすることです。

SOTA 深層強化学習アルゴリズムを実装する方法についての詳細なチュートリアルについては、こちらをご覧ください。 ぜひ注意深く読んでみてください!

1. 環境

これらのアルゴリズムの実装を始める前に、まず作業環境、つまりゲームを作成する必要があります。 アルゴリズムでは、アクション空間と観察空間が何であるかを理解することが重要です。 この目的のために、興味深い環境を選択するために使用できるいくつかのソフトウェア パッケージを紹介します。

1. ジム

Gym は、強化学習アルゴリズムを開発および比較するためのツールキットです。 環境を操作するための使いやすいインターフェースを提供するため、実験や研究の目的でよく使用されます。

次のコマンドを使用してパッケージをインストールするだけです。

  1. pip インストール ジム

その後、次のコードを使用して環境を作成できます。

  1. ジムをインポート
  2. env = gym.make ('CartPole-v0')

CartPole 環境では、カートに先端が取り付けられたポールが落ちないようにすることがタスクです。

env 変数には、環境 (ゲーム) に関する情報が含まれます。 CartPole のアクション空間が何であるかを調べるには、env.action_space を実行して Discrete(2) を生成します。 これは、2 つの個別のアクションが可能であることを意味します。 観測空間を表示するにはenv.observation_spaceを実行し、Box(4)を生成します。 このボックスはn(4)個の閉区間の直積を表します。

ゲームをレンダリングするには、次のコードを実行します。

  1. ジムをインポート
  2. env = gym.make ('CartPole-v0')
  3.  
  4. obs = env .reset()
  5. 真の場合:
  6. アクション= env .action_space.sample()
  7. obs、rewards、done、 info = env .step(action)
  8. env.render()
  9.  
  10. 完了した場合:
  11. 壊す
[[336834]]

ランダムなアクションを選択した場合、カートは失敗し続けることがわかります。 最終的な目標は、この問題を解決する方法を学習する強化学習アルゴリズムを実行することです。

Gym の環境の完全なリストについては、こちらをご覧ください。

注: Atari ゲームの実行中に問題が発生した場合は、https://github.com/openai/gym/issues/1726 を参照してください。

2. レトロ

興味深い環境を作成するためのもう 1 つのオプションは、Retro を使用することです。 OpenAI によって開発されたこのパッケージを使用すると、ROM を使用して Airstriker-Genesis などのゲームをエミュレートできます。

次のコマンドを使用してパッケージをインストールするだけです。

  1. pip インストール ジム レトロ

次に、以下を使用して環境を作成および表示できます。

  1. レトロを輸入
  2. env = retro .make(ゲーム= 'Airstriker-Genesis' )

同様に、ゲームをレンダリングするには、次のコードを実行します。

  1. レトロを輸入
  2. env = retro .make(ゲーム= 'Airstriker-Genesis' )
  3.  
  4. obs = env .reset()
  5. 真の場合:
  6. アクション= env .action_space.sample()
  7. obs、rewards、done、 info = env .step(action)
  8. env.render()
  9.  
  10. 完了した場合:
  11. 壊す

ROM をインストールするには、対応する .sha ファイルを見つけて、次のコマンドを実行する必要があります。

  1. python3 -m retro.import /path/to/your/ROMs/directory/

注: 簡単に利用できる環境の完全なリストについては、次のコマンドを実行してください。

  1. レトロデータリスト()

3. プロジェクション

強化学習の典型的な問題は、結果として得られるアルゴリズムが特定の環境ではうまく機能することが多いものの、一般化可能なスキルを学習できないことです。 たとえば、ゲームの見た目や敵の反応を変えたい場合はどうすればよいでしょうか?

この問題に対処するために、OpenAI は手続き的に生成された環境の作成を可能にする Procgen というパッケージを開発しました。 このパッケージを使用すると、強化学習エージェントが一般的なスキルをどれだけ早く学習するかを測定できます。

ゲームのレンダリングは非常に簡単です:

  1. ジムをインポート
  2. パラメータ= {"num_levels": 1、"distribution_mode": "hard"}
  3. env = gym .make("procgen:procgen-leaper-v0", **param)
  4.  
  5. obs = env .reset()
  6. 真の場合:
  7. アクション= env .action_space.sample()
  8. obs、rewards、done、 info = env .step(action)
  9. env.render()
  10.  
  11. 完了した場合:
  12. 壊す
[[336835]]

これにより、アルゴリズムをトレーニングできる単一のレベルが生成されます。 同じ環境のさまざまなバージョンを手順的に生成するには、いくつかのオプションがあります。

  • num_levels - 生成できる一意のレベル数
  • distribution_mode - 使用する変数のレベル。オプションは「easy」、「hard」、「extreme」、「memory」、「exploration」です。 すべてのゲームは「イージー」と「ハード」をサポートしていますが、その他のオプションはゲームによって異なります。

2. 強化学習

さて、いよいよ実際の強化学習をやってみましょう。 トレーニング アルゴリズムに使用できるパッケージは多数ありますが、ここでは実装が堅牢な Stable Baselines に焦点を当てます。

この投稿では、RL アルゴリズムが実際にどのように機能するかについては説明しません。そのためには、まったく新しい投稿が必要になります。 PPO、SAC、TD3 などの最先端のアルゴリズムの概要については、以下を参照してください。

https://github.com/dennybritz/reinforcement-learning.

1. 安定したベースライン

安定ベースライン (SB) は OpenAI ベンチマークに基づいており、研究コミュニティと業界が新しいアイデアをより簡単に複製、改善、特定できるように設計されています。 彼らはベースラインを改良し、より安定したシンプルなツールにして、初心者が実装の詳細に煩わされることなく強化学習を試すことができるようにしました。

SB は、最先端の強化学習アルゴリズムを簡単かつ迅速に適用できるため、よく使用されます。 さらに、RL モデルの作成とトレーニングには、数行のコードだけが必要です。

インストールは、pip install stable-baselines で簡単に実行できます。 次に、RL モデル (例: PPO2) を作成して学習するには、次のコード行を実行します。

  1. stable_baselines から PPO2 をインポート
  2. stable_baselines.common.policies から MlpPolicy をインポートします
  3. モデル= PPO2 (MlpPolicy、env、 verbose = 1 )
  4. モデル.learn(合計時間ステップ= 10_000 ログ間隔= 10 )

いくつかの点については説明が必要かもしれません:

  • total_timesteps: トレーニングするサンプルの総数
  • MlpPolicy: アクター・クリティックを実装するポリシー オブジェクト。 この場合、64 層の多層パーセプトロンが 2 つ使用されます。 CnnPolicyやCnnLstmPolicyなどの視覚情報ポリシーもあります。

このモデルを CartPole の例に適用するには、環境を Dummy でラップして SB で利用できるようにする必要があります。 次に、CartPole 環境で PPO2 をトレーニングする完全な例を示します。

  1. stable_baselines.common.policies から MlpPolicy をインポートします
  2. stable_baselines.common.vec_env から DummyVecEnv をインポートします
  3. stable_baselines から PPO2 をインポート
  4. ジムをインポート
  5.  
  6. env = gym.make ('CartPole-v0')
  7. env =ダミーベクトルエンベロープ([lambda: env])
  8.  
  9. モデル= PPO2 (MlpPolicy、env、 verbose = 1 )
  10. モデル.learn(合計時間ステップ= 50_000 ログ間隔= 10 )
  11.  
  12. obs = env .reset()
  13. 真の場合:
  14. アクション、 _states = model.predict (obs)
  15. obs、rewards、dones、 info = env .step(action)
  16. env.render()
[[336836]]

上のグラフからわかるように、PPO2 はわずか 50,000 ステップでポールを安定させる方法を見つけることができました。 これには、数行のコードと数分の処理だけが必要です。

これを Procgen または Retro に適用する場合は、観測空間が環境の現在の状態のイメージになる可能性が高いため、畳み込みベースのネットワークを許可するポリシーを選択してください。

最後に、CartPole の例は非常にシンプルで、50,000 ステップのみトレーニングされます。 他のほとんどの環境では、大幅な改善が見られるようになるまでに通常数千万ステップが必要になります。

注: StableBenchmark の作成者は、初心者がパッケージを本番環境で使用する前に、強化学習について十分に理解しておくように警告しています。 強化学習には多くの重要な要素があり、そのうちのどれかに問題があれば、アルゴリズムは失敗し、ほとんど説明がつかない可能性があります。

2. その他のソフトウェアパッケージ

RL アルゴリズムを適用するために一般的に使用される他のパッケージがあります。

  • TF-Agents — StableBaseline よりも多くのコーディングが必要ですが、一般的に強化学習の研究には必須のパッケージです。
  • MinimalRL - 非常に少ないコードで Pytorch に実装された最先端の RL アルゴリズム。 アルゴリズムを理解するのに間違いなく役立ちます。
  • DeepRL の別の実装である Pytorch ですが、このバージョンには実装に使用する追加の環境もあります。
  • MlAgents - ゲームやシミュレーションをエージェントのトレーニング環境として使用できるようにするオープンソースの Unity プラグイン。

結論

強化学習は、コードに問題が発生した場合にデバッグするのが難しいため、扱いにくいテーマになる可能性があります。 この投稿が強化学習を始める助けになれば幸いです。

<<:  ドローンは5G開発をフィードバックし、インテリジェントな運用と保守の新たなアップグレードを促進する

>>:  DevOps 2 または 3: 継続的インテグレーションによる自動モデルトレーニング システムを構築するための理論と実践のガイド

ブログ    

推薦する

心理意味論の観点から見た顔認識

人々は日常生活の中で、見知らぬ人の顔だけでなく、身近な親戚、友人、同僚、有名人の顔など、さまざまな顔...

...

データ拡張のための 10 個の Python ライブラリ

データ拡張は、人工知能と機械学習の分野における重要な技術です。モデルのパフォーマンスと一般化を向上さ...

クアルコムとインテルはAIをデータセンターから移行したいと考えている

これまで、AI への投資のほとんどは、大規模なデータセンター内でテクノロジーを実行することに重点を置...

顔認識における克服すべき困難

顔認識は、生体認証の分野、さらには人工知能の分野においても最も難しい研究テーマの 1 つと考えられて...

[NCTSサミットレビュー] Rong360 Ai Hui: AIモデルテストの秘密を探る

2019年10月26日、Testinが主催する第2回NCTS中国クラウドテスト業界サミットが北京で開...

...

ICML賞を受賞したばかりの機械学習の専門家マックス・ウェリング氏がマイクロソフトに入社し、分子シミュレーションに注力

[[412546]]量子コンピューティング + 機械学習は分子シミュレーションの分野でどのような火花...

今後 10 年間で最も「収益性の高い」 5 つの業界。誰がやっても儲かるでしょう。

VRバーチャルリアリティは未来のトレンドであり、大きな発展の見込みがあります。現在、大手企業がこの...

3分レビュー! 2021年1月のドローン業界の重要な動向の概要

2020年の最初の月はあっという間に過ぎましたが、ドローン業界の発展は多くの原動力と章を残しました。...

異常検出のためのいくつかのグラフ分割アルゴリズム

セキュリティ分野では、アカウント取引の異常や異なるイベント間の相関関係など、さまざまなシナリオで「グ...

推奨システムにおける自然言語処理 (NLP) の応用

[[195357]]パーソナライズされた推奨はビッグデータ時代に欠かせない技術であり、電子商取引、情...

C# アルゴリズムで実装された文字列反転の簡単な分析

C# を使用して文字列反転アルゴリズムを実装することに関する面接の質問を見てみましょう。文字列反転の...

ディープラーニングが従来の方法ほど効果的ではない典型的な事例にはどのようなものがありますか?

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...