このオープンソースプロジェクトは、Pytorchを使用して17の強化学習アルゴリズムを実装しています。

このオープンソースプロジェクトは、Pytorchを使用して17の強化学習アルゴリズムを実装しています。

強化学習は過去 10 年間で大きな進歩を遂げ、現在ではさまざまな分野で最も人気のあるテクノロジーの 1 つとなっています。今日は、強化学習に関連するオープンソース プロジェクトをお勧めしたいと思います。

このオープンソース プロジェクトは、PyTorch を通じて 17 個の深層強化学習アルゴリズムを実装し、誰もが実践で深層強化学習アルゴリズムを理解できるようにするチュートリアルおよびコード ライブラリです。

完全な 17 個のアルゴリズムは次のように実装されます。

  • ディープQラーニング(DQN)(Mnih et al. 2013)
  • 固定Qターゲットを持つDQN(Mnih et al. 2013)
  • ダブル DQN (DDQN) (Hado van Hasselt 他 2015)
  • 優先順位付けされたエクスペリエンスリプレイを備えた DDQN (Schaul 他 2016)
  • 決闘DDQN(Wang et al. 2016)
  • 強化 (ウィリアムズ他 1992)
  • 深層決定論的政策勾配 (DDPG) (Lillicrap et al. 2016 )
  • ツイン遅延深層決定論的ポリシー勾配 (TD3) (藤本ら 2018)
  • ソフト アクター クリティック (SAC および SAC-Discrete) (Haarnoja 他 2018)
  • 非同期アドバンテージアクタークリティック (A3C) (Mnih et al. 2016)
  • 同期アドバンテージアクタークリティック(A2C)
  • 近接ポリシー最適化 (PPO) (Schulman et al. 2017)
  • 後知恵体験リプレイ付き DQN (DQN-HER) (Andrychowicz 他 2018)
  • 後知恵体験リプレイ付き DDPG (DDPG-HER) (Andrychowicz 他 2018)
  • 階層的DQN(h-DQN)(Kulkarni et al. 2016)
  • 階層的強化学習のための確率的 NN (SNN-HRL) (Florensa 他 2017)
  • 多様性こそがすべて (DIAYN) (Eyensbach 他 2018)

すべての実装は、Cart Pole (離散アクション)、Mountain Car Continuous (連続アクション)、Bit Flipping (動的ターゲットによる離散アクション)、または Fetch Reach (動的ターゲットによる連続アクション) を迅速に解決できます。作成者は、近いうちにさらに階層型 RL アルゴリズムを追加する予定です。

1. カートポールとマウンテンカー

以下では、離散アクション ゲーム Cart Pole または連続アクション ゲーム Mountain Car を正常に学習するさまざまな RL アルゴリズムを示します。 3 つのランダム シードを使用してアルゴリズムを実行した平均結果を以下に示します。

網掛け部分はプラスマイナス 1 標準偏差を表します。使用されるハイパーパラメータは、results/Cart_Pole.py および results/Mountain_Car.py ファイルにあります。

2. 後知恵体験リプレイ(HER)体験

下の図は、Experience Replay with Hindsight 2018 および Multi-Objective Reinforcement Learning 2018 の論文に記載されている、ビットフリッピング (14 ビット) およびフェッチリーチ環境での DQN および DDPG のパフォーマンスを示しています。これらの結果は論文で発見されたものを再現しており、Fetch HER によってエージェントが他の方法では解決できなかった問題を解決できることを示しています。各エージェントのペアでは同じハイパーパラメータが使用されるため、それらの唯一の違いは後知恵が使用されるかどうかであることに注意してください。

3. 階層的強化学習実験

上図の左側の結果は、Long Corridor 環境での DQN と Kulkarni らが 2016 年に提案した階層 DQN アルゴリズムのパフォーマンスを示しています。
上図の右側の結果は、2017 年に Florensa らが提案した DDQN アルゴリズムと階層的強化学習のための確率的ニューラル ネットワーク (SNN-HRL) のパフォーマンスを示しています。

現在、このプロジェクトは Github で 962 個のスターと 170 個のフォークを獲得しています (Github アドレス: https://github.com/p-christ/Deep-Reinforcement-Learning-Algorithms-with-PyTorch)

<<:  人工知能は静かに到来し、世界のテクノロジー大手はAIをめぐる戦いを始めている

>>:  適切な AI データ ストレージを選択するための 6 つの考慮事項

ブログ    

推薦する

マスク氏の元従業員が「宇宙工場」を建設し、スペースXのロケットで打ち上げられた新型コロナウイルス治療薬パクスロビドの製造を開始した。

人類が宇宙に建設した最初の工場がここにあります。しかも無人工場です!先週、この衛星はマスク氏のスペー...

データは今日のビジネスに競争上の優位性をもたらすことができるのでしょうか?

データは今やさまざまな産業に統合され、世界市場のハイライトとなっています。現在の経済成長はデータと切...

製造業におけるデジタルツインについて知っておくべきことすべて

インテリジェント製造の分野では、AI 駆動型デジタルツインが重要な技術となっています。デジタル ツイ...

人工知能はモバイルインターネットデバイスを変えようとしている

安価な高速インターネット、安全なクラウド ストレージ、モバイル ソリューション、低コストのデバイスの...

ワクチン開発におけるIoTとAIの役割

明らかな理由から、ワクチンの開発が現在最優先事項となっています。安全で効果的なコロナウイルスワクチン...

...

OpenAI COO: AIが一夜にしてビジネスに大きな変化をもたらすとは期待しない

12月5日、OpenAIは企業ユーザーの開拓に力を入れているものの、同社の幹部の一部は、この技術がす...

OpenAIがMicrosoftに反旗を翻す!アルトマン氏が「ChatGPTのカスタマイズ」を企む。AI市場の未来はまた変わるのか?

ChatGPTはリリースからわずか半年で、5日間でユーザー数が100万人を超え、現在ユーザー総数は...

Githubの包括的なレビュー! 2021 年の最も素晴らしい AI 論文 38 件

[[443053]] 2021年は人工知能が飛躍的に進歩し続ける年です。最近、Github で誰かが...

電子商取引検索における人工知能技術の応用

常に注目度の高い人工知能分野に関連するアプリケーションは、常に大きな注目を集めています。人工知能は電...

AIがデータセンターの設計をどう変えるか

AI システムへの世界的な支出は 2023 年から 2026 年の間に 2 倍になると予想されており...

...

...