強化学習は過去 10 年間で大きな進歩を遂げ、現在ではさまざまな分野で最も人気のあるテクノロジーの 1 つとなっています。今日は、強化学習に関連するオープンソース プロジェクトをお勧めしたいと思います。 このオープンソース プロジェクトは、PyTorch を通じて 17 個の深層強化学習アルゴリズムを実装し、誰もが実践で深層強化学習アルゴリズムを理解できるようにするチュートリアルおよびコード ライブラリです。 完全な 17 個のアルゴリズムは次のように実装されます。
すべての実装は、Cart Pole (離散アクション)、Mountain Car Continuous (連続アクション)、Bit Flipping (動的ターゲットによる離散アクション)、または Fetch Reach (動的ターゲットによる連続アクション) を迅速に解決できます。作成者は、近いうちにさらに階層型 RL アルゴリズムを追加する予定です。 1. カートポールとマウンテンカー 以下では、離散アクション ゲーム Cart Pole または連続アクション ゲーム Mountain Car を正常に学習するさまざまな RL アルゴリズムを示します。 3 つのランダム シードを使用してアルゴリズムを実行した平均結果を以下に示します。 網掛け部分はプラスマイナス 1 標準偏差を表します。使用されるハイパーパラメータは、results/Cart_Pole.py および results/Mountain_Car.py ファイルにあります。 2. 後知恵体験リプレイ(HER)体験 下の図は、Experience Replay with Hindsight 2018 および Multi-Objective Reinforcement Learning 2018 の論文に記載されている、ビットフリッピング (14 ビット) およびフェッチリーチ環境での DQN および DDPG のパフォーマンスを示しています。これらの結果は論文で発見されたものを再現しており、Fetch HER によってエージェントが他の方法では解決できなかった問題を解決できることを示しています。各エージェントのペアでは同じハイパーパラメータが使用されるため、それらの唯一の違いは後知恵が使用されるかどうかであることに注意してください。 3. 階層的強化学習実験 上図の左側の結果は、Long Corridor 環境での DQN と Kulkarni らが 2016 年に提案した階層 DQN アルゴリズムのパフォーマンスを示しています。 現在、このプロジェクトは Github で 962 個のスターと 170 個のフォークを獲得しています (Github アドレス: https://github.com/p-christ/Deep-Reinforcement-Learning-Algorithms-with-PyTorch) |
<<: 人工知能は静かに到来し、世界のテクノロジー大手はAIをめぐる戦いを始めている
>>: 適切な AI データ ストレージを選択するための 6 つの考慮事項
1. 新しく職場に入る1. 職場に入るときに直面する問題初めて職場に入るとき、新卒から社会人へと移...
この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...
Jeremy Howard の優れた Deep Learning Part 1 コースを修了した後...
LDA (潜在的ディリクレ分布) や Biterm などの統計トピック モデルを適用することで、大量...
米国国土安全保障省および米国国税庁の元最高情報責任者であり、現在は Learning Tree In...
Alibaba DAMO Academy は、2019 年のトップ 10 テクノロジー トレンド予測...
[[186706]]マサチューセッツ工科大学(MIT)は最近、同校の研究者らが樹木や植物のポンプ機構...
超AI制御により、機械が自動的に人間の胚のクローンを作成し、培養用の栄養プールに送り込み、人間のバッ...
最近、Meta は Llama シリーズのモデルやすべてを分割する SAM モデルなど、複数の AI...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
IT リーダーは、サービスとしてのソフトウェア (SaaS) のセキュリティについては引き続き自信を...
[[229302]]ビッグデータ概要編纂者: 王暁奇、大潔瓊、アイリーンScikit-learn ...