強化学習は過去 10 年間で大きな進歩を遂げ、現在ではさまざまな分野で最も人気のあるテクノロジーの 1 つとなっています。今日は、強化学習に関連するオープンソース プロジェクトをお勧めしたいと思います。 このオープンソース プロジェクトは、PyTorch を通じて 17 個の深層強化学習アルゴリズムを実装し、誰もが実践で深層強化学習アルゴリズムを理解できるようにするチュートリアルおよびコード ライブラリです。 完全な 17 個のアルゴリズムは次のように実装されます。
すべての実装は、Cart Pole (離散アクション)、Mountain Car Continuous (連続アクション)、Bit Flipping (動的ターゲットによる離散アクション)、または Fetch Reach (動的ターゲットによる連続アクション) を迅速に解決できます。作成者は、近いうちにさらに階層型 RL アルゴリズムを追加する予定です。 1. カートポールとマウンテンカー 以下では、離散アクション ゲーム Cart Pole または連続アクション ゲーム Mountain Car を正常に学習するさまざまな RL アルゴリズムを示します。 3 つのランダム シードを使用してアルゴリズムを実行した平均結果を以下に示します。 網掛け部分はプラスマイナス 1 標準偏差を表します。使用されるハイパーパラメータは、results/Cart_Pole.py および results/Mountain_Car.py ファイルにあります。 2. 後知恵体験リプレイ(HER)体験 下の図は、Experience Replay with Hindsight 2018 および Multi-Objective Reinforcement Learning 2018 の論文に記載されている、ビットフリッピング (14 ビット) およびフェッチリーチ環境での DQN および DDPG のパフォーマンスを示しています。これらの結果は論文で発見されたものを再現しており、Fetch HER によってエージェントが他の方法では解決できなかった問題を解決できることを示しています。各エージェントのペアでは同じハイパーパラメータが使用されるため、それらの唯一の違いは後知恵が使用されるかどうかであることに注意してください。 3. 階層的強化学習実験 上図の左側の結果は、Long Corridor 環境での DQN と Kulkarni らが 2016 年に提案した階層 DQN アルゴリズムのパフォーマンスを示しています。 現在、このプロジェクトは Github で 962 個のスターと 170 個のフォークを獲得しています (Github アドレス: https://github.com/p-christ/Deep-Reinforcement-Learning-Algorithms-with-PyTorch) |
<<: 人工知能は静かに到来し、世界のテクノロジー大手はAIをめぐる戦いを始めている
>>: 適切な AI データ ストレージを選択するための 6 つの考慮事項
みなさんこんにちは、カソンです。過去 2 年間、フロントエンド コミュニティ全体が主に 2 つの理由...
モバイルインターネットやビッグデータなどの新技術の推進により、人工知能は新たな発展ブームを迎え、実際...
現在、メタバースのトレンドの下、AIデジタルヒューマンもエンターテインメント、サービス、教育、マーケ...
MIT 博士課程の学生による驚くべき発見: Transformer の特定のレイヤーを非常に単純に削...
[[227002]]今日お話しするのは、「そんな手術があるの?」と第一印象でとても驚く内容ですが、...
1. アプリケーションの背景インターネットの急速な発展と広範な応用により、ネットワーク セキュリティ...
[[410588]]この記事はWeChatの公開アカウント「Muscular Coder」から転載し...