強化学習は過去 10 年間で大きな進歩を遂げ、現在ではさまざまな分野で最も人気のあるテクノロジーの 1 つとなっています。今日は、強化学習に関連するオープンソース プロジェクトをお勧めしたいと思います。 このオープンソース プロジェクトは、PyTorch を通じて 17 個の深層強化学習アルゴリズムを実装し、誰もが実践で深層強化学習アルゴリズムを理解できるようにするチュートリアルおよびコード ライブラリです。 完全な 17 個のアルゴリズムは次のように実装されます。
すべての実装は、Cart Pole (離散アクション)、Mountain Car Continuous (連続アクション)、Bit Flipping (動的ターゲットによる離散アクション)、または Fetch Reach (動的ターゲットによる連続アクション) を迅速に解決できます。作成者は、近いうちにさらに階層型 RL アルゴリズムを追加する予定です。 1. カートポールとマウンテンカー 以下では、離散アクション ゲーム Cart Pole または連続アクション ゲーム Mountain Car を正常に学習するさまざまな RL アルゴリズムを示します。 3 つのランダム シードを使用してアルゴリズムを実行した平均結果を以下に示します。 網掛け部分はプラスマイナス 1 標準偏差を表します。使用されるハイパーパラメータは、results/Cart_Pole.py および results/Mountain_Car.py ファイルにあります。 2. 後知恵体験リプレイ(HER)体験 下の図は、Experience Replay with Hindsight 2018 および Multi-Objective Reinforcement Learning 2018 の論文に記載されている、ビットフリッピング (14 ビット) およびフェッチリーチ環境での DQN および DDPG のパフォーマンスを示しています。これらの結果は論文で発見されたものを再現しており、Fetch HER によってエージェントが他の方法では解決できなかった問題を解決できることを示しています。各エージェントのペアでは同じハイパーパラメータが使用されるため、それらの唯一の違いは後知恵が使用されるかどうかであることに注意してください。 3. 階層的強化学習実験 上図の左側の結果は、Long Corridor 環境での DQN と Kulkarni らが 2016 年に提案した階層 DQN アルゴリズムのパフォーマンスを示しています。 現在、このプロジェクトは Github で 962 個のスターと 170 個のフォークを獲得しています (Github アドレス: https://github.com/p-christ/Deep-Reinforcement-Learning-Algorithms-with-PyTorch) |
<<: 人工知能は静かに到来し、世界のテクノロジー大手はAIをめぐる戦いを始めている
>>: 適切な AI データ ストレージを選択するための 6 つの考慮事項
人類が宇宙に建設した最初の工場がここにあります。しかも無人工場です!先週、この衛星はマスク氏のスペー...
データは今やさまざまな産業に統合され、世界市場のハイライトとなっています。現在の経済成長はデータと切...
インテリジェント製造の分野では、AI 駆動型デジタルツインが重要な技術となっています。デジタル ツイ...
安価な高速インターネット、安全なクラウド ストレージ、モバイル ソリューション、低コストのデバイスの...
明らかな理由から、ワクチンの開発が現在最優先事項となっています。安全で効果的なコロナウイルスワクチン...
12月5日、OpenAIは企業ユーザーの開拓に力を入れているものの、同社の幹部の一部は、この技術がす...
ChatGPTはリリースからわずか半年で、5日間でユーザー数が100万人を超え、現在ユーザー総数は...
5月9日、Amazon Web Servicesと51CTOが共同で「This is My Arch...
[[443053]] 2021年は人工知能が飛躍的に進歩し続ける年です。最近、Github で誰かが...
常に注目度の高い人工知能分野に関連するアプリケーションは、常に大きな注目を集めています。人工知能は電...
AI システムへの世界的な支出は 2023 年から 2026 年の間に 2 倍になると予想されており...
2017年7月8日、5日間にわたる第2回Taobao Maker Festivalが杭州国際博覧セン...