GitHub Wanxing リソース: 強化学習アルゴリズムの実装、チュートリアル コード学習計画

GitHub Wanxing リソース: 強化学習アルゴリズムの実装、チュートリアル コード学習計画

[[273322]]

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

強化学習 (RL) の登場以来、AI は StarCraft をプレイして Atari の王者になれるようになり、専門家を魅了し、素人を驚かせてきました。

こちらは1万以上の星を獲得した強化学習リソースです。チュートリアルの推奨だけでなく、サポート演習も用意されています。ネットユーザーからは学習後の評価が高く、リアルタイムで更新もされています。

入学要件は厳しくなく、数学と機械学習に関する基礎知識のみが必要です。

明確な学習パス

強化学習を始めたいなら、質の高いコースが不可欠です。

強化学習のリソースは何千もありますが、プロジェクト作成者の Denny Britz は次の 2 つを強く推奨しています。

デビッド・シルバーの強化学習コース:

http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching.html

リチャード・サットンとアンドリュー・バートの『強化学習入門(第2版)』

http://incompleteideas.net/book/RLbook2018.pdf

ps 実際のテストには魔法は必要ありません

デニー・ブリッツ氏は、この2冊の本には強化学習を始めるために知っておくべき研究論文がほぼ網羅されていると語りました。基礎が高さを決めるので、理論的な知識もしっかりと学ぶ必要があります。

理論はありますが、本にはアルゴリズムの実装はありません。

心配しないでください。Denny Britz は、Python、OpenAI Gym、Tensorflow を使用して標準的な強化アルゴリズムのほとんどを個人的に実装し、教材と組み合わせて誰もが使用できるように共有しています。

それはとても思いやりのあることだ。

この Wanxing リソースでは、各フォルダーは教科書の 1 つ以上の章に対応しています。各フォルダーには、演習と解答に加えて、学習目標のセット、基礎となる概念の概要、および関連リンクが含まれています。

「モデルベースの強化学習: 動的プログラミングを使用したポリシー反復と値反復」の章を例に挙げます。

この章は、David Silver の RL コース「動的プログラミング計画」の 3 番目の講義の補足です。

まず、学習目標は次のとおりです。

  • 政策評価と政策改善の違い、そしてこれらのプロセスがどのように相互作用するかを理解する
  • ポリシー反復アルゴリズムを理解する
  • 価値反復アルゴリズムを理解する
  • 動的プログラミング手法の限界を理解する

学習目標を設定すると、このチュートリアルで重要な概念も強調表示されます。

最後に、実践的な演習を紹介します。

大きな枠組みは設定されています。空白を埋める方法に集中するだけです。

標準的な回答は記事の最後に添付されています。

実装されたアルゴリズムのリスト

このチュートリアルでは、次のアルゴリズムの実装について説明します。

  • 動的プログラミング戦略評価
  • 動的プログラミング戦略の反復
  • 動的プログラミング値の反復
  • モンテカルロ予測
  • イプシロン貪欲戦略のモンテカルロ制御
  • 重要度サンプリングによるモンテカルロオフポリシー制御
  • SARSA(戦略TD学習)
  • Q学習(オフポリシーTD学習)
  • 線形関数近似のためのQ学習
  • Atari ゲームのためのディープ Q 学習
  • Atari ゲーム向けデュアルディープ Q 学習
  • 優先体験再生によるディープ Q 学習 (構築中)
  • 政策勾配:ベースライン強化
  • ポリシー勾配: ベースライン アクター クリティック アルゴリズム
  • ポリシー勾配: 連続アクション空間を備えたベースラインアクタークリティックアルゴリズム
  • 連続アクション空間における決定論的ポリシー勾配 (WIP)
  • DDPG(建設中)
  • 非同期アドバンテージアクタークリティックアルゴリズム (A3C)

学習パスは非常に明確で、非常に質の高いリソースなので、評価してみませんか?

ポータル:

https://github.com/dennybritz/reinforcement-learning

<<:  IoT、ビッグデータ、AIの現状はどうなっているのでしょうか?

>>:  ZTEのインテリジェントビデオReIDアルゴリズムは大きな進歩を遂げ、3つの主要なデータセットで世界記録を更新しました。

ブログ    
ブログ    

推薦する

人工知能と機械学習の違いは何ですか?

[[210283]]人工知能 (AI) と機械学習 (ML) は、現在非常に注目されている流行語で...

...

スマートビルディング技術のトレンド: 5つの将来のアイデアと例

1. 拡張現実(AR)建築の世界では、拡張現実と仮想現実が岐路に立っています。 AR はコンピュータ...

速報です! OpenAIがByteDanceアカウントを禁止!コンテンツ生成のための GPT の不正使用に関する内部告発

ノアが編集海外メディアのザ・ヴァージは北京時間今朝未明、生成AIをめぐる熾烈な競争の中で、バイトダン...

...

AIが起こした恐ろしいことは何ですか?

人工知能(AI)について話すとき、いつも恐怖を感じる人がいます。一体何を恐れているのですか?何か証拠...

調査結果: 回答者の 64% が生成 AI による作業の功績を認めている

Salesforce が実施した調査では、生成 AI の使用に関する明確なポリシーが存在しない状況で...

Colossal-AIはHugging Faceコミュニティをシームレスにサポートし、低コストで大規模モデルを簡単に加速します。

大規模モデルは AI コミュニティのトレンドとなり、主要なパフォーマンス チャートを席巻するだけでな...

AI 生成コードを使ってみませんか?人気のコパイロットの「リスク評価」を実施した人がいた

[[412069]]最近、GitHub は、人工知能を使用してコードを合成するモデルを生成する Co...

...

...

機械学習の導入を容易にする 6 つのツール

今日、多くのベンダーは、データインテリジェントなビジネスユーザーが AI テクノロジーを採用できるよ...

マスク氏が「アイアンマン」のようなロボットを発売!テスラが世界最速のAIコンピューターを発表

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

チューリング賞受賞者ヨシュア・ベンジオ氏:生成フローネットワークがディープラーニングの分野を拡大

最近、「GFlowNet Foundations」と題された論文が注目を集めています。これはチューリ...

自動運転のジレンマと選択

ここ数年、自動運転車に対する熱狂が高まっています。これは確かに合理的です。自動運転車は、燃費の向上、...