GitHub Wanxing リソース: 強化学習アルゴリズムの実装、チュートリアルコード学習計画

[[273322]]

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

強化学習 (RL) の登場以来、AI は StarCraft をプレイして Atari の王者になれるようになり、専門家を魅了し、素人を驚かせてきました。

こちらは1万以上の星を獲得した強化学習リソースです。チュートリアルの推奨だけでなく、サポート演習も用意されています。ネットユーザーからは学習後の評価が高く、リアルタイムで更新もされています。

入学要件は厳しくなく、数学と機械学習に関する基礎知識のみが必要です。

明確な学習パス

強化学習を始めたいなら、質の高いコースが不可欠です。

強化学習のリソースは何千もありますが、プロジェクト作成者の Denny Britz は次の 2 つを強く推奨しています。

デビッド・シルバーの強化学習コース:

http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching.html

リチャード・サットンとアンドリュー・バートの『強化学習入門（第2版）』

http://incompleteideas.net/book/RLbook2018.pdf

ps 実際のテストには魔法は必要ありません

デニー・ブリッツ氏は、この2冊の本には強化学習を始めるために知っておくべき研究論文がほぼ網羅されていると語りました。基礎が高さを決めるので、理論的な知識もしっかりと学ぶ必要があります。

理論はありますが、本にはアルゴリズムの実装はありません。

心配しないでください。Denny Britz は、Python、OpenAI Gym、Tensorflow を使用して標準的な強化アルゴリズムのほとんどを個人的に実装し、教材と組み合わせて誰もが使用できるように共有しています。

それはとても思いやりのあることだ。

この Wanxing リソースでは、各フォルダーは教科書の 1 つ以上の章に対応しています。各フォルダーには、演習と解答に加えて、学習目標のセット、基礎となる概念の概要、および関連リンクが含まれています。

「モデルベースの強化学習: 動的プログラミングを使用したポリシー反復と値反復」の章を例に挙げます。

この章は、David Silver の RL コース「動的プログラミング計画」の 3 番目の講義の補足です。

まず、学習目標は次のとおりです。

政策評価と政策改善の違い、そしてこれらのプロセスがどのように相互作用するかを理解する
ポリシー反復アルゴリズムを理解する
価値反復アルゴリズムを理解する
動的プログラミング手法の限界を理解する

学習目標を設定すると、このチュートリアルで重要な概念も強調表示されます。

最後に、実践的な演習を紹介します。

大きな枠組みは設定されています。空白を埋める方法に集中するだけです。

標準的な回答は記事の最後に添付されています。

実装されたアルゴリズムのリスト

このチュートリアルでは、次のアルゴリズムの実装について説明します。

動的プログラミング戦略評価
動的プログラミング戦略の反復
動的プログラミング値の反復
モンテカルロ予測
イプシロン貪欲戦略のモンテカルロ制御
重要度サンプリングによるモンテカルロオフポリシー制御
SARSA（戦略TD学習）
Q学習（オフポリシーTD学習）
線形関数近似のためのQ学習
Atari ゲームのためのディープ Q 学習
Atari ゲーム向けデュアルディープ Q 学習
優先体験再生によるディープ Q 学習 (構築中)
政策勾配：ベースライン強化
ポリシー勾配: ベースラインアクタークリティックアルゴリズム
ポリシー勾配: 連続アクション空間を備えたベースラインアクタークリティックアルゴリズム
連続アクション空間における決定論的ポリシー勾配 (WIP)
DDPG（建設中）
非同期アドバンテージアクタークリティックアルゴリズム (A3C)

学習パスは非常に明確で、非常に質の高いリソースなので、評価してみませんか?

ポータル:

https://github.com/dennybritz/reinforcement-learning

<<: IoT、ビッグデータ、AIの現状はどうなっているのでしょうか？

>>: ZTEのインテリジェントビデオReIDアルゴリズムは大きな進歩を遂げ、3つの主要なデータセットで世界記録を更新しました。

GitHub Wanxing リソース: 強化学習アルゴリズムの実装、チュートリアルコード学習計画

明確な学習パス

実装されたアルゴリズムのリスト

AIは宇宙探査の商業化をどのように推進するのでしょうか?

2018 年の人工知能の予測を振り返ってみると、どれが現実になったのでしょうか?

AI革命はネットゼロデータセンターを終わらせるか？

トランスフォーマーのメンバー8人全員がGoogleに亡命！最後の共著者は今月末に自身のビジネスを始めるために退社する。

デジタル変革のケーススタディ: T-Mobile が AI を活用して顧客サービスをサポートする方法

Mojoプログラミング言語がダウンロード可能になりました。AI専用に設計されており、Pythonよりも68,000倍高速であると主張されています。

AIは自動車でも加速しており、メルセデス・ベンツは車載音声アシスタントをChatGPTチャットボットに接続すると発表した。

初めて人間を超えた！「絵を読んで意味を理解する」ことに関しては、AIは人間の目よりも優れている

高校生たちは皆ニューラルネットワークを勉強しており、教師である私は圧倒されています

推薦する

人工知能が人間の脳を再現できるかどうかは論争を巻き起こしている。米メディア「AIにはまだ限界がある」

DeepMind は、RL エージェントを簡単に作成できる効率的な分散強化学習アルゴリズムフレームワーク Acme をリリースしました。

時代の流れに乗り、華麗に変革を遂げる UiPath RPA が上海ノキアベルの新たな航海をサポートします。

ハッシュ長拡張攻撃に対して脆弱なアルゴリズム

これは本当に天才的ですね！パーセプトロンを組み合わせると、ニューラルネットワークになるのではないでしょうか。

企業向けローコードAI開発プラットフォーム

金融業界における AI とビッグデータのトップ 10 トレンド

鄒聖龍が初めて人工知能について公に語り、荀雷の将来の計画が明らかにされた

Microsoft が Copilot の統合バージョンをリリース、Windows、Edge、その他のプラットフォームにも近日登場

Google は、ロボットにゴミを捨てることを教えることができる視覚言語アクションモデル RT-2 をリリースしました。

[NCTS サミットレビュー] Li Yuanchun: 自動テストにおける強化学習の応用

アリババの顔認識セキュリティ技術が3Dマスク攻撃を防ぐ特許を取得

今後5年間のAI技術の発展と影響を展望する

ザッカーバーグは涙ながらに300人のチームを解散させた！ Meta、Google、その他の大手企業によるMetaverse OSをめぐる戦いが正式に始まったのでしょうか?