OpenAI は、誰でも深層強化学習に習熟できるように設計された教育リソース「Spinning Up」をリリースしました。 Spinning Up には、明確な RL コードの例、演習、ドキュメント、チュートリアルが含まれています。 OpenAI はプロジェクトのホームページで、Spinning Up の詳細な紹介、さまざまな環境でのインストール方法、含まれるアルゴリズム、実験的な実装のチュートリアルなど、非常に包括的なチュートリアルを提供しています。さらに、OpenAI は、強化学習の基礎入門、Spinning Up と組み合わせた RL の学習コース、論文の推奨事項、実験演習、ベンチマーク結果の参照など、豊富な学習教材も提供しています。第一印象は、深層強化学習でゼロからヒーローになりたいなら、毎日このウェブサイトにアクセスすればいいということです〜 プロジェクトアドレス: https://spinningup.openai.com/en/latest/ ディープラーニングへの第一歩 OpenAI は、ディープラーニング、特に深層強化学習が強力な AI 技術の開発において中心的な役割を果たすと考えています。ディープラーニングをすぐに始めるためのリソースは多数ありますが、ディープ強化学習はより困難です。この目的のために、OpenAI は、人々がこれらの技術の使い方を学び、アイデアの一部を拡張できるように Spinning Up を設計しました。 OpenAI の Spinning Up の設計は、同機関の学者や研究者とのコラボレーションからヒントを得たもので、そのコラボレーションを通じて、機械学習の経験がほとんどない人でも、適切なガイダンスとリソースが与えられれば、すぐに実践者になれるということがわかったのです。 Deep RL で開発された Spinning Up はこの目的のために開発され、そのリソースは 2019 年の Scholars and Researchers チームのカリキュラムに組み込まれました (https://blog.openai.com/openai-scholars-2019/)。 OpenAI はまた、RL のスキルを持つことで、強化学習と他のスキルを組み合わせた AI 安全性などの学際的な研究分野に参加するのに役立つことも発見しました。 RL をゼロから学んでいる多くの人々が OpenAI にアドバイスを求めたため、OpenAI は提供している非公式のアドバイスを正式に公開することにしました。 Spinning Up には主に以下のコアコンテンツが含まれます。
プロジェクト全体は、主にユーザー ドキュメント、強化学習の紹介、リソース、アルゴリズム ドキュメント、およびユーティリティ ドキュメントに分けられます。ユーザードキュメントでは、主にPythonやOpenAI Gymなどの強化学習環境のインストール方法、学習リソースの主な内容、実戦で注意すべき事項など、プロジェクトを学習するために必要な準備について紹介しています。 強化学習の紹介では、OpenAI は主に RL における主要な概念、主要なアルゴリズム、戦略の最適化について説明しました。この部分の内容に基づいて、少なくとも強化学習を明確に理解し、初心者から入門者レベルに正式に移行します。上級者には、導入後のリソース セクションが最適です。OpenAI ではまず、必要な背景知識、RL コードの書き方、強化学習の問題の考え方など、強化学習の研究の進め方を紹介します。もちろん、この部分では多くの「ハードリソース」も提供されます。OpenAI は、12 の主要な研究トピックに従って 98 の「必読」論文を提供し、その他の演習や課題もいくつか提供しています。 読者がリソース部分をマスターすれば、真の強化学習研究者になれると思います。もちろん、第 3 部のアルゴリズムのドキュメントをスキップして直接学習することもできます。このドキュメントには、ポリシー勾配、ポリシー最適化、Actor-Critic などのさまざまな主流の強化学習アルゴリズムが含まれています。最初の部分で前提条件の準備を完了していれば、第 3 部のさまざまなアルゴリズムを簡単に習得できます。さらに、各 RL アルゴリズムについて、基本的な考え方、数式と定理、モデル コンポーネントとパラメーターなどを含む包括的な概要がドキュメントに提供されます。 サポート このプロジェクトには以下のサポートプランがあります。
OpenAI は他の組織とも協力し、人々がこの資料の使い方を学ぶのを支援します。彼らの最初のパートナーはカリフォルニア大学バークレー校の Center for Human-compatible AI (CHAI) であり、2019 年初頭に OpenAI で計画されている Spinning Up ワークショップに似たディープ RL に関するワークショップで協力する予定です。 こんにちは世界 深層強化学習アルゴリズムのパフォーマンスを実感する最良の方法は、実際に実行してみることです。 Spinning Up を使用すると、これは非常に簡単になります。 python -m spinup.run ppo --env CartPole-v1 --exp_name hello_world トレーニングの最後に、実験のデータを確認する方法と、トレーニングされたエージェントのビデオを視聴する方法についての説明が表示されます。 Spinning Up の実装は、Classic Control、Box2D、および MuJoCo タスク スイートの Gym 環境と互換性があります。 新しい学習者を念頭に置いて、Spinning Up のコードはより短く、より親しみやすく、より簡単に学習できるように設計しました。私たちの目標は、深層強化学習ライブラリによく見られる抽象化と難読化のレイヤーを回避し、最小限の実装を使用して理論をコードに変換する方法を示すことです。私たちはモジュール性よりも明快さを重視します。実装間のコードの再利用は、ログ記録と並列ユーティリティに厳密に制限されます。何が起こっているかを常に把握できるようにコードにコメントを付け、対応するドキュメント ページに背景資料 (および疑似コード) を添えてサポートします。 学習リソースの概要 プロジェクト全体の中で、強化学習の導入部分とアルゴリズム部分は、ほとんどの読者が非常に興味を持っている章である可能性があります。以下では、主にこの 2 つの部分の内容を紹介します。まず、強化学習の紹介では、重要な概念を明確に説明する必要があります。
主要な概念の説明の後、OpenAI はさまざまな強化学習アルゴリズムと、それらが全体像の中でどのような位置を占めるかについて詳しく説明します。以下に示すように、強化学習も世界中に多くの学生がいる大きなファミリーです。 ***強化学習の導入において、OpenAI は戦略の最適化にも重点を置いています。これには多くの導出、特に勾配の導出が含まれます。しかし、良いニュースは、これらの導出ではすべて、変換、消去法、およびいくつかの対数技法を含む詳細なプロセスが示されていることです。読者は導出のプロセスを体感することができます。 さらに、Spinning Up ではアルゴリズムの章でも重要な強化学習アルゴリズムを多数取り上げており、プロジェクトページでは各アルゴリズムの詳しい紹介と呼び出し方法も提供しています。 Spinning Up に含まれるアルゴリズム。 たとえば、上の図に示すポリシー勾配アルゴリズムの場合、ドキュメントでは主要な方程式、疑似コード、使用方法、および参照が提供されます。 ポリシー勾配アルゴリズムの有限期間の割引なし報酬の勾配期待値と、ポリシーパラメータの勾配更新方法。 ポリシー勾配アルゴリズムの疑似コード。 ポリシー勾配アルゴリズムの呼び出し関数。Spinning Up によって提供される関数呼び出しによって、パラメータを直接設定できることがわかります。ドキュメントには詳細なパラメータの説明も記載されています。 ポリシー勾配アルゴリズムの参考資料。 Spinning Up は、HalfCheetah、Hopper、Walker2d、Swimmer、Ant を含む MuJoCo Gym タスク スイートの 5 つの環境でアルゴリズム実装ベンチマークを提供します。 HalfCheetah-2 環境でトレーニングされた 300 万時間ステップのベースライン結果。 |
<<: 今後数年間の AI テクノロジーの分野で最も注目される新しい方向性は何でしょうか?
>>: GoogleのオープンソースAIは92%の精度で音を区別できる
[[392244]] 4月9日午後3時、「初の顔認識事件」は杭州市中級人民法院で二審判決を受けた。こ...
「人類は2030年までにAGIを開発するかもしれない。」サム・アルトマンは最近のポッドキャストのイ...
編集者 | ヤン・ジェン現地時間1月25日、OpenAIは新モデルをリリースし、GPT-3.5 Tu...
[[397251]]画像ソース: https://pixabay.com/images/id-610...
この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...
新しい報告によると、私たちは人工知能革命の瀬戸際に立っている。この革命において、私たちが作り出すテク...
[[121950]]多くは語りません。次に、この記事の主題であるソートアルゴリズムについて説明しまし...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
バージニア大学のダン・クイン教授と博士研究員のゾン・チアン氏は、生体力学、流体力学、ロボット工学を組...
注意ベースのモデルの代替として、純粋な MLP アーキテクチャがますます注目を集めています。 NLP...
顔認識技術がさまざまな分野で持つ大きな可能性は、ほとんど想像できないほどです。ただし、使用する前に、...
[[189448]]以下は、ニューラル ネットワーク モデルにおける 4 つのシーケンス デコード ...
[[311763]]人工知能はもはや、いつか世界を変える準備をしているのではなく、すでに世界を変えて...
著者: トーマス・クラバーン編纂者:ヤン・ジェン制作:51CTO テクノロジースタック(WeChat...