ゼロからヒーローへ、OpenAIが深層強化学習リソースをリリース

OpenAI は、誰でも深層強化学習に習熟できるように設計された教育リソース「Spinning Up」をリリースしました。 Spinning Up には、明確な RL コードの例、演習、ドキュメント、チュートリアルが含まれています。

OpenAI はプロジェクトのホームページで、Spinning Up の詳細な紹介、さまざまな環境でのインストール方法、含まれるアルゴリズム、実験的な実装のチュートリアルなど、非常に包括的なチュートリアルを提供しています。さらに、OpenAI は、強化学習の基礎入門、Spinning Up と組み合わせた RL の学習コース、論文の推奨事項、実験演習、ベンチマーク結果の参照など、豊富な学習教材も提供しています。第一印象は、深層強化学習でゼロからヒーローになりたいなら、毎日このウェブサイトにアクセスすればいいということです〜

プロジェクトアドレス: https://spinningup.openai.com/en/latest/

ディープラーニングへの第一歩

[[249339]]

OpenAI は、ディープラーニング、特に深層強化学習が強力な AI 技術の開発において中心的な役割を果たすと考えています。ディープラーニングをすぐに始めるためのリソースは多数ありますが、ディープ強化学習はより困難です。この目的のために、OpenAI は、人々がこれらの技術の使い方を学び、アイデアの一部を拡張できるように Spinning Up を設計しました。

OpenAI の Spinning Up の設計は、同機関の学者や研究者とのコラボレーションからヒントを得たもので、そのコラボレーションを通じて、機械学習の経験がほとんどない人でも、適切なガイダンスとリソースが与えられれば、すぐに実践者になれるということがわかったのです。 Deep RL で開発された Spinning Up はこの目的のために開発され、そのリソースは 2019 年の Scholars and Researchers チームのカリキュラムに組み込まれました (https://blog.openai.com/openai-scholars-2019/)。

OpenAI はまた、RL のスキルを持つことで、強化学習と他のスキルを組み合わせた AI 安全性などの学際的な研究分野に参加するのに役立つことも発見しました。 RL をゼロから学んでいる多くの人々が OpenAI にアドバイスを求めたため、OpenAI は提供している非公式のアドバイスを正式に公開することにしました。

Spinning Up には主に以下のコアコンテンツが含まれます。

さまざまなアルゴリズムと基本理論の直感的な理解を含む強化学習技術の入門。
強化学習研究をうまく行う方法に関するある程度の経験。
主題別に分類された重要な論文の実現。
さまざまな強化学習アルゴリズムの個別の実装。これらはすべて、非常によく文書化された導入部を備えています。
***ウォーミングアップの練習も行います。

プロジェクト全体は、主にユーザードキュメント、強化学習の紹介、リソース、アルゴリズムドキュメント、およびユーティリティドキュメントに分けられます。ユーザードキュメントでは、主にPythonやOpenAI Gymなどの強化学習環境のインストール方法、学習リソースの主な内容、実戦で注意すべき事項など、プロジェクトを学習するために必要な準備について紹介しています。

強化学習の紹介では、OpenAI は主に RL における主要な概念、主要なアルゴリズム、戦略の最適化について説明しました。この部分の内容に基づいて、少なくとも強化学習を明確に理解し、初心者から入門者レベルに正式に移行します。上級者には、導入後のリソースセクションが最適です。OpenAI ではまず、必要な背景知識、RL コードの書き方、強化学習の問題の考え方など、強化学習の研究の進め方を紹介します。もちろん、この部分では多くの「ハードリソース」も提供されます。OpenAI は、12 の主要な研究トピックに従って 98 の「必読」論文を提供し、その他の演習や課題もいくつか提供しています。

読者がリソース部分をマスターすれば、真の強化学習研究者になれると思います。もちろん、第 3 部のアルゴリズムのドキュメントをスキップして直接学習することもできます。このドキュメントには、ポリシー勾配、ポリシー最適化、Actor-Critic などのさまざまな主流の強化学習アルゴリズムが含まれています。最初の部分で前提条件の準備を完了していれば、第 3 部のさまざまなアルゴリズムを簡単に習得できます。さらに、各 RL アルゴリズムについて、基本的な考え方、数式と定理、モデルコンポーネントとパラメーターなどを含む包括的な概要がドキュメントに提供されます。

サポート

このプロジェクトには以下のサポートプランがあります。

高帯域幅ソフトウェアサポート期間: リリース後の最初の 3 週間に、OpenAI はバグ修正、インストールの問題に迅速に対処し、ドキュメント内のエラーや曖昧さを解決します。私たちは、ユーザーエクスペリエンスを簡素化し、Spinning Up での自習を可能な限り簡単にできるように努めていきます。
2019 年 4 月の大規模なレビュー: リリースから約 6 か月後、OpenAI は学習コミュニティから受け取ったフィードバックに基づいてパッケージの状態を慎重にレビューし、将来の変更の計画を発表します。
内部開発の公開: OpenAI が学者や研究者と協力しながら Spinning Up in Deep RL に変更を加えた場合は、OpenAI はその変更をパブリックリポジトリに公開し、誰でもすぐに利用できるようにします。

OpenAI は他の組織とも協力し、人々がこの資料の使い方を学ぶのを支援します。彼らの最初のパートナーはカリフォルニア大学バークレー校の Center for Human-compatible AI (CHAI) であり、2019 年初頭に OpenAI で計画されている Spinning Up ワークショップに似たディープ RL に関するワークショップで協力する予定です。

こんにちは世界

深層強化学習アルゴリズムのパフォーマンスを実感する最良の方法は、実際に実行してみることです。 Spinning Up を使用すると、これは非常に簡単になります。

python -m spinup.run ppo --env CartPole-v1 --exp_name hello_world

トレーニングの最後に、実験のデータを確認する方法と、トレーニングされたエージェントのビデオを視聴する方法についての説明が表示されます。

Spinning Up の実装は、Classic Control、Box2D、および MuJoCo タスクスイートの Gym 環境と互換性があります。

新しい学習者を念頭に置いて、Spinning Up のコードはより短く、より親しみやすく、より簡単に学習できるように設計しました。私たちの目標は、深層強化学習ライブラリによく見られる抽象化と難読化のレイヤーを回避し、最小限の実装を使用して理論をコードに変換する方法を示すことです。私たちはモジュール性よりも明快さを重視します。実装間のコードの再利用は、ログ記録と並列ユーティリティに厳密に制限されます。何が起こっているかを常に把握できるようにコードにコメントを付け、対応するドキュメントページに背景資料 (および疑似コード) を添えてサポートします。

学習リソースの概要

プロジェクト全体の中で、強化学習の導入部分とアルゴリズム部分は、ほとんどの読者が非常に興味を持っている章である可能性があります。以下では、主にこの 2 つの部分の内容を紹介します。まず、強化学習の紹介では、重要な概念を明確に説明する必要があります。

状態と観察;
アクションスペース;
戦略;
軌道;
さまざまな形態の報酬。
RL *** 問題;
価値関数。

主要な概念の説明の後、OpenAI はさまざまな強化学習アルゴリズムと、それらが全体像の中でどのような位置を占めるかについて詳しく説明します。以下に示すように、強化学習も世界中に多くの学生がいる大きなファミリーです。

***強化学習の導入において、OpenAI は戦略の最適化にも重点を置いています。これには多くの導出、特に勾配の導出が含まれます。しかし、良いニュースは、これらの導出ではすべて、変換、消去法、およびいくつかの対数技法を含む詳細なプロセスが示されていることです。読者は導出のプロセスを体感することができます。

さらに、Spinning Up ではアルゴリズムの章でも重要な強化学習アルゴリズムを多数取り上げており、プロジェクトページでは各アルゴリズムの詳しい紹介と呼び出し方法も提供しています。

Spinning Up に含まれるアルゴリズム。

たとえば、上の図に示すポリシー勾配アルゴリズムの場合、ドキュメントでは主要な方程式、疑似コード、使用方法、および参照が提供されます。

ポリシー勾配アルゴリズムの有限期間の割引なし報酬の勾配期待値と、ポリシーパラメータの勾配更新方法。

ポリシー勾配アルゴリズムの疑似コード。

ポリシー勾配アルゴリズムの呼び出し関数。Spinning Up によって提供される関数呼び出しによって、パラメータを直接設定できることがわかります。ドキュメントには詳細なパラメータの説明も記載されています。

ポリシー勾配アルゴリズムの参考資料。

Spinning Up は、HalfCheetah、Hopper、Walker2d、Swimmer、Ant を含む MuJoCo Gym タスクスイートの 5 つの環境でアルゴリズム実装ベンチマークを提供します。

HalfCheetah-2 環境でトレーニングされた 300 万時間ステップのベースライン結果。

<<: 今後数年間の AI テクノロジーの分野で最も注目される新しい方向性は何でしょうか?

>>: GoogleのオープンソースAIは92%の精度で音を区別できる