深層強化学習とは：次世代のAIと深層学習

[51CTO.com クイック翻訳] 強化学習は自律的な意思決定を実現するのに非常に適しています。対照的に、教師あり学習と教師なし学習の技術では、このタスクを独立して完了することはできません。強化学習は長い間、人工知能の分野でニッチな役割を果たしてきました。しかし、ここ数年、強化学習はさまざまな AI プロジェクトでますます重要な役割を果たすようになりました。その最も顕著なアプリケーションプラットフォームは、最善のアクションを判断する役割を担うコンピューティングエージェントのコンテキスト意思決定シナリオにあります。

強化学習は、試行錯誤を通じてアルゴリズムの報酬関数を最大化することで、IT 運用管理、エネルギー、ヘルスケア、ピア、金融、輸送、貿易などの分野で多数の適応制御およびマルチエージェント自動化アプリケーションを構築することができました。同社は、従来の重点分野（ロボット工学、ゲーム、シミュレーション）における AI ソリューションのトレーニングを担当しており、エッジ分析、自然言語処理、機械翻訳、コンピュータービジョン、デジタルアシスタントの分野で次世代の AI ソリューションを提供する能力を備えています。

[[219306]]

強化学習は、モノのインターネットにおける自律エッジアプリケーションの開発の前提条件にもなっています。産業、輸送、医療、消費者向けアプリケーションなどの分野では、ほとんどのエッジアプリケーション開発作業で、動的な環境におけるさまざまなコンテキスト情報に基づいて操作を自律的に完了できる AI 駆動型ロボットの構築が必要です。

強化学習の仕組み

このようなアプリケーションでは、エッジデバイスの AI ブレインは強化学習技術に頼る必要があります。より具体的には、事前に設定された「グラウンドトゥルース」トレーニングデータセットがない場合でも、報酬関数の蓄積を最大化できなければなりません。たとえば、仕様に含まれる一連の基準に基づいて問題の解決策を見つける必要があります。このアプローチは、教師あり学習（実際のデータに基づいてアルゴリズムの損失関数を最小化する）や教師なし学習（各データポイントに基づいて距離関数を最小化する）などの他の種類の AI 学習とは逆のものです。

ただし、AI 学習方法は必ずしも互いに分離されている必要はありません。 AI 開発における最も注目すべきトレンドの 1 つは、強化学習がさまざまな高度なアプリケーションで教師あり学習や教師なし学習と統合されていることです。 AI 開発者は、単一の学習方法では実現できない新たな高みに到達することを目指して、これらの方法をアプリケーションに統合する作業に取り組んでいます。

たとえば、教師あり学習自体は、ラベル付けされたトレーニングデータがなければ機能しません。これは、自動運転アプリケーションでは特に顕著です。それぞれの瞬間的な環境状況は本質的に独立して存在し、事前にラベル付けされていないため、学習方法は独自の解決策を見つける必要があります。同様に、クラスター分析を使用してセンサーフィードやその他の複雑なラベルなしデータのパターンを検出する教師なし学習では、スマートエンドポイントを正確に識別して、実際の意思決定シナリオで最善のアクションを実行することはできません。

深層強化学習とは何ですか?

次は深層強化学習です。これは、自律エージェントが強化学習の試行錯誤アルゴリズムと累積報酬関数を使用してニューラルネットワークの設計を加速する最先端のテクノロジです。これらの設計は、教師あり学習や教師なし学習に依存するさまざまな AI アプリケーションを大幅にサポートできます。

深層強化学習は、AI 開発およびトレーニングパイプラインにおける中核的な焦点領域となっています。強化学習を使用して、エージェントがさまざまなアーキテクチャ、ノードタイプ、接続、ハイパーパラメータ設定、ディープラーニング、機械学習、その他の AI モデルを迅速に探索し、設計者が使用できるようにこれらのオプションに関連するパフォーマンスのトレードオフを行います。

たとえば、研究者はディープラーニング強化学習を使用して、無数のディープラーニング畳み込みニューラルネットワーク (CNN) アーキテクチャの中から、現在の特徴エンジニアリング、コンピュータービジョン、画像分類タスクに最適なオプションを迅速に特定できます。深層強化学習によって提供される結果は、AI ツールによって最適な CNN を自動的に生成するために使用され、TensorFlow、MXNet、PyTorch などの深層学習開発ツールと連携して特定のタスクを完了できます。

この点において、強化学習の開発とトレーニングのためのオープンフレームワークが継続的に出現していることは、間違いなく喜ばしいことです。強化学習についてさらに詳しく知りたい場合は、次の強化学習フレームワークに注目する価値があります。これらのフレームワークを使用して拡張することで、TensorFlow やその他の広く使用されているディープラーニングおよび機械学習モデリングツールと接続できるようになります。

強化学習フレームワーク

具体的な機能と入手方法

TensorFlow Agents: TensorFlow Agents は、強化学習を使用してインテリジェントアプリケーションを構築およびトレーニングするためのツールを提供します。 TensorFlow プロジェクトの拡張として、このフレームワークは OpoenAI Gym インターフェースを複数の並列環境に拡張し、各エージェントを TensorFlow 内に実装してバッチ計算を実行できるようにします。 OpoenAI Gy 環境用のバッチインターフェースは TensorFlow と完全に統合でき、さまざまなアルゴリズムを効率的に実行できます。このフレームワークは、最適化された近接ポリシー最適化アルゴリズムの実装のセットである BatchPPO とも組み合わせられます。そのコアコンポーネントには、外部プロセスで OpenAI Gym 環境を構築するための環境パッケージャー、TensorFlow グラフステップを実装し、強化学習操作として関数を再実装するためのバッチ統合、および TensorFlow グラフバッチ処理と強化学習アルゴリズムをトレーニングプロセス内の 1 つのステップに組み込むための追加コンポーネントが含まれます。

Ray RLLib: RLLib は、さまざまなアプリケーションシナリオ向けのエージェントベースの強化学習アプリケーションを構築するための、柔軟なタスクベースのプログラミングモデルを提供します。 RLLib はバークレー大学によって開発され、現在は Ray 上で動作するバージョン 2 になっています。 Ray は、柔軟で高性能な分散実行フレームワークです。 RLLib 開発チームのメンバーの 1 人が、かつて Apache Spark の主な作成者を務めていたことは特筆に値します。

RLLib は TensorFlow および PyTorch フレームワーク内で動作し、異なるアルゴリズム間でのモデル共有を可能にし、Ray Tune ハイパーパラメータ調整ツールと統合できます。このフレームワークは、構成可能かつ拡張可能な標準強化学習コンポーネントのライブラリと組み合わされています。 RLLib コンポーネントは、分散アプリケーションで並列化、拡張、結合、再利用できます。

RLLib には、Proximal Policy Optimization (PPO)、Asynchronous Advantage Actor-Critic (A3C)、Deep Q Networks (DQN) の 3 つの強化学習アルゴリズムが含まれており、これらはすべて OpenAI Gym のマルコフ決定プロセスで実行できます。また、新しいアルゴリズムの開発のための拡張可能なプリミティブ、RLLib を新しい問題に適用するための Python API、プロキシハイパーパラメータ設定のライブラリ、さまざまなプラグ可能な分散強化学習実行戦略も提供します。また、ユーザーによるカスタム強化学習アルゴリズムの作成もサポートします。

Roboschool: Roboschool は、強化学習を使用してロボットシミュレーションを構築およびトレーニングするためのオープンソースソフトウェアを提供します。同じ環境で強化学習を行うために複数のエージェントをトレーニングするのに役立ちます。マルチパーティトレーニングメカニズムを使用すると、同じエージェントを 2 人のプレイヤーとしてトレーニングしたり (つまり、エージェント自身と対戦したり)、同じアルゴリズムを使用して 2 セットのエージェントをトレーニングしたり、2 つのアルゴリズムを設定して互いに対戦したりすることができます。

Roboschoolは、イーロン・マスク、サム・アルトマン、リード・ホフマン、ピーター・ティールらが支援する非営利団体OpenAIによって開発された。これは、強化学習アルゴリズムの開発と評価のためのオープンソースツールセットである OpenAI Gym と統合されています。 OpenAI Gym は、TensorFlow、Theano、その他多くのディープラーニングライブラリと互換性があります。 OpenAI Gym には、数値計算、ゲーム、物理エンジン用のコードが含まれています。

Roboschool は、Gazebo や Virtual Robot Experimentation Platform (V-REP) などのさまざまなシミュレーションソフトウェアで使用される、オープンソースライセンスの物理ライブラリである Bullet 物理エンジンに基づいています。これには、非同期深層強化学習法、Experience Replay を使用した Actor-Critic、Kronecker-Factored Trust Region を使用した Actor-Critic、深層決定論的ポリシー勾配、近接ポリシー最適化、信頼領域ポリシー最適化など、さまざまな強化学習アルゴリズムが含まれています。

機械学習エージェント:まだベータ版ではありますが、Unity Technology の機械学習エージェントにより、ゲーム、シミュレーション、自律走行車、ロボット工学向けのインテリジェントエージェントの開発と強化学習トレーニングがすでに可能になっています。 ML-Agents は、さまざまなエージェント、ブレイン、報酬メカニズムの構成と相互作用を含む、さまざまな強化学習トレーニングシナリオをサポートします。フレームワークの SDK は、単一エージェントとマルチエージェントのシナリオ、および個別および連続的な操作スペースをサポートします。強化学習、ニューロ進化、その他の機械学習手法にアクセスするための Python API を提供します。

ML-Agents 学習環境は、自動化コンポーネント (「頭脳」) と対話して実行を実現する多数のエージェントで構成されています。各エージェントは独自の状態と観察のセットを持ち、環境内で特定のアクションを実行し、環境内のイベントに関連付けられた独自の報酬を受け取ることができます。エージェントの動作は、それが接続されている脳によって決定されます。各ブレインは、特定の状態とアクション空間を定義し、それに接続された各エージェントが実行すべきアクションを決定する役割を担っています。

さらに、各 ML-Agents 環境には、環境の範囲を定義する個別の「アカデミー」が含まれています。具体的には、エンジン構成 (トレーニングモードと推論モードの両方でのゲームエンジンの速度とレンダリング品質)、フレームレート (各エージェントが新しい決定を行う間にスキップするエンジンステップの数)、およびグローバルイベントの長さ (イベントの継続時間) です。

脳に設定できるさまざまなモードのうち、最も注目すべきは外部モードです。このモードでは、TensorFlow または選択した他の機械学習ライブラリを使用して操作上の決定が行われ、ML-Agents Python API を使用したオープンソケットを通じて通信が実現されます。同様に、内部モードでのエージェント操作の決定は、TensorFlowSharp エージェントアクセスプロジェクトに組み込まれた事前トレーニング済みモデルのセットを使用して行われます。

Coach: Intel の Nervana Coach は、ゲーム、ロボット工学、その他のエージェントベースのインテリジェントアプリケーション向けのインテリジェントエージェントをモデリング、トレーニング、評価するためのオープンソースの強化学習フレームワークです。

Coach は、新しい強化学習アルゴリズムを作成し、さまざまなアプリケーションドメインで新しいインテリジェントアプリケーションをトレーニングするための、モジュール式サンドボックス、再利用可能なコンポーネント、および Python API のセットを提供します。このフレームワークは、さまざまな強化学習環境とのやり取りを担当する主要なツールとして OpenAI Gym を使用します。また、Roboschool、gym-extensions、PyBullet、ViZDoom などの他の外部拡張機能もサポートしています。 Coach の環境パッケージを使用すると、ユーザーはカスタム強化学習環境を追加して、他の学習問題を解決できます。

このフレームワークは、デスクトップコンピューター上で強化学習エージェントを効率的にトレーニングし、マルチコア CPU を活用して関連タスクを処理できます。非同期アドバンテージアクタークリティック、ディープデターミニスティックポリシーグラディエント、近接ポリシー最適化、直接未来予測、正規化アドバンテージ関数など、いくつかの強化学習アルゴリズムに対して、シングルスレッドおよびマルチスレッドの実装機能を提供できます。すべてのアルゴリズムは、Intel システム向けに最適化された TensorFlow を使用して実装されており、一部のアルゴリズムは Intel の Neon ディープラーニングフレームワークにも適用できます。

Coach には、シングルスレッド実装からマルチスレッド実装への移行を含む、複数の強化学習エージェント実装が含まれています。これにより、単一ワーカーと複数ワーカー (同期または非同期) の両方の強化学習実装をサポートする新しいエージェントの開発が可能になります。さらに、連続アクション空間と離散アクション空間の両方をサポートし、視覚観察空間や生の測定値のみを含む観察空間もサポートします。

AI開発者が習得すべき強化学習スキル

今後、AI 開発者は上記のフレームワークと、その中で使用されるさまざまな強化学習アルゴリズムを可能な限り習得する必要があります。さらに、これらのフレームワークの多くは最先端のゲーム理論の研究結果を広範に活用しているため、マルチエージェント強化学習アーキテクチャについての理解を深める必要があります。最後に、深層強化学習に精通し、それを使用してコンピュータービジョンアプリケーションにおける「ファジング」攻撃や関連するセキュリティの脆弱性を発見する必要もあります。

AIに関するその他のコンテンツについては、公式アカウント「AI Pusher」をフォローしてください。

[51CTOによる翻訳。パートナーサイトに転載する場合は、元の翻訳者と出典を51CTO.comとして明記してください]

<<: Python とディープニューラルネットワークを使用して画像を認識する方法は?

>>: 基礎 | 機械学習におけるロジスティック回帰、決定木、ニューラルネットワークアルゴリズムの理解