[51CTO.com クイック翻訳] 強化学習は自律的な意思決定を実現するのに非常に適しています。対照的に、教師あり学習と教師なし学習の技術では、このタスクを独立して完了することはできません。強化学習は長い間、人工知能の分野でニッチな役割を果たしてきました。しかし、ここ数年、強化学習はさまざまな AI プロジェクトでますます重要な役割を果たすようになりました。その最も顕著なアプリケーション プラットフォームは、最善のアクションを判断する役割を担うコンピューティング エージェントのコンテキスト意思決定シナリオにあります。 強化学習は、試行錯誤を通じてアルゴリズムの報酬関数を最大化することで、IT 運用管理、エネルギー、ヘルスケア、ピア、金融、輸送、貿易などの分野で多数の適応制御およびマルチエージェント自動化アプリケーションを構築することができました。同社は、従来の重点分野(ロボット工学、ゲーム、シミュレーション)における AI ソリューションのトレーニングを担当しており、エッジ分析、自然言語処理、機械翻訳、コンピューター ビジョン、デジタル アシスタントの分野で次世代の AI ソリューションを提供する能力を備えています。
強化学習は、モノのインターネットにおける自律エッジ アプリケーションの開発の前提条件にもなっています。産業、輸送、医療、消費者向けアプリケーションなどの分野では、ほとんどのエッジ アプリケーション開発作業で、動的な環境におけるさまざまなコンテキスト情報に基づいて操作を自律的に完了できる AI 駆動型ロボットの構築が必要です。 強化学習の仕組みこのようなアプリケーションでは、エッジ デバイスの AI ブレインは強化学習技術に頼る必要があります。より具体的には、事前に設定された「グラウンド トゥルース」トレーニング データ セットがない場合でも、報酬関数の蓄積を最大化できなければなりません。たとえば、仕様に含まれる一連の基準に基づいて問題の解決策を見つける必要があります。このアプローチは、教師あり学習(実際のデータに基づいてアルゴリズムの損失関数を最小化する)や教師なし学習(各データ ポイントに基づいて距離関数を最小化する)などの他の種類の AI 学習とは逆のものです。 ただし、AI 学習方法は必ずしも互いに分離されている必要はありません。 AI 開発における最も注目すべきトレンドの 1 つは、強化学習がさまざまな高度なアプリケーションで教師あり学習や教師なし学習と統合されていることです。 AI 開発者は、単一の学習方法では実現できない新たな高みに到達することを目指して、これらの方法をアプリケーションに統合する作業に取り組んでいます。 たとえば、教師あり学習自体は、ラベル付けされたトレーニング データがなければ機能しません。これは、自動運転アプリケーションでは特に顕著です。それぞれの瞬間的な環境状況は本質的に独立して存在し、事前にラベル付けされていないため、学習方法は独自の解決策を見つける必要があります。同様に、クラスター分析を使用してセンサーフィードやその他の複雑なラベルなしデータのパターンを検出する教師なし学習では、スマートエンドポイントを正確に識別して、実際の意思決定シナリオで最善のアクションを実行することはできません。 深層強化学習とは何ですか?次は深層強化学習です。これは、自律エージェントが強化学習の試行錯誤アルゴリズムと累積報酬関数を使用してニューラル ネットワークの設計を加速する最先端のテクノロジです。これらの設計は、教師あり学習や教師なし学習に依存するさまざまな AI アプリケーションを大幅にサポートできます。 深層強化学習は、AI 開発およびトレーニング パイプラインにおける中核的な焦点領域となっています。強化学習を使用して、エージェントがさまざまなアーキテクチャ、ノード タイプ、接続、ハイパーパラメータ設定、ディープラーニング、機械学習、その他の AI モデルを迅速に探索し、設計者が使用できるようにこれらのオプションに関連するパフォーマンスのトレードオフを行います。 たとえば、研究者はディープラーニング強化学習を使用して、無数のディープラーニング畳み込みニューラル ネットワーク (CNN) アーキテクチャの中から、現在の特徴エンジニアリング、コンピューター ビジョン、画像分類タスクに最適なオプションを迅速に特定できます。深層強化学習によって提供される結果は、AI ツールによって最適な CNN を自動的に生成するために使用され、TensorFlow、MXNet、PyTorch などの深層学習開発ツールと連携して特定のタスクを完了できます。 この点において、強化学習の開発とトレーニングのためのオープン フレームワークが継続的に出現していることは、間違いなく喜ばしいことです。強化学習についてさらに詳しく知りたい場合は、次の強化学習フレームワークに注目する価値があります。これらのフレームワークを使用して拡張することで、TensorFlow やその他の広く使用されているディープラーニングおよび機械学習モデリング ツールと接続できるようになります。 強化学習フレームワーク具体的な機能と入手方法 TensorFlow Agents: TensorFlow Agents は、強化学習を使用してインテリジェント アプリケーションを構築およびトレーニングするためのツールを提供します。 TensorFlow プロジェクトの拡張として、このフレームワークは OpoenAI Gym インターフェースを複数の並列環境に拡張し、各エージェントを TensorFlow 内に実装してバッチ計算を実行できるようにします。 OpoenAI Gy 環境用のバッチ インターフェースは TensorFlow と完全に統合でき、さまざまなアルゴリズムを効率的に実行できます。このフレームワークは、最適化された近接ポリシー最適化アルゴリズムの実装のセットである BatchPPO とも組み合わせられます。そのコア コンポーネントには、外部プロセスで OpenAI Gym 環境を構築するための環境パッケージャー、TensorFlow グラフ ステップを実装し、強化学習操作として関数を再実装するためのバッチ統合、および TensorFlow グラフ バッチ処理と強化学習アルゴリズムをトレーニング プロセス内の 1 つのステップに組み込むための追加コンポーネントが含まれます。 Ray RLLib: RLLib は、さまざまなアプリケーション シナリオ向けのエージェント ベースの強化学習アプリケーションを構築するための、柔軟なタスクベースのプログラミング モデルを提供します。 RLLib はバークレー大学によって開発され、現在は Ray 上で動作するバージョン 2 になっています。 Ray は、柔軟で高性能な分散実行フレームワークです。 RLLib 開発チームのメンバーの 1 人が、かつて Apache Spark の主な作成者を務めていたことは特筆に値します。 RLLib は TensorFlow および PyTorch フレームワーク内で動作し、異なるアルゴリズム間でのモデル共有を可能にし、Ray Tune ハイパーパラメータ調整ツールと統合できます。このフレームワークは、構成可能かつ拡張可能な標準強化学習コンポーネントのライブラリと組み合わされています。 RLLib コンポーネントは、分散アプリケーションで並列化、拡張、結合、再利用できます。 RLLib には、Proximal Policy Optimization (PPO)、Asynchronous Advantage Actor-Critic (A3C)、Deep Q Networks (DQN) の 3 つの強化学習アルゴリズムが含まれており、これらはすべて OpenAI Gym のマルコフ決定プロセスで実行できます。また、新しいアルゴリズムの開発のための拡張可能なプリミティブ、RLLib を新しい問題に適用するための Python API、プロキシハイパーパラメータ設定のライブラリ、さまざまなプラグ可能な分散強化学習実行戦略も提供します。また、ユーザーによるカスタム強化学習アルゴリズムの作成もサポートします。 Roboschool: Roboschool は、強化学習を使用してロボットシミュレーションを構築およびトレーニングするためのオープンソースソフトウェアを提供します。同じ環境で強化学習を行うために複数のエージェントをトレーニングするのに役立ちます。マルチパーティ トレーニング メカニズムを使用すると、同じエージェントを 2 人のプレイヤーとしてトレーニングしたり (つまり、エージェント自身と対戦したり)、同じアルゴリズムを使用して 2 セットのエージェントをトレーニングしたり、2 つのアルゴリズムを設定して互いに対戦したりすることができます。 Roboschoolは、イーロン・マスク、サム・アルトマン、リード・ホフマン、ピーター・ティールらが支援する非営利団体OpenAIによって開発された。これは、強化学習アルゴリズムの開発と評価のためのオープンソース ツールセットである OpenAI Gym と統合されています。 OpenAI Gym は、TensorFlow、Theano、その他多くのディープラーニング ライブラリと互換性があります。 OpenAI Gym には、数値計算、ゲーム、物理エンジン用のコードが含まれています。 Roboschool は、Gazebo や Virtual Robot Experimentation Platform (V-REP) などのさまざまなシミュレーション ソフトウェアで使用される、オープン ソース ライセンスの物理ライブラリである Bullet 物理エンジンに基づいています。これには、非同期深層強化学習法、Experience Replay を使用した Actor-Critic、Kronecker-Factored Trust Region を使用した Actor-Critic、深層決定論的ポリシー勾配、近接ポリシー最適化、信頼領域ポリシー最適化など、さまざまな強化学習アルゴリズムが含まれています。 機械学習エージェント:まだベータ版ではありますが、Unity Technology の機械学習エージェントにより、ゲーム、シミュレーション、自律走行車、ロボット工学向けのインテリジェントエージェントの開発と強化学習トレーニングがすでに可能になっています。 ML-Agents は、さまざまなエージェント、ブレイン、報酬メカニズムの構成と相互作用を含む、さまざまな強化学習トレーニング シナリオをサポートします。フレームワークの SDK は、単一エージェントとマルチエージェントのシナリオ、および個別および連続的な操作スペースをサポートします。強化学習、ニューロ進化、その他の機械学習手法にアクセスするための Python API を提供します。 ML-Agents 学習環境は、自動化コンポーネント (「頭脳」) と対話して実行を実現する多数のエージェントで構成されています。各エージェントは独自の状態と観察のセットを持ち、環境内で特定のアクションを実行し、環境内のイベントに関連付けられた独自の報酬を受け取ることができます。エージェントの動作は、それが接続されている脳によって決定されます。各ブレインは、特定の状態とアクション空間を定義し、それに接続された各エージェントが実行すべきアクションを決定する役割を担っています。 さらに、各 ML-Agents 環境には、環境の範囲を定義する個別の「アカデミー」が含まれています。具体的には、エンジン構成 (トレーニング モードと推論モードの両方でのゲーム エンジンの速度とレンダリング品質)、フレーム レート (各エージェントが新しい決定を行う間にスキップするエンジン ステップの数)、およびグローバル イベントの長さ (イベントの継続時間) です。 脳に設定できるさまざまなモードのうち、最も注目すべきは外部モードです。このモードでは、TensorFlow または選択した他の機械学習ライブラリを使用して操作上の決定が行われ、ML-Agents Python API を使用したオープンソケットを通じて通信が実現されます。同様に、内部モードでのエージェント操作の決定は、TensorFlowSharp エージェント アクセス プロジェクトに組み込まれた事前トレーニング済みモデルのセットを使用して行われます。 Coach: Intel の Nervana Coach は、ゲーム、ロボット工学、その他のエージェントベースのインテリジェント アプリケーション向けのインテリジェント エージェントをモデリング、トレーニング、評価するためのオープン ソースの強化学習フレームワークです。 Coach は、新しい強化学習アルゴリズムを作成し、さまざまなアプリケーション ドメインで新しいインテリジェント アプリケーションをトレーニングするための、モジュール式サンドボックス、再利用可能なコンポーネント、および Python API のセットを提供します。このフレームワークは、さまざまな強化学習環境とのやり取りを担当する主要なツールとして OpenAI Gym を使用します。また、Roboschool、gym-extensions、PyBullet、ViZDoom などの他の外部拡張機能もサポートしています。 Coach の環境パッケージを使用すると、ユーザーはカスタム強化学習環境を追加して、他の学習問題を解決できます。 このフレームワークは、デスクトップ コンピューター上で強化学習エージェントを効率的にトレーニングし、マルチコア CPU を活用して関連タスクを処理できます。非同期アドバンテージ アクター クリティック、ディープ デターミニスティック ポリシー グラディエント、近接ポリシー最適化、直接未来予測、正規化アドバンテージ関数など、いくつかの強化学習アルゴリズムに対して、シングル スレッドおよびマルチ スレッドの実装機能を提供できます。すべてのアルゴリズムは、Intel システム向けに最適化された TensorFlow を使用して実装されており、一部のアルゴリズムは Intel の Neon ディープラーニング フレームワークにも適用できます。 Coach には、シングルスレッド実装からマルチスレッド実装への移行を含む、複数の強化学習エージェント実装が含まれています。これにより、単一ワーカーと複数ワーカー (同期または非同期) の両方の強化学習実装をサポートする新しいエージェントの開発が可能になります。さらに、連続アクション空間と離散アクション空間の両方をサポートし、視覚観察空間や生の測定値のみを含む観察空間もサポートします。 AI開発者が習得すべき強化学習スキル今後、AI 開発者は上記のフレームワークと、その中で使用されるさまざまな強化学習アルゴリズムを可能な限り習得する必要があります。さらに、これらのフレームワークの多くは最先端のゲーム理論の研究結果を広範に活用しているため、マルチエージェント強化学習アーキテクチャについての理解を深める必要があります。最後に、深層強化学習に精通し、それを使用してコンピューター ビジョン アプリケーションにおける「ファジング」攻撃や関連するセキュリティの脆弱性を発見する必要もあります。 AIに関するその他のコンテンツについては、公式アカウント「AI Pusher」をフォローしてください。 [51CTOによる翻訳。パートナーサイトに転載する場合は、元の翻訳者と出典を51CTO.comとして明記してください] |
<<: Python とディープニューラルネットワークを使用して画像を認識する方法は?
>>: 基礎 | 機械学習におけるロジスティック回帰、決定木、ニューラル ネットワーク アルゴリズムの理解
[[230933]] 1年前に設立されたインテルAIラボは最近、新たな動きを見せている。数日前、In...
編纂者 | Yan Zheng制作:51CTO テクノロジースタック(WeChat ID:blog)...
アドリアン・トゥルイユ翻訳者 | ブガッティ校正 | Chonglou制作:51CTO テクノロジー...
誕生から2か月も経たないうちに、アリババの物流ロボット「小曼路」が稼働を開始した。 10月30日、小...
[51CTO.comより引用] 時代のトレンドである最先端技術として、人工知能はニュースという形で人...
一拍遅ければそれは「人工的な愚かさ」であり、一歩遅れればそれは「知的な人工性」であり、一歩速ければそ...
北京時間4月16日、外国メディアの報道によると、ロボットが人間の仕事を代替するというのはSF映画のス...
イーロン・マスク氏は、人工知能が人類にもたらす避けられない課題に対処するためには、人間が機械と「つな...
学習と進化ご存知のとおり、量子という概念は120年前にドイツの物理学者プランクによって提唱されました...
米国にある世界トップクラスの原子力研究所の一つが最近、大きな問題に直面している。データベースがハッキ...
[[385597]]中国時報(www.chinatimes.net.cn)記者の翟延安が北京から報告...
現代の産業環境にはセンサーやスマート コンポーネントが満載されており、それらすべてが組み合わさって大...
2つの生体認証技術は顔認証と指紋認証です。実験では、両方ともモバイルデバイスを通じて実装され、2つ...
研究結果をブログのネタとして使うことに慣れていないのですが、次の点に注目しました。Vulcan Cy...