強化学習は機械学習のサブセットであり、エージェントが特定の環境で特定のアクションを実行した場合の結果を理解できるようにします。現在、かなりの数のロボットが強化学習を利用してさまざまな新しい能力を獲得しています。
強化学習は、アルゴリズムがデータ分析フィードバックを提供し、ユーザーが徐々に最良の結果を得られるよう導く行動学習モデルです。 サンプルデータセットを使用して機械モデルをトレーニングするさまざまな種類の教師あり学習とは異なり、強化学習は試行錯誤を通じてコツを学習しようとします。一連の正しい決定を通じて、モデル自体は徐々に強化され、問題を解決するためのより良い方法をゆっくりと習得していきます。 強化学習は、人間の乳児や幼児の学習プロセスと非常によく似ています。私たち一人ひとりの成長は、このような学習強化と切り離せないものです。何度も転び、両親の助けを借りて、ようやく立ち上がることができるのです。 これは経験に基づく学習プロセスであり、機械は試行錯誤を繰り返しながら、最終的に正しい解決策を見つけます。 マシン モデルに最も基本的な「ゲームのルール」を提供するだけでよく、残りは完全にモデルが独自に探索することになります。このモデルはランダムな試行から始まり、段階的に独自の複雑な戦術を構築し、無数の試行を通じてタスクを完了し、報酬を獲得します。 強化学習はロボットの想像力を養うための重要な方法の一つになっていることがわかりました。普通の人間とは異なり、人工知能は何千ものゲームラウンドから知識を蓄積し、強力なコンピューター インフラストラクチャがそのようなモデルに信頼性の高い計算能力のサポートを提供します。 YouTube のビデオは、強化学習の実際の例です。現在のビデオを視聴した後、プラットフォームはあなたが興味を持つと思われる類似コンテンツを表示します。推奨された動画をクリックしても最後まで視聴しなかった場合、機械は推奨を失敗とみなし、次回は別の推奨方法を試します。 強化学習の課題 強化学習が直面する主な課題は、環境を大規模にシミュレートする方法です。シミュレーション環境は、実行されるタスクによって大きく決まります。チェス、囲碁、Atari ゲームを例に挙げてみましょう。これらのシミュレーション環境は比較的シンプルで構築も簡単です。しかし、同じ方法を使って安全で信頼性の高い自動運転車を訓練するには、突然の歩行者や衝突事故を引き起こす可能性のあるさまざまな要因を導入した、非常に現実的な路上プロトタイプ環境を作成する必要があります。シミュレーションの度合いが十分に高くない場合、モデルがトレーニング環境から実際のシーンに転送された後に一連の問題が発生します。 もう一つの課題は、エージェントのニューラル ネットワークをどのように拡張および変更するかです。報酬とペナルティ以外に、このネットワークに接続する方法はありません。これにより、深刻な「健忘症」症状が発生する可能性があります。つまり、ネットワークが新しい情報を取得した後、非常に重要である可能性のある古い知識の一部が消去されることになります。つまり、学習したモデルの「メモリ」を管理する方法を見つける必要があります。 最後に、マシンエージェントが「不正行為」するのを防ぐ必要があります。機械モデルは良い結果を達成することもありますが、その方法は私たちの期待とはかけ離れていることがあります。エージェントの中には、実際のタスクを完了せずに「困難な状況に陥って釣りをする」ことで最大の報酬を得ようとする者もいます。 強化学習の応用分野 ゲーム 機械学習は、主にさまざまなゲームの問題を解決する驚くべき能力により、大きな人気を得ています。 最も有名なのは、もちろん AlphaGo と AlphaGo Zero です。 AlphaGo は、無数の人間のチェスプレイヤーのチェスの記録を通じて広範囲にトレーニングされており、戦略ネットワークのモンテカルロツリー値研究と値ネットワーク (MCTS) に依存することで超人的なチェスのスキルを獲得しました。しかし研究者たちはその後、機械モデルをゼロからトレーニングするという、より純粋な強化学習アプローチを試みた。ついに、新しいエージェント、AlphaGo Zero が登場しました。その学習プロセスは、人工的なデータを追加することなく、完全に自律的な探索に基づいていました。最終的に、AlphaGo Zero は前任者の AlphaGo を 100 対 0 という圧倒的な優位で破りました。 パーソナライズされた推奨事項 ニュースコンテンツの推奨は、歴史的に難しい問題です。急速に変化するニュースの動向、いつでも変わる可能性のあるユーザーの好み、ユーザーの維持率と密接に関連するクリックスルー率はすべて、研究者にとって頭痛の種となっています。 Guanjie などの研究者が発表した記事「DRN: ニュース推奨のための深層強化学習フレームワーク」では、この大きな課題を克服するために、強化学習技術をニュース推奨システムに適用する方法を探ることを目的としています。 この目的のために、研究者らは 4 つのリソース カテゴリを構築しました。1) ユーザー リソース、2) コンテキスト リソース (環境ステータス リソースなど)、3) ユーザー ニュース リソース、4) ニュース リソース (アクション リソースなど) です。彼らは、これら 4 つのリソースを Deep Q-Network (DQN) に接続して Q 値を計算しました。次に、Q 値に基づいて推奨するニュースのリストを選択し、推奨コンテンツに対するユーザーのクリックを強化学習エージェントの重要な報酬指標として使用しました。 著者らは、記憶の反復、生存モデル、決闘バンディット勾配降下法などの他の手法も使用して、関連する課題に取り組んでいます。 コンピュータ クラスタにおけるリソース管理 限られたリソースをさまざまなタスクに割り当てるアルゴリズムをどのように設計するかも難しいトピックであり、多くの場合、人間によるガイダンスが必要になります。 「深層強化学習を使用したリソース管理」と題された論文では、強化学習を使用して、予約されたジョブにコンピュータ リソースを割り当ててスケジュールする方法をモデルが自動的に探索し、それによってジョブ (タスク) の平均処理時間を最小限に抑える方法について説明します。 このメソッドは、「状態空間」を使用して、ジョブの現在のリソース割り当てとリソース構成を表します。アクション空間側では、エージェントが各時間段階で複数のアクションを選択できるようにする手法を使用します。報酬は、システム内のすべてのジョブの合計(-1/ジョブ期間)になります。次に、強化学習アルゴリズムをベースライン値と組み合わせてポリシー勾配を計算し、最適なポリシーパラメータを見つけ、これらのパラメータを使用して最小化の目標を達成できるアクションの確率分布を計算しました。 交通信号制御 「強化学習に基づくマルチエージェント交通信号ネットワーク制御システム」と題された論文で、研究者らは交通渋滞の問題を解決するための信号制御ソリューションの設計を試みた。彼らの方法はシミュレーションでのみテストされ、従来の方法よりも優れたパフォーマンスを示し、交通システム設計におけるマルチエージェント強化学習の可能性を実証しました。 彼らは、5 つの交差点の交通ネットワークに 5 つのエージェントを配置し、中央の交差点に強化学習エージェントを配置して交通信号を制御しました。彼らは交通状態を 8 次元ベクトルとして定義し、各要素が各車線の相対的な交通の流れを表します。各エージェントは 8 つのオプションから 1 つを選択でき、各オプションは各ステージの組み合わせを表し、報酬条件は、新しい組み合わせが交通流の遅延に関して前の組み合わせよりも優れている必要があることです。著者らは SQN を使用して {状態、アクション} ペアの Q 値を計算します。 ロボット ロボット工学の分野における強化学習の応用も非常に成功しています。興味のある方は、ロボット分野における強化学習の研究成果に注目してみてください。この点に関して、研究者らは、元のビデオ画像とロボットの行動をマッピングしようとしながら、訓練を通じてロボットに戦略を学習するように指導した。 RGB 画像は CNN に入力されて計算され、最終的な出力は各駆動エンジンのトルクになります。強化学習コンポーネントは、トレーニング データ内の状態分布に基づいて正確な遷移戦略を要約する役割を担います。 ネットワークシステム構成 ネットワーク システムには 100 を超える構成可能なパラメータが含まれることが多く、パラメータ調整プロセスでは資格のあるオペレータが継続的に追跡およびエラー テストを実行する必要があります。 「オンライン ネットワーク システムの自己構成機能を強化するための学習方法」と題されたこの論文では、動的仮想マシンに基づく環境における多層ネットワーク システム内のさまざまなパラメータを自動的に再構成する研究者による初の試みについて説明しています。 研究者たちは、再構成プロセスを有限 MDP (マルコフ決定プロセス) の形式で定式化することができました。状態空間はシステム構成であり、各パラメータのアクション空間には{増加、減少、不変}が含まれます。報酬は、予想される応答時間と測定された応答時間の差として定義されました。著者らはこのタスクを実行するために Q 学習アルゴリズムを使用しました。 もちろん、著者は、より大きな状態空間と複雑な問題シナリオにおける計算難度の問題を解決するために、他のいくつかの手法(ポリシー初期化など)も使用しているため、強化学習とニューラルネットワークを単純に組み合わせるだけで達成できるとは考えられません。しかし、この先駆的な研究が将来の探査への道を開くと信じられています。 化学薬品 強化学習は化学反応の最適化にも優れた効果を発揮します。研究者たちは、彼らのモデルがすでに非常に高度なアルゴリズムを開発していることを発見し、論文「深層強化学習による化学反応の最適化」では、このアルゴリズムをさまざまな潜在的なシナリオに一般化する方法も検討しました。 強化学習エージェントは、ポリシー機能をモデル化するために LSTM (Long Short-Term Memory Network) を使用して、{S、A、P、R} で特徴付けられるマルコフ決定プロセス (MDP) を通じて化学反応を最適化します。ここで、S は実験条件のセット (温度、pH など) を表し、A は調整可能なすべてのアクションのセット、P は現在の実験条件から次の条件に切り替える確率、R は状態報酬関数です。 このアプリケーション ソリューションは、強化学習テクノロジによって、比較的安定した環境で試行錯誤の回数を減らし、学習サイクルを短縮できることを示す良い例です。 オークションと広告 アリババの研究者らは「広告表示におけるマルチエージェント強化学習によるリアルタイム入札」と題する論文を発表し、分散型マルチエージェント・クラスターベース・ソリューション(DCMAB)が有望な結果を達成し、次の研究段階ではタオバオ・プラットフォームで実際のテストを実施する予定であると述べた。 一般的に言えば、Taobao 広告プラットフォームは、ディーラーに入札用の広告表示エリアを提供する役割を担っています。現在、トレーダーは互いに競合して入札する傾向があり、入札はエージェントのビジネスや決定に密接に関連していることが多いため、ほとんどのエージェントはこの問題を迅速に解決することができません。この論文では、研究者らは計算の複雑さを軽減するために、商人と顧客を異なるグループに分けました。各エージェントの状態空間はエージェント自体のコスト収益状態を表し、アクション空間は(継続的な)入札であり、報酬は顧客クラスターの収益です。 ディープラーニング 最近、強化学習と他のディープラーニングアーキテクチャを組み合わせようとする研究者が増えており、素晴らしい成果を上げています。 最も影響力のある成果の 1 つは、DeepMind による CNN と強化学習を組み合わせた試みです。これに基づいて、エージェントは高次元センサーを通じて環境を「観察」し、環境と対話する方法を学習できます。 強化学習と組み合わせた CNN は、人々が新しいアイデアを探求するための強力な組み合わせとなっています。 RNN は「メモリ」を備えたニューラル ネットワークです。強化学習と組み合わせて使用すると、RNN はエージェントに記憶機能を提供します。たとえば、研究者は LSTM と強化学習を組み合わせて、Atari ゲームのプレイ方法を学習するディープ リカレント Q ネットワーク (DRQN) を作成しました。彼らはまた、化学反応の最適化問題を解決するために LSTM 強化学習を使用しました。 DeepMind は、強化学習を備えた生成モデルを使用してプログラムを生成する方法も実演しました。このモデルでは、敵対的な方法でトレーニングされたエージェントは、アクションを改善するための報酬として敵対的信号を使用します。これは、GAN (生成的敵対的ネットワーク) がエントリ空間に勾配を伝播する方法とは異なります。 概要: 強化学習をいつ使い始めるべきか? 強化とは、下した決定と報酬に基づいて最善のアプローチを模索することを指します。このタイプの人は、いつでも環境と対話し、そこから学ぶことができます。正しい行動はすべて報われ、間違った行動はすべて罰せられます。産業界では、このような学習方法はプロセスの最適化、シミュレーション、監視、保守に役立ち、強力な自律システムの誕生につながることが期待されます。 強化学習技術をいつ、どこで使用するかを考える際には、次の基準を参考にしてください。 • 複雑または危険な特定のプロセスをシミュレートする必要がある場合。 • 多数の人間のアナリストとドメイン専門家を必要とする特定の問題に対処する場合。強化学習法は、単に最善の戦略を予測するのではなく、人間の推論を模倣することができます。 • 学習アルゴリズムに適切な報酬定義を提供できる場合。各インタラクションでモデルを正しく調整して、報酬が常にペナルティを上回るようにすることで、モデルが徐々に適切なソリューションを見つけられるようにすることができます。 • 特定の問題に関して十分なデータが不足している場合。強化学習は、産業分野以外にも、教育、健康、金融、画像・テキスト認識などさまざまな業界で広く利用されています。 強化学習は、産業分野以外にも、教育、健康、金融、画像・テキスト認識などさまざまな業界で広く利用されています。 |
<<: 顔認識アプリケーションの境界はどこにあるのでしょうか?
>>: あなたは人工知能についてどれくらい知っていますか?普通の人として、私たちはもっと多くのことを知る能力を持っているのでしょうか?
本日、張亜琴教授はCNCC 2020で「スマートテクノロジーのトレンド」をテーマに講演しました。デジ...
化学合成に関する文献の量は急速に増加していますが、新しいプロセスを研究室間で共有し評価するには長い時...
概要: この記事では、主にコンピューター ビジョンにおける 5 つの主要テクノロジ、つまり画像分類、...
モノのインターネットはさまざまな分野に浸透しており、その魅力と需要は徐々に高まっています。このテクノ...
[[348375]]この記事はWeChatの公開アカウント「Java Chinese Commun...
最近、教育部は「2019年度一般高等教育機関の学部専攻登録・認可結果発表通知」を出し、設置が認可され...
デジタル化の大きな波の中で、一見些細な失敗が、深い疑問を浮かび上がらせます。それは、企業が業務に人工...
[[324391]]インターネットの破壊的イノベーションは、自らの業界から生まれることはありません...
序文人工知能の時代において、チャットボットはますます人気が高まっています。これは、人間とコンピュータ...
人工知能 (AI) と機械学習 (ML) は、人々の働き方、話し方、ビジネスのやり方を根本的に変えて...
最近、ウォール・ストリート・ジャーナルの記事によると、一部のベンチャーキャピタリストは、生成型人工知...