強化学習アルゴリズムの分類をさまざまな観点から理解します

強化学習アルゴリズムの分類をさまざまな観点から理解します

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)から転載したものです。

この記事では、強化学習アルゴリズムの分類を紹介し、さまざまな観点からいくつかの分類を検討します。さっそく、深呼吸して、一緒に RL アルゴリズムの分類を学びましょう。

[[355287]]

モデルフリー vs. モデルベース

モデルフリー分類とモデルベース分類 [画像出典: 著者、OpenAI Spinning Up による再作成]

RL アルゴリズムを分類する 1 つの方法は、エージェントが環境のモデルにアクセスできるかどうかを尋ねることです。言い換えれば、環境がエージェントのアクションに反応するかどうかを尋ねます。この見解に基づくと、RL アルゴリズムにはモデルフリーとモデルベースの 2 つの分野があります。

  • モデル RL アルゴリズムは、学習した環境のモデルに基づいて最適なポリシーを選択します。
  • モデルフリー RL アルゴリズムは、エージェントを繰り返しテストすることで最適なポリシーを選択します。

次の表に示すように、両方のアルゴリズムにはそれぞれ長所と短所があります。

価値ベースとポリシーベース

RL アルゴリズムを分類する別の方法は、アルゴリズムが価値関数を最適化するのか、ポリシーを最適化するのかを考えることです。詳しく説明する前に、まず戦略と価値の機能について理解しましょう。

(1)戦略

ポリシー π は状態 s からアクション a へのマッピングです。ここで、π(a|s) は状態 s でアクション a を実行する確率です。戦略は決定論的なものでもランダムなものでもかまいません。

非常に単純なゲーム「じゃんけん」をプレイしているとします。このゲームでは、2 人のプレイヤーが 3 つのアクション (グー、チョキ、パー) のうち 1 つを同時に実行して勝敗を競います。ルールは簡単です:

  • はさみと布
  • グー vs ハサミ
  • ブッカー・ストーン

戦略を反復的なじゃんけんと考える

  • 決定論的な戦略は簡単に利用できます。あなたがより多くの「石」をプレイしていることに気付いた場合、私はこれを有利に利用してより大きな勝利を得ることができます。
  • 均一なランダム ポリシーが最適です。選択が完全にランダムである場合、勝つためにどのようなアクションを実行すればよいかわかりません。

(2)価値関数

価値関数は、将来の報酬 (戻り値) の予測に基づいて状態がどの程度優れているかを測定する関数です。戻り値 (Gt) は基本的に、「割引」された戻り値 (時刻 t 以降) の合計に等しくなります。


γ∈[0,1]は割引係数です。割引率は、いくつかの理由により将来の収益を相殺することを目的としています。

  • 便利な数学計算
  • 状態変化図における無限ループの解消
  • 将来の収益に関する不確実性が高い(株価の変動など)
  • 将来の報酬はすぐには利益にならない(例えば、人々は10年後よりも今楽しみを味わうことを好む)

戻り値の概念を理解したところで、値関数の数学的形式を定義しましょう。

価値関数には 2 つの数学的形式があります。


状態アクション価値関数 (Q 値) は、時刻 t における状態とアクションの組み合わせの期待される戻り値です。


Q値と価値関数の違いは、アクションアドバンテージ関数(A値と呼ばれることが多い)です。


これで、価値関数とアクション状態価値関数が何であるかがわかりました。次に、アルゴリズムが最適化するコンポーネントに重点を置いた RL アルゴリズムの別の分野について詳しく学習します。

価値アルゴリズムと戦略アルゴリズム [画像ソース: 著者、David Silver RL コースの再現]

  • 価値強化学習は、価値/アクション価値関数を学習して最適なポリシーを生成する(つまり、暗黙的に最適なポリシーを生成する)ことを目的としています。
  • ポリシー RL は、パラメータ化された関数を使用してポリシーを直接学習することを目的としています。
  • Actor-Critic RL は価値関数とポリシーの両方を学習することを目的としています。

次の表は、価値アルゴリズムと戦略アルゴリズムの長所と短所を示しています。


  • 価値アルゴリズムは、アクション状態価値関数を最大化するアクションを選択する必要があります。アクション空間が非常に高次元または連続的である場合、これは非常にコストがかかる可能性があります。一方、ポリシー アルゴリズムは、最大化計算を実行せずにポリシーのパラメーターを直接調整することによって動作します。
  • 値アルゴリズムは、適切に実行されない場合、多くの問題が発生する可能性があります (収束特性が低い/不安定)。一方、ポリシー アルゴリズムは、ポリシー勾配に小さな増分変更のみを加えるため、より安定しており、収束特性が優れています。
  • ポリシー アルゴリズムは決定論的ポリシーと確率論的ポリシーの両方を学習できますが、値アルゴリズムは決定論的ポリシーのみを学習できます。
  • 価値アルゴリズムと比較すると、元の戦略アルゴリズムは遅く、分散が大きくなります。価値アルゴリズムは、アクション状態価値関数を最大化するアクションを選択しようとします。これにより、ポリシーが最適化されます (操作が高速化され、分散が小さくなります)。一方、ポリシー アルゴリズムは、数ステップしか実行せず、スムーズかつ安定して更新されますが、同時に効率が低く、分散が大きくなることがあります。
  • ポリシー アルゴリズムは通常、グローバル最適値ではなくローカル最適値に収束します。

戦略的アルゴリズムと非戦略的アルゴリズム

RL アルゴリズムを分類する別の方法は、戦略ソース分類に基づいています。


戦略アルゴリズムは「実践しながら学ぶ」ものであると言えます。つまり、アルゴリズムは π からサンプリングされた経験からポリシー π を学習しようとします。非ポリシー アルゴリズムは「監視」によって機能します。言い換えれば、アルゴリズムは、μ によってサンプリングされた経験からポリシー π を学習しようとします。たとえば、ロボットは人間の行動を観察して操作方法を学習します。

<<:  ビデオ通話の低品質なビデオとはおさらば: NVIDIA の新しいアルゴリズムはトラフィックを最大 90% 圧縮できます

>>:  2020年Qizhi開発者会議が北京で盛大に開幕、第一弾の1000万インセンティブボーナスが発表された

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

5Gネットワ​​ーク構築80%:5Gロボットが新たな転換点を迎えようとしている

最近、CCTVニュースによると、中国は2月末までに計画通り5Gネットワ​​ーク構築の80%を完了した...

2019年、小売業界はこれら10のテクノロジーによって革命を起こすでしょう。

[[252097]] 2013年から2018年にかけて、AI + 小売業の新興企業は374件の取引...

現代のストレージシステムの背後にある古典的なアルゴリズムを解釈する

アプリケーションによって処理されるデータの量は増加し続けています。データの増加は、ストレージ機能の拡...

このアリは写真を撮ることができます!プリンストン大学は、50万分の1の大きさに縮小されたミクロンレベルのカメラを開発した。

最近、プリンストン大学の研究者らは、世界初の高品質ミクロンスケール光学イメージングデバイス「ニューラ...

PaddlePaddle を使用してオブジェクト検出タスクを実装する - Paddle Fluid v1.1 の詳細なレビュー

【51CTO.comオリジナル記事】 1. はじめに11月1日、BaiduはPaddle Fluid...

210,000のボーナスがあなたを待っています! 「ファーウェイクラウドカップ」全国AIコンテスト募集中

現在、神府改革革新モデル区、華為(遼寧)人工知能イノベーションセンター、上海交通大学が共催する神府モ...

5Gのサポートにより、AIの顔を変えること以外に人工知能は何ができるのでしょうか?

近年、AIによる顔を変える技術がネットユーザーの間で大流行し、この人工知能の新興技術を一般人の生活に...

...

...

デジタルコンテンツ制作のためのDIY AI

背景今年、chatgpt に代表される大型モデルの驚異的なパフォーマンスは、AICG の分野に完全に...

3D MRI および CT スキャンのディープラーニング モデルの概要

医療画像データと他の日常的な画像との最大の違いの 1 つは、DICOM シリーズ データを扱う場合、...

グラフニューラルネットワークに基づくOPPOの検索推奨アルゴリズムと実践

1. グラフニューラルネットワーク入門グラフ ニューラル ネットワークについて説明する前に、まずグラ...

...