この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)から転載したものです。 この記事では、強化学習アルゴリズムの分類を紹介し、さまざまな観点からいくつかの分類を検討します。さっそく、深呼吸して、一緒に RL アルゴリズムの分類を学びましょう。
モデルフリー vs. モデルベース モデルフリー分類とモデルベース分類 [画像出典: 著者、OpenAI Spinning Up による再作成] RL アルゴリズムを分類する 1 つの方法は、エージェントが環境のモデルにアクセスできるかどうかを尋ねることです。言い換えれば、環境がエージェントのアクションに反応するかどうかを尋ねます。この見解に基づくと、RL アルゴリズムにはモデルフリーとモデルベースの 2 つの分野があります。
次の表に示すように、両方のアルゴリズムにはそれぞれ長所と短所があります。 価値ベースとポリシーベース RL アルゴリズムを分類する別の方法は、アルゴリズムが価値関数を最適化するのか、ポリシーを最適化するのかを考えることです。詳しく説明する前に、まず戦略と価値の機能について理解しましょう。 (1)戦略 ポリシー π は状態 s からアクション a へのマッピングです。ここで、π(a|s) は状態 s でアクション a を実行する確率です。戦略は決定論的なものでもランダムなものでもかまいません。 非常に単純なゲーム「じゃんけん」をプレイしているとします。このゲームでは、2 人のプレイヤーが 3 つのアクション (グー、チョキ、パー) のうち 1 つを同時に実行して勝敗を競います。ルールは簡単です:
戦略を反復的なじゃんけんと考える
(2)価値関数 価値関数は、将来の報酬 (戻り値) の予測に基づいて状態がどの程度優れているかを測定する関数です。戻り値 (Gt) は基本的に、「割引」された戻り値 (時刻 t 以降) の合計に等しくなります。 γ∈[0,1]は割引係数です。割引率は、いくつかの理由により将来の収益を相殺することを目的としています。
戻り値の概念を理解したところで、値関数の数学的形式を定義しましょう。 価値関数には 2 つの数学的形式があります。 状態アクション価値関数 (Q 値) は、時刻 t における状態とアクションの組み合わせの期待される戻り値です。 Q値と価値関数の違いは、アクションアドバンテージ関数(A値と呼ばれることが多い)です。 これで、価値関数とアクション状態価値関数が何であるかがわかりました。次に、アルゴリズムが最適化するコンポーネントに重点を置いた RL アルゴリズムの別の分野について詳しく学習します。 価値アルゴリズムと戦略アルゴリズム [画像ソース: 著者、David Silver RL コースの再現]
次の表は、価値アルゴリズムと戦略アルゴリズムの長所と短所を示しています。
戦略的アルゴリズムと非戦略的アルゴリズム RL アルゴリズムを分類する別の方法は、戦略ソース分類に基づいています。 戦略アルゴリズムは「実践しながら学ぶ」ものであると言えます。つまり、アルゴリズムは π からサンプリングされた経験からポリシー π を学習しようとします。非ポリシー アルゴリズムは「監視」によって機能します。言い換えれば、アルゴリズムは、μ によってサンプリングされた経験からポリシー π を学習しようとします。たとえば、ロボットは人間の行動を観察して操作方法を学習します。 |
<<: ビデオ通話の低品質なビデオとはおさらば: NVIDIA の新しいアルゴリズムはトラフィックを最大 90% 圧縮できます
>>: 2020年Qizhi開発者会議が北京で盛大に開幕、第一弾の1000万インセンティブボーナスが発表された
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
4月20日の最新ニュースは、百度がApollp Robotaxi自動運転タクシーサービスの全面オー...
この機械学習チュートリアルでは、機械学習の基本および中級の概念について説明します。初心者の学生と働く...
[[409365]] Microsoft の初心者向け機械学習カリキュラムが登場し、1 日で 2,...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
これは間違いなく、生成 AI の進歩における画期的な出来事です。深夜、Runway の象徴的な AI...
[[358422]] 01 現段階における人工知能のボトルネック現在、人工知能、特にその応用分野では...
最近テクノロジーのニュースに注目しているなら、良いことであれ悪いことであれ、人工知能に関する何かを読...
衣服のデザインから将来のファッショントレンドの発見、パーソナルスタイリストになること、そして消費者の...
昨日、現地時間午前10時、AI業界のリーダーたちがワシントンに集まり、シューマー上院議員が主催するA...
Facebook AI は、Transformer を完全にベースとし、畳み込みが不要で、トレーニン...
過去 8 か月間で、Google DeepMind、Wadhwani Institute of Ar...