Deep Policy Gradient Algorithm は真の Policy Gradient Algorithm ですか?

Deep Policy Gradient Algorithm は真の Policy Gradient Algorithm ですか?

深層強化学習は最近大きな成功を収めていますが、安定性の欠如や再現性の低さといった限界もあります。 MIT と Two Sigma の研究者は、深層強化学習法の概念的基礎を再検討しました。つまり、深層強化学習の現在の実践は、その概念的基礎フレームワークの原則をどの程度反映しているのでしょうか。この研究は、深層ポリシー勾配法に焦点を当てています。

[[250025]]

深層強化学習は現代の機械学習の最もよく知られた成果であり、AlphaGO などのよく知られたアプリケーションを生み出しました。多くの人にとって、このフレームワークは機械学習が現実世界に影響を与える力を示しています。ただし、現在のディープラーニング(教師あり)フレームワークとは異なり、ディープ強化学習ツールキットはまだ十分なエンジニアリングの安定性をサポートしていません。実際、最近の研究では、現在の最先端の深層強化学習アルゴリズムはハイパーパラメータの選択に過度に敏感で、安定性に欠け、再現性が低いことが判明しています。

これは、深層強化学習法の概念的基礎を再検討する必要があるかもしれないことを示唆しています。具体的には、この研究が取り組む重要な問題は、深層強化学習の現在の実践が、その概念的基礎フレームワークの原則をどの程度反映しているかということです。

この論文では、広く使用されている深層強化学習アルゴリズムである深層ポリシー勾配法に焦点を当てています。研究の目標は、これらの方法の現在の最先端の実装が、一般的なポリシー勾配フレームワークの主要なプリミティブをどの程度具体化しているかを調査することです。

この論文ではまず、重要な深層ポリシー勾配法である近似ポリシー最適化 (PPO) について検討します。研究では、PPO のパフォーマンスは非コア アルゴリズムの最適化に大きく依存することが判明しており、これは PPO の実際の成功がその理論的枠組みでは説明できない可能性があることを示唆しています。

この観察により、研究者はポリシー勾配アルゴリズムとその基礎となるフレームワークとの関係をさらに調査するようになりました。研究者たちは、これらのアルゴリズムが実際に実証する主要な強化学習プリミティブを注意深く調査しました。具体的には、この研究では以下の点を調査しました。

  • 勾配推定: エージェントの報酬が向上した場合でも、パラメータを更新するために使用される勾配推定は、実際の勾配と相関していないことが多いことがわかりました。
  • 価値予測: 実験では、価値ネットワークはトレーニングでき、教師あり学習タスクを正常に解決できることが示されていますが、真の価値関数に適合することはできません。さらに、価値ネットワークをベースライン関数として使用すると、勾配推定値の分散はわずかに減少しますが、エージェントのパフォーマンスは大幅に向上します。
  • *** 化されたランドスケープ: 研究により、*** 化されたランドスケープは、実際の報酬の基盤となるランドスケープを反映していないことが多く、関連するサンプリング体制でのパフォーマンスが低下することがわかっています。
  • 信頼領域: 研究により、深層ポリシー勾配アルゴリズムは信頼領域と理論的に矛盾することがあることが判明しました。実際、近似ポリシー最適化では、これらの競合はアルゴリズム設計の基本的な問題から生じます。

研究者たちは、上記の問題と関連する理論的知識の欠如が、深層強化学習の脆弱性と再現性の低さの主な原因であると考えています。これは、信頼できる深層強化学習アルゴリズムを構築するには、これらのアルゴリズムの直感的でない動作を多面的に理解するために、これまでのベンチマーク中心の評価アプローチを放棄する必要があることを示唆しています。

論文: 深層ポリシー勾配アルゴリズムは本当にポリシー勾配アルゴリズムか?

論文リンク: https://arxiv.org/pdf/1811.02553.pdf

概要: この論文では、深層ポリシー勾配アルゴリズムが、その開発の動機となった基礎となる概念フレームワークをどの程度反映しているかを調査します。勾配推定、値予測、地形、信頼領域分析など、フレームワークの主要要素に基づいて、現在の *** 手法の詳細な分析を紹介します。この観点から見ると、深層ポリシー勾配アルゴリズムの動作は、その概念フレームワークの予測から逸脱することが多いことがわかります。私たちの分析は、深層ポリシー勾配アルゴリズムの基盤を強化するための第一歩となります。特に、現在のベンチマーク中心の評価アプローチから脱却する必要があるかもしれません。

深層政策勾配アルゴリズムの基本要素の検討

1. 勾配推定の品質

ポリシー勾配法の基本的な前提は、適切な目的関数での確率的勾配上昇が適切なポリシーにつながるというものです。具体的には、これらのアルゴリズムは、(プロキシ)報酬関数の勾配をプリミティブとして使用します。

これらの方法の理論の根底にある前提は、勾配の合理的な推定値を得ることができる、つまり、有限数のサンプル(通常は約 103)の経験的平均を使用して上記の期待項を正確に推定できるということです。したがって、研究者はこの仮説が実際に妥当であるかどうかに興味を持っています。

私たちが計算した勾配推定値はどの程度正確でしょうか? この疑問を解決するために、研究者は推定値の品質を評価するための最も自然な指標、つまり経験的分散と勾配推定値の「真の」勾配への収束を使用します。

図2

図 2: MuJoCo ヒューマノイド タスクにおける状態とアクションのペアの数の関数としての勾配推定値の経験的分散。状態とアクションのペアが x 軸に、勾配推定値の経験的分散が y 軸に示されています。

図3

図 3: MuJoCo ヒューマノイド タスクにおける勾配推定値の「真の」望ましい勾配への収束。

2. 価値予測

図4

図 4: MuJoCo Walker2d-v2 タスクを解決するようにトレーニングされたエージェントの、保留状態とアクションのペアに対する値予測の品質 (平均相対誤差 (MRE) として測定)。

3. デジタル環境を探索する

ポリシー勾配アルゴリズムのもう 1 つの基本的な前提は、ポリシー パラメータに対する 1 次更新を使用すると、ポリシーのパフォーマンスが向上する可能性があるということです。したがって、次にこの仮説の妥当性を検討します。

図 6: Humanoid-v2 MuJoCo タスクにおける TRPO の真の報酬関数 Landscape。

図 8: Humanoid-v2 MuJoCo タスクにおける PPO の真の報酬関数と代理報酬関数のランドスケープ。

4. 信頼領域最適化

図9

図 9: MuJoCo ヒューマノイド タスクを解決するようにトレーニングされたエージェントの各ステップでの平均報酬、最大比、平均 KL、および最大 KL と平均 KL の関係。

深層強化学習のためのより良い基盤の構築

深層強化学習アルゴリズムは、堅固な古典的な強化学習フレームワークに根ざしており、実践において大きな可能性を実証しています。しかし、研究調査により、この基礎となるフレームワークでは、深層強化学習アルゴリズムの多くの動作を説明できないことが示されました。この分裂により、これらのアルゴリズムが成功する(または失敗する)理由を深く理解することができなくなり、広範囲にわたる脆弱性や再現性の低さなど、深層強化学習が直面する重要な課題に対処する上で大きな障害となります。

この分類を解決するには、基礎理論に近い方法を開発するか、既存のポリシー勾配アルゴリズムの成功の理由を捉える理論を構築する必要があります。どちらの場合でも、最初のステップは、理論と実践が分岐する点を正確に特定することです。このセクションでは、前の章の調査結果と結果を分析して統合します。

  • 勾配推定。前の章の分析では、ポリシー勾配アルゴリズムで使用される勾配推定値の品質が低いことが示されました。エージェントが改善しても、このような勾配推定値は、実際の勾配 (図 3 を参照) や、互いの勾配 (図 2 を参照) とほとんど相関しないことがよくあります。これは、既存の理論に従うには、アルゴリズムがより良い勾配推定値を取得する必要があることを示唆しています。あるいは、なぜ現代のポリシー勾配アルゴリズムが勾配推定が不十分であるにもかかわらず成功するのかを説明するために理論を拡張する必要があります。
  • 価値予測。この研究の結果は、2つの重要な問題を明らかにしています。まず、価値ネットワークは、トレーニングされた教師あり学習タスクを正常に解決しますが、「真の」価値関数を正確にモデル化することはできません。 2 番目に、この値ネットワークをベースラインとして使用すると、勾配の分散が減少します。しかし、これは「真の」値関数によって提供される分散の削減と比較すると小さすぎます。これらの観察から、次のような疑問が湧いてきます。真の価値関数のモデル化の失敗は避けられないのでしょうか? ポリシー勾配法における価値ネットワークの真の役割は何でしょうか?
  • *** 風景。前の章からわかるように、現代のポリシー勾配アルゴリズムの最適化されたランドスケープは、通常、基礎となる実際の報酬ランドスケープを反映できません。実際、ポリシー勾配法で使用されるサンプリング方式では、真の報酬のランドスケープにはノイズが多く、代理報酬関数は誤解を招くことが多いのです。したがって、このような問題にもかかわらずこれらの方法が成功できる理由をより深く理解し、より広く言えば、真の報酬関数の状況をより正確に提示する方法を理解する必要があります。
  • 信頼領域の近似。私たちの調査結果は、ノイズの多い勾配推定、不十分なベースライン関数、不揃いのプロキシ ランドスケープなど、ポリシーにローカル類似性が必要な理由はいくつかある可能性があることを示唆しています。信頼領域最適化の基礎理論はこれらの要因を認識していないだけでなく、理論を効率的なアルゴリズムに変換することも非常に困難です。したがって、深層ポリシー勾配法では信頼領域に対する制約が緩和されるため、そのパフォーマンスを理解して分析することが困難になります。したがって、信頼領域をより厳密に強制する技術、または信頼領域緩和のためのより厳密な理論が必要になります。

[この記事は51CTOコラム「Machine Heart」、WeChatパブリックアカウント「Machine Heart(id:almosthuman2014)」によるオリジナル翻訳です]

この著者の他の記事を読むにはここをクリックしてください

<<:  GoogleのAIオープンソース成果物は3年前に誕生し、想像もつかないような多くの場所で使用されている。

>>:  百新銀行と百度クラウドAI+銀行金融技術シンクタンク会議が開催、オープンバンキングについて議論

ブログ    

推薦する

自動化を推進するAIテストツール

テスト自動化における人工知能の使用は、品質保証業界を支配する最新のトレンドの 1 つです。実際、キャ...

Sinovationは、あらゆるもののインテリジェントな接続を促進するエッジインテリジェンスプラットフォームTurboXを立ち上げました。

[51CTO.comより引用] 2019年を振り返ると、今年は人工知能、モノのインターネット、クラ...

AI受験者が発狂!上級数学試験の正解率は81%で、競争試験のスコアはコンピュータドクターのスコアよりも高い。

上級数学の試験で悪い成績を取ることは、多くの人にとって悪夢です。高度な数学は AI ほど得意ではない...

Facebook が ICCV 2021 で 2 つの 3D モデルを公開。自己監督が究極の答えか?

長い間、CV トレーニングは 2 次元データに限定されてきました。3 次元データのラベル付けにはコス...

SaaS アプリケーションで AI スノーボールはどのように大きくなるのでしょうか?

Shopify の不正防止機械学習から Salesforce の Einstein まで、過去数年...

気候変動と戦うには人工知能が重要

気候変動が世界中の環境、社会、政治、経済システムに大きな影響を与えることは否定できません。したがって...

...

Oracle データベース初期化パラメータの分析: システム構成を最適化するための究極のガイド!

Oracle データベースでは、初期化パラメータは非常に重要な構成項目であり、データベースのパフォ...

人工知能がビジネスを徐々に変えていく

確かに、人工知能(AI)主導のテクノロジーが人間を不要にするか否かをめぐる議論は、少なくともこの聴衆...

中国消費者協会:所有者や消費者は顔認識を強制されることはない。情報が漏洩すると非常に有害だからだ。

今年の315ガラでは、いくつかの有名ブランド店が顔情報を違法に収集していたことが摘発された。これらの...

「認知の輪」を解読する:AIと人間の究極の戦い

今日は週末なので、深遠な話をするふりをして話をしましょう。現在、人工知能について議論する場合、ほとん...

...

勉強!機械学習アルゴリズムの長所と短所の概要

目次正規化アルゴリズムアンサンブルアルゴリズム決定木アルゴリズム回帰人工ニューラルネットワークディー...