深層強化学習は最近大きな成功を収めていますが、安定性の欠如や再現性の低さといった限界もあります。 MIT と Two Sigma の研究者は、深層強化学習法の概念的基礎を再検討しました。つまり、深層強化学習の現在の実践は、その概念的基礎フレームワークの原則をどの程度反映しているのでしょうか。この研究は、深層ポリシー勾配法に焦点を当てています。
深層強化学習は現代の機械学習の最もよく知られた成果であり、AlphaGO などのよく知られたアプリケーションを生み出しました。多くの人にとって、このフレームワークは機械学習が現実世界に影響を与える力を示しています。ただし、現在のディープラーニング(教師あり)フレームワークとは異なり、ディープ強化学習ツールキットはまだ十分なエンジニアリングの安定性をサポートしていません。実際、最近の研究では、現在の最先端の深層強化学習アルゴリズムはハイパーパラメータの選択に過度に敏感で、安定性に欠け、再現性が低いことが判明しています。 これは、深層強化学習法の概念的基礎を再検討する必要があるかもしれないことを示唆しています。具体的には、この研究が取り組む重要な問題は、深層強化学習の現在の実践が、その概念的基礎フレームワークの原則をどの程度反映しているかということです。 この論文では、広く使用されている深層強化学習アルゴリズムである深層ポリシー勾配法に焦点を当てています。研究の目標は、これらの方法の現在の最先端の実装が、一般的なポリシー勾配フレームワークの主要なプリミティブをどの程度具体化しているかを調査することです。 この論文ではまず、重要な深層ポリシー勾配法である近似ポリシー最適化 (PPO) について検討します。研究では、PPO のパフォーマンスは非コア アルゴリズムの最適化に大きく依存することが判明しており、これは PPO の実際の成功がその理論的枠組みでは説明できない可能性があることを示唆しています。 この観察により、研究者はポリシー勾配アルゴリズムとその基礎となるフレームワークとの関係をさらに調査するようになりました。研究者たちは、これらのアルゴリズムが実際に実証する主要な強化学習プリミティブを注意深く調査しました。具体的には、この研究では以下の点を調査しました。
研究者たちは、上記の問題と関連する理論的知識の欠如が、深層強化学習の脆弱性と再現性の低さの主な原因であると考えています。これは、信頼できる深層強化学習アルゴリズムを構築するには、これらのアルゴリズムの直感的でない動作を多面的に理解するために、これまでのベンチマーク中心の評価アプローチを放棄する必要があることを示唆しています。 論文: 深層ポリシー勾配アルゴリズムは本当にポリシー勾配アルゴリズムか? 論文リンク: https://arxiv.org/pdf/1811.02553.pdf 概要: この論文では、深層ポリシー勾配アルゴリズムが、その開発の動機となった基礎となる概念フレームワークをどの程度反映しているかを調査します。勾配推定、値予測、地形、信頼領域分析など、フレームワークの主要要素に基づいて、現在の *** 手法の詳細な分析を紹介します。この観点から見ると、深層ポリシー勾配アルゴリズムの動作は、その概念フレームワークの予測から逸脱することが多いことがわかります。私たちの分析は、深層ポリシー勾配アルゴリズムの基盤を強化するための第一歩となります。特に、現在のベンチマーク中心の評価アプローチから脱却する必要があるかもしれません。 深層政策勾配アルゴリズムの基本要素の検討 1. 勾配推定の品質 ポリシー勾配法の基本的な前提は、適切な目的関数での確率的勾配上昇が適切なポリシーにつながるというものです。具体的には、これらのアルゴリズムは、(プロキシ)報酬関数の勾配をプリミティブとして使用します。 これらの方法の理論の根底にある前提は、勾配の合理的な推定値を得ることができる、つまり、有限数のサンプル(通常は約 103)の経験的平均を使用して上記の期待項を正確に推定できるということです。したがって、研究者はこの仮説が実際に妥当であるかどうかに興味を持っています。 私たちが計算した勾配推定値はどの程度正確でしょうか? この疑問を解決するために、研究者は推定値の品質を評価するための最も自然な指標、つまり経験的分散と勾配推定値の「真の」勾配への収束を使用します。 図2 図 2: MuJoCo ヒューマノイド タスクにおける状態とアクションのペアの数の関数としての勾配推定値の経験的分散。状態とアクションのペアが x 軸に、勾配推定値の経験的分散が y 軸に示されています。 図3 図 3: MuJoCo ヒューマノイド タスクにおける勾配推定値の「真の」望ましい勾配への収束。 2. 価値予測 図4 図 4: MuJoCo Walker2d-v2 タスクを解決するようにトレーニングされたエージェントの、保留状態とアクションのペアに対する値予測の品質 (平均相対誤差 (MRE) として測定)。 3. デジタル環境を探索する ポリシー勾配アルゴリズムのもう 1 つの基本的な前提は、ポリシー パラメータに対する 1 次更新を使用すると、ポリシーのパフォーマンスが向上する可能性があるということです。したがって、次にこの仮説の妥当性を検討します。 図 6: Humanoid-v2 MuJoCo タスクにおける TRPO の真の報酬関数 Landscape。 図 8: Humanoid-v2 MuJoCo タスクにおける PPO の真の報酬関数と代理報酬関数のランドスケープ。 4. 信頼領域最適化 図9 図 9: MuJoCo ヒューマノイド タスクを解決するようにトレーニングされたエージェントの各ステップでの平均報酬、最大比、平均 KL、および最大 KL と平均 KL の関係。 深層強化学習のためのより良い基盤の構築 深層強化学習アルゴリズムは、堅固な古典的な強化学習フレームワークに根ざしており、実践において大きな可能性を実証しています。しかし、研究調査により、この基礎となるフレームワークでは、深層強化学習アルゴリズムの多くの動作を説明できないことが示されました。この分裂により、これらのアルゴリズムが成功する(または失敗する)理由を深く理解することができなくなり、広範囲にわたる脆弱性や再現性の低さなど、深層強化学習が直面する重要な課題に対処する上で大きな障害となります。 この分類を解決するには、基礎理論に近い方法を開発するか、既存のポリシー勾配アルゴリズムの成功の理由を捉える理論を構築する必要があります。どちらの場合でも、最初のステップは、理論と実践が分岐する点を正確に特定することです。このセクションでは、前の章の調査結果と結果を分析して統合します。
[この記事は51CTOコラム「Machine Heart」、WeChatパブリックアカウント「Machine Heart(id:almosthuman2014)」によるオリジナル翻訳です] この著者の他の記事を読むにはここをクリックしてください |
<<: GoogleのAIオープンソース成果物は3年前に誕生し、想像もつかないような多くの場所で使用されている。
>>: 百新銀行と百度クラウドAI+銀行金融技術シンクタンク会議が開催、オープンバンキングについて議論
言語モデルは、自然言語処理の分野における研究と実践に大きな変化をもたらしました。近年、大型モデルは多...
環境と自律的に対話し、収集したデータに基づいて決定を下し、人間の介入を最小限に抑えてシナリオベースの...
[[163852]]どれほど恐ろしいモンスターにも弱点はあります。なぜAlphaGoは皆を驚かせる...
開発者は人工知能に関するオープンソース プロジェクトを数多く目にしてきたと思いますし、Github ...
[[438361]]次世代自動運転システムの設計における反復的な更新は、主に新機能の継続的な反復に反...
この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...
[[201235]]概念とそれがビジネス目標に与える影響を学ぶことは非常に重要です。アルゴリズムの...
韓国でセンセーショナルな「常温超伝導」事件が最近終息したようだ。韓国超伝導低温学会の検証委員会は最近...
ちょうど今、国際データコーポレーション(IDC)が発表した最新の「中国人工知能クラウドサービス市場調...
[[349350]] 10月29日、北京亦荘イノベーション発表体験研究イベントで記者らが自動運転タク...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
さて、一年で最も暑い時期、真夏が正式に到来しました。今年の猛暑は7月11日から8月19日までの40日...