現在、強化学習(深層強化学習DRL、マルチエージェント強化学習MARLを含む)は、ゲームやロボットなどの分野で非常に優れた成果を上げています。しかし、それにもかかわらず、強化学習が同等のレベルを達成するために必要なサンプル数(インタラクション数)は、依然として人間よりもはるかに多くなっています。大量のインタラクション サンプルが必要となるため、現実のシナリオにおける強化学習の適用が著しく妨げられます。サンプル利用の効率を向上させるには、エージェントが未知の環境を効率的に探索し、エージェントの学習を促進するために最適な戦略に到達するのに役立ついくつかの相互作用データを収集する必要があります。近年、研究者はさまざまな観点からRLの探索戦略を研究し、大きな進歩を遂げてきましたが、RLの探索戦略を詳細に分析した包括的なレビューはありません。 最新のレビューでは、約 200 件の論文から課題と将来の方向性が明らかになりました。">論文アドレス: https://arxiv.org/pdf/2109.06668.pdf この記事では、深層強化学習の分野における最初の体系的レビュー記事「深層強化学習の探索:包括的な調査」を紹介します。このレビューでは、合計で約 200 件の論文を調査し、深層強化学習とマルチエージェント深層強化学習という 2 つの主要分野における約 100 の探索アルゴリズムをカバーしました。一般的に、このレビューの貢献は次の 4 つの側面に要約できます。
次に、この記事では、このレビューの 4 つの主要な貢献について紹介します。 3種類の探索アルゴリズム最新のレビューでは、約 200 件の論文から課題と将来の方向性が明らかになりました。">上の図は、分類方法とそれに従ったレビューを示しています。このレビューでは、関連する作業を、シングルエージェント深層強化学習アルゴリズムの探索戦略とマルチエージェント深層強化学習アルゴリズムの探索戦略という 2 つの主要な方向から体系的に分類し、不確実性指向の探索戦略、内発的動機指向の探索戦略、およびその他の戦略の 3 つのサブカテゴリに分類しました。 1. 不確実性に直面した探査戦略 通常は、「不確実性に対する楽観主義」(OFU 原則)という指導原則に従います。このアプローチでは、エージェントが特定のエリアについて不確実性が高いのは、多くの場合、そのエリアの探索が不十分なためであると考えています。したがって、不確実性を楽観的に扱う、つまり、エージェントが不確実性が高いエリアを探索するように導くことで、効率的な探索という目標を達成できます。 強化学習では、一般的に 2 種類の不確実性が考慮されます。エージェントを誘導して認知的不確実性が高い領域を探索させることで、エージェントの学習を促進できます。ただし、環境的不確実性が高い領域を訪問すると、エージェントの学習プロセスが促進されないだけでなく、環境的不確実性の干渉により、通常の学習プロセスにも影響を及ぼします。したがって、より合理的なアプローチは、認識論的不確実性を楽観的に扱いながら、環境的不確実性が高い地域への訪問を可能な限り避け、探索を導くことです。これに基づいて、このレビューでは、環境の不確実性が探査で考慮されるかどうかに応じて、このタイプの不確実性ベースの探査戦略を 2 つのサブカテゴリに分類します。 最初のカテゴリは、認知的不確実性の指針の下での楽観的な探索のみを考慮します。代表的な研究には、RLSVI [2]、Bootstrapped DQN [3]、OAC [4]、OB2I [5]などがあります。2番目のカテゴリは、楽観的に探索しながら環境の不確実性の影響を回避することを考慮します。代表的な研究には、IDS [6]、DLTV [7]などがあります。 2. 内発的動機づけシグナルの探索戦略 人間は通常、積極的に世界と関わり、達成感を得るためにさまざまな方法で自分自身を動機づけます。これにヒントを得て、内発的動機付けのシグナルによって導かれる探索方法は、通常、内発的報酬を設計することによってエージェントに達成感を与えます。内発的動機付け信号を設計するために使用される技術に基づいて、シングルエージェント法における内発的動機付け信号の探索戦略は、環境ダイナミクス予測誤差を推定する方法、状態新規性推定法、および情報ゲインベースの方法の 3 つのカテゴリに分類できます。マルチエージェント問題では、現在の探索戦略は主に、状態の新規性と社会的影響という 2 つの観点から内発的インセンティブ シグナルの設計を考慮します。 環境ダイナミクスの予測誤差を推定する方法は主に予測誤差に基づいており、エージェントが予測誤差の高い状態を探索するように促します。代表的な研究としては、ICM「8」、EMI「9」などがあります。 状態新規性法は予測誤差に限定されず、状態の新しさを直接測定し、それを内発的動機付けシグナルとして使用して、エージェントがより新しい状態を探索するように誘導します。代表的な研究には、RND「10」、Novelty Search「11」、LIIR「12」などがあります。 情報ゲインベースの手法は、情報獲得を内在的報酬として利用し、エージェントがランダムな領域に集中しすぎないようにしながら、未知の領域を探索するようにエージェントを誘導することを目的としています。代表的な作品には、VIME「13」などがあります。 マルチエージェント強化学習では、「社会的影響」、つまりエージェントが他のエージェントに与える影響の測定を内発的動機付けシグナルとして使用する特殊なタイプの探索戦略があります。代表的な研究にはEITIとEDTI [14]があります。 3. その他 上記の主流の探索アルゴリズムの 2 つの主要なカテゴリに加えて、このレビューでは、他の角度から効果的な探索を実行するための他の分岐方法も調査します。これらの方法は、DRL で一般的かつ効果的な探索を実現する方法についてさまざまな洞察を提供します。 これには主に以下の3つのカテゴリが含まれます。1つは分散探索アルゴリズムに基づいており、異なる探索動作を持つ異種のアクターを使用してさまざまな方法で環境を探索します。代表的な作品には、Ape-x「15」、R2D2「16」などがあります。 2つ目はパラメータ空間ノイズに基づく探索です。ポリシー出力にノイズを追加するのとは異なり、ノイズを使用してポリシーパラメータを摂動させることで、一貫性を維持しながら探索をより多様化できます。代表的な研究にはNoisyNet [17]などがあります。このレビューでは、上記の2つのカテゴリに加えて、Go-Explore「18」、MAVEN「19」など、異なるアイデアを持つ他のいくつかの探索方法も紹介しています。 4つの大きな課題このレビューでは、効率的な探索戦略が直面する 4 つの主要な課題に焦点を当てています。
このレビューでは、これらの課題の原因と解決策をまとめています。同時に、手法の詳細を紹介する部分では、既存の手法がこれらの課題に対処できるかどうかについて詳細な分析を行っています。次の図は、単一エージェント強化学習における不確実性ベースの探索方法がこれらの課題を解決する能力を分析しています。 最新のレビューでは、約 200 件の論文が課題と将来の方向性を明らかにしています。">3つの古典的なベンチマークさまざまな探索手法の統一的な実験評価を行うために、この論文では、Montezuma's Revenge、Atari、Vizdoom という 3 つの代表的なベンチマークで、上記のいくつかの代表的な手法の実験結果をまとめています。 Montezuma’s Revenge は、報酬がまばらで遅延するため解決が難しいタスクであり、RL エージェントが肯定的なフィードバックを得るために強力な探索能力を備えている必要があります。さらに、複数の部屋を横断して高得点を獲得するには、人間レベルの記憶力と環境内のイベントの制御が必要です。 Atari シリーズ全体は、RL エージェントの学習パフォーマンスを向上させるための探索方法のより包括的な評価に重点を置いています。 Vizdoom は、さまざまな報酬構成 (密なものから非常に疎なものまで) を備えたもう 1 つの代表的なタスクです。最初の 2 つのクエストとは異なり、Vizdoom は一人称視点のナビゲーション (およびシューティング) ゲームです。これは、人間が直面する現実世界の学習環境に近い、高度なローカル観測性と潜在的な空間構造を備えた学習環境をシミュレートします。 最新のレビューでは、約 200 件の論文が課題と将来の方向性を明らかにしています。">上記の表に示されている統一された実験結果と、提案された探索の主な課題とを組み合わせて、このレビューでは、これらのタスクに対するさまざまな探索戦略の利点と欠点を詳細に分析します。 探査戦略に関する未解決の問題と将来の方向性探査戦略の研究は大きく進歩しましたが、まだ完全に解決されていない問題もいくつかあります。このレビューでは、主に以下の5つの観点から未解決の問題について議論します。
主要著者の紹介ティアンペイ・ヤン博士は現在、アルバータ大学の博士研究員です。ヤン博士は2021年に天津大学で博士号を取得しました。彼女の研究分野は主に転移強化学習とマルチエージェント強化学習です。ヤン博士は、転移学習、階層的強化学習、対戦相手モデリングなどの技術を使用して、強化学習とマルチエージェント強化学習の学習効率とパフォーマンスを向上させることに尽力しています。彼は、IJCAI、AAAI、ICLR、NeurIPS などのトップカンファレンスで 10 本以上の論文を発表し、複数のカンファレンスジャーナルの査読者を務めています。 唐紅耀博士は天津大学の博士課程の学生です。 Tang 博士の研究対象は主に強化学習と表現学習です。彼の学術的業績は、AAAI、IJCAI、NeurIPS、ICML などのトップクラスの会議ジャーナルに掲載されています。 白金佳博士はハルビン工業大学の博士課程の学生です。彼の研究分野は探索と利用、オフライン強化学習などであり、彼の学術的成果は ICML、NeurIPS などで発表されています。 Jinyi Liu は天津大学知能・コンピューティング学部の修士課程の学生です。彼の研究対象は主に強化学習とオフライン強化学習です。 江野郝博士は天津大学知能・コンピューティング学部の准教授です。彼の主な研究分野は、深層強化学習とマルチエージェントシステムです。彼は人工知能の分野で 100 件を超える国際会議およびジャーナル論文と 2 冊のモノグラフを出版しています。中国国家自然科学基金、科学技術部、天津市人工知能重点プロジェクトなど10件以上の科学研究プロジェクトを主宰、参加。研究成果はASE2019、DAI2019、CoRL2020最優秀論文賞を受賞し、ゲームAI、広告・推奨、自動運転、ネットワーク最適化などの分野に応用されている。 |
<<: 私の国は自動運転とスマート輸送のパイロットプロジェクトを実施します
>>: クラウド、持続可能性、デジタル導入 - 2022 年のアジア太平洋地域の技術予測
生成型人工知能 (GenAI) の急速な台頭により、企業はビジネス アプリケーションでこのテクノロジ...
[[272541]] 8月1日、初の科学ニュース執筆ロボット「小科」が正式に就任し、その最初の一連の...
編集者注: これは、2019年上海世界人工知能会議でSinovation Ventures会長のKa...
機械が人間と同じように反応するようにすることは、AI 研究の永遠の目標でした。機械が知覚し、考える能...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
「デノボ分子設計」は材料科学の「聖杯」です。生成的ディープラーニングの導入により、この方向は大きく...
[[181277]]オーストリアの記号計算研究所 (RISC) の Christoph Koutsc...
自然言語処理は言語の壁を打ち破り、人間と機械間の相互作用とコミュニケーションを強化します。自然言語処...
[[416150]]グローバルな AI ガバナンスのコンセンサスを実装し、信頼できる AI テクノロ...