深層強化学習探索アルゴリズムの最新レビュー: 約 200 本の論文が課題と将来の方向性を明らかにする

[[434358]]

現在、強化学習（深層強化学習DRL、マルチエージェント強化学習MARLを含む）は、ゲームやロボットなどの分野で非常に優れた成果を上げています。しかし、それにもかかわらず、強化学習が同等のレベルを達成するために必要なサンプル数（インタラクション数）は、依然として人間よりもはるかに多くなっています。大量のインタラクションサンプルが必要となるため、現実のシナリオにおける強化学習の適用が著しく妨げられます。サンプル利用の効率を向上させるには、エージェントが未知の環境を効率的に探索し、エージェントの学習を促進するために最適な戦略に到達するのに役立ついくつかの相互作用データを収集する必要があります。近年、研究者はさまざまな観点からRLの探索戦略を研究し、大きな進歩を遂げてきましたが、RLの探索戦略を詳細に分析した包括的なレビューはありません。

最新のレビューでは、約 200 件の論文から課題と将来の方向性が明らかになりました。">

論文アドレス: https://arxiv.org/pdf/2109.06668.pdf

この記事では、深層強化学習の分野における最初の体系的レビュー記事「深層強化学習の探索：包括的な調査」を紹介します。このレビューでは、合計で約 200 件の論文を調査し、深層強化学習とマルチエージェント深層強化学習という 2 つの主要分野における約 100 の探索アルゴリズムをカバーしました。一般的に、このレビューの貢献は次の 4 つの側面に要約できます。

探索アルゴリズムの 3 つのカテゴリ。このレビューでは、まず方法の特性に基づく分類方法を提案しました。方法の特性に応じて、探索アルゴリズムは主に不確実性ベースの探索、内発的動機ベースの探索、その他の3つのカテゴリに分類されます。また、シングルエージェント深層強化学習とマルチエージェント深層強化学習の両方からの探索戦略を体系的に分類しました。
4つの大きな課題。探索アルゴリズムの概要に加えて、このレビューのもう一つの大きな特徴は、探索の課題の分析です。このレビューでは、まず探索プロセスにおける主な課題を分析します。同時に、各方法について、さまざまな課題を解決する能力についても詳細に分析します。
3つの典型的なベンチマーク。このレビューでは、3 つの一般的な探索ベンチマークにおける代表的な DRL 探索方法の包括的かつ統一されたパフォーマンス比較を提供します。
5つの未解決の質問。このレビューでは、まだ存在し、対処してさらに改善する必要がある課題を分析し、強化学習探索の分野における将来の研究の方向性を明らかにします。

次に、この記事では、このレビューの 4 つの主要な貢献について紹介します。

3種類の探索アルゴリズム

最新のレビューでは、約 200 件の論文から課題と将来の方向性が明らかになりました。">

上の図は、分類方法とそれに従ったレビューを示しています。このレビューでは、関連する作業を、シングルエージェント深層強化学習アルゴリズムの探索戦略とマルチエージェント深層強化学習アルゴリズムの探索戦略という 2 つの主要な方向から体系的に分類し、不確実性指向の探索戦略、内発的動機指向の探索戦略、およびその他の戦略の 3 つのサブカテゴリに分類しました。

1. 不確実性に直面した探査戦略

通常は、「不確実性に対する楽観主義」（OFU 原則）という指導原則に従います。このアプローチでは、エージェントが特定のエリアについて不確実性が高いのは、多くの場合、そのエリアの探索が不十分なためであると考えています。したがって、不確実性を楽観的に扱う、つまり、エージェントが不確実性が高いエリアを探索するように導くことで、効率的な探索という目標を達成できます。

強化学習では、一般的に 2 種類の不確実性が考慮されます。エージェントを誘導して認知的不確実性が高い領域を探索させることで、エージェントの学習を促進できます。ただし、環境的不確実性が高い領域を訪問すると、エージェントの学習プロセスが促進されないだけでなく、環境的不確実性の干渉により、通常の学習プロセスにも影響を及ぼします。したがって、より合理的なアプローチは、認識論的不確実性を楽観的に扱いながら、環境的不確実性が高い地域への訪問を可能な限り避け、探索を導くことです。これに基づいて、このレビューでは、環境の不確実性が探査で考慮されるかどうかに応じて、このタイプの不確実性ベースの探査戦略を 2 つのサブカテゴリに分類します。

最初のカテゴリは、認知的不確実性の指針の下での楽観的な探索のみを考慮します。代表的な研究には、RLSVI [2]、Bootstrapped DQN [3]、OAC [4]、OB2I [5]などがあります。2番目のカテゴリは、楽観的に探索しながら環境の不確実性の影響を回避することを考慮します。代表的な研究には、IDS [6]、DLTV [7]などがあります。

2. 内発的動機づけシグナルの探索戦略

人間は通常、積極的に世界と関わり、達成感を得るためにさまざまな方法で自分自身を動機づけます。これにヒントを得て、内発的動機付けのシグナルによって導かれる探索方法は、通常、内発的報酬を設計することによってエージェントに達成感を与えます。内発的動機付け信号を設計するために使用される技術に基づいて、シングルエージェント法における内発的動機付け信号の探索戦略は、環境ダイナミクス予測誤差を推定する方法、状態新規性推定法、および情報ゲインベースの方法の 3 つのカテゴリに分類できます。マルチエージェント問題では、現在の探索戦略は主に、状態の新規性と社会的影響という 2 つの観点から内発的インセンティブシグナルの設計を考慮します。

環境ダイナミクスの予測誤差を推定する方法は主に予測誤差に基づいており、エージェントが予測誤差の高い状態を探索するように促します。代表的な研究としては、ICM「8」、EMI「9」などがあります。

状態新規性法は予測誤差に限定されず、状態の新しさを直接測定し、それを内発的動機付けシグナルとして使用して、エージェントがより新しい状態を探索するように誘導します。代表的な研究には、RND「10」、Novelty Search「11」、LIIR「12」などがあります。

情報ゲインベースの手法は、情報獲得を内在的報酬として利用し、エージェントがランダムな領域に集中しすぎないようにしながら、未知の領域を探索するようにエージェントを誘導することを目的としています。代表的な作品には、VIME「13」などがあります。

マルチエージェント強化学習では、「社会的影響」、つまりエージェントが他のエージェントに与える影響の測定を内発的動機付けシグナルとして使用する特殊なタイプの探索戦略があります。代表的な研究にはEITIとEDTI [14]があります。

3. その他

上記の主流の探索アルゴリズムの 2 つの主要なカテゴリに加えて、このレビューでは、他の角度から効果的な探索を実行するための他の分岐方法も調査します。これらの方法は、DRL で一般的かつ効果的な探索を実現する方法についてさまざまな洞察を提供します。

これには主に以下の3つのカテゴリが含まれます。1つは分散探索アルゴリズムに基づいており、異なる探索動作を持つ異種のアクターを使用してさまざまな方法で環境を探索します。代表的な作品には、Ape-x「15」、R2D2「16」などがあります。 2つ目はパラメータ空間ノイズに基づく探索です。ポリシー出力にノイズを追加するのとは異なり、ノイズを使用してポリシーパラメータを摂動させることで、一貫性を維持しながら探索をより多様化できます。代表的な研究にはNoisyNet [17]などがあります。このレビューでは、上記の2つのカテゴリに加えて、Go-Explore「18」、MAVEN「19」など、異なるアイデアを持つ他のいくつかの探索方法も紹介しています。

4つの大きな課題

このレビューでは、効率的な探索戦略が直面する 4 つの主要な課題に焦点を当てています。

大規模な状態-行動空間。状態-行動空間の拡大は、エージェントが探索する必要のある空間が大きくなることを意味し、間違いなく探索の難易度の上昇につながります。
まばらで遅延した報酬信号。報酬信号がまばらで遅延していると、エージェントの学習が非常に困難になり、探索メカニズムの合理性が学習効率に直接影響します。
観察時のホワイトノイズ。現実世界の環境は通常、非常にランダムであるため、状態またはアクション空間に予測できないコンテンツが頻繁に出現します。探索プロセス中にホワイトノイズの影響を回避することも、効率を向上させる重要な要素です。
マルチエージェント探索チャレンジ。マルチエージェントタスクでは、上記の課題に加えて、指数関数的に拡大する状態アクション空間、エージェント間の協調探索、ローカル探索とグローバル探索のトレードオフはすべて、マルチエージェント探索の効率に影響を与える重要な要素です。

このレビューでは、これらの課題の原因と解決策をまとめています。同時に、手法の詳細を紹介する部分では、既存の手法がこれらの課題に対処できるかどうかについて詳細な分析を行っています。次の図は、単一エージェント強化学習における不確実性ベースの探索方法がこれらの課題を解決する能力を分析しています。

最新のレビューでは、約 200 件の論文が課題と将来の方向性を明らかにしています。">

3つの古典的なベンチマーク

さまざまな探索手法の統一的な実験評価を行うために、この論文では、Montezuma's Revenge、Atari、Vizdoom という 3 つの代表的なベンチマークで、上記のいくつかの代表的な手法の実験結果をまとめています。

Montezuma’s Revenge は、報酬がまばらで遅延するため解決が難しいタスクであり、RL エージェントが肯定的なフィードバックを得るために強力な探索能力を備えている必要があります。さらに、複数の部屋を横断して高得点を獲得するには、人間レベルの記憶力と環境内のイベントの制御が必要です。

Atari シリーズ全体は、RL エージェントの学習パフォーマンスを向上させるための探索方法のより包括的な評価に重点を置いています。

Vizdoom は、さまざまな報酬構成 (密なものから非常に疎なものまで) を備えたもう 1 つの代表的なタスクです。最初の 2 つのクエストとは異なり、Vizdoom は一人称視点のナビゲーション (およびシューティング) ゲームです。これは、人間が直面する現実世界の学習環境に近い、高度なローカル観測性と潜在的な空間構造を備えた学習環境をシミュレートします。

最新のレビューでは、約 200 件の論文が課題と将来の方向性を明らかにしています。">

上記の表に示されている統一された実験結果と、提案された探索の主な課題とを組み合わせて、このレビューでは、これらのタスクに対するさまざまな探索戦略の利点と欠点を詳細に分析します。

探査戦略に関する未解決の問題と将来の方向性

探査戦略の研究は大きく進歩しましたが、まだ完全に解決されていない問題もいくつかあります。このレビューでは、主に以下の5つの観点から未解決の問題について議論します。

大規模なアクションスペースでの探索。大規模なアクション空間では、表現学習、アクションセマンティクス、その他の方法を統合して探索アルゴリズムの計算の複雑さを軽減することが、解決すべき緊急の課題となっています。
Montezuma's Revenge などの複雑なタスク (長い時間ステップ、極端にスパース、遅延報酬設定) の調査ではある程度の進歩が見られましたが、これらのソリューションは通常コストがかかり、人間の事前の知識も大量に必要になります。調査する価値のある共通の問題はまだたくさんあります。
ホワイトノイズの問題。既存のソリューションの中には、動的モデルや状態表現の追加推定を必要とするものがあり、これにより計算消費量が間違いなく増加します。また、ホワイトノイズ問題に対して、敵対的トレーニングなどの手法を用いて探索の堅牢性を高めることも研究する価値のある問題です。
収束。不確実性の探索では、線形 MDP では認識論的不確実性が 0 に収束する可能性がありますが、深層ニューラルネットワークでは次元爆発により収束が困難になります。内発的動機を探求する場合、内発的動機は経験的に設計されることが多く、理論的合理性に欠けています。
マルチエージェント探索。マルチエージェント探索に関する研究はまだ初期段階にあり、局所的な観察、不安定性、協調探索などの上記の問題はまだ十分に解決されていません。

主要著者の紹介

ティアンペイ・ヤン博士は現在、アルバータ大学の博士研究員です。ヤン博士は2021年に天津大学で博士号を取得しました。彼女の研究分野は主に転移強化学習とマルチエージェント強化学習です。ヤン博士は、転移学習、階層的強化学習、対戦相手モデリングなどの技術を使用して、強化学習とマルチエージェント強化学習の学習効率とパフォーマンスを向上させることに尽力しています。彼は、IJCAI、AAAI、ICLR、NeurIPS などのトップカンファレンスで 10 本以上の論文を発表し、複数のカンファレンスジャーナルの査読者を務めています。

唐紅耀博士は天津大学の博士課程の学生です。 Tang 博士の研究対象は主に強化学習と表現学習です。彼の学術的業績は、AAAI、IJCAI、NeurIPS、ICML などのトップクラスの会議ジャーナルに掲載されています。

白金佳博士はハルビン工業大学の博士課程の学生です。彼の研究分野は探索と利用、オフライン強化学習などであり、彼の学術的成果は ICML、NeurIPS などで発表されています。

Jinyi Liu は天津大学知能・コンピューティング学部の修士課程の学生です。彼の研究対象は主に強化学習とオフライン強化学習です。

江野郝博士は天津大学知能・コンピューティング学部の准教授です。彼の主な研究分野は、深層強化学習とマルチエージェントシステムです。彼は人工知能の分野で 100 件を超える国際会議およびジャーナル論文と 2 冊のモノグラフを出版しています。中国国家自然科学基金、科学技術部、天津市人工知能重点プロジェクトなど10件以上の科学研究プロジェクトを主宰、参加。研究成果はASE2019、DAI2019、CoRL2020最優秀論文賞を受賞し、ゲームAI、広告・推奨、自動運転、ネットワーク最適化などの分野に応用されている。

<<: 私の国は自動運転とスマート輸送のパイロットプロジェクトを実施します

>>: クラウド、持続可能性、デジタル導入 - 2022 年のアジア太平洋地域の技術予測