AutoRLについてまだよく知らないという人は、オックスフォード大学、Google、その他の機関の12人以上の学者がレビューを書いています。

AutoRLについてまだよく知らないという人は、オックスフォード大学、Google、その他の機関の12人以上の学者がレビューを書いています。

強化学習 (RL) とディープラーニングの組み合わせは、一連の印象的な結果をもたらし、(ディープ) 強化学習が汎用インテリジェントエージェントへの道を提供すると多くの人が信じています。ただし、RL エージェントの成功は、トレーニング中に行われた設計上の選択に大きく左右されることが多く、面倒でエラーが発生しやすい手動の調整が必要になる場合があります。これにより、RL を新しい問題に適用することが困難になり、RL の可能性を最大限に引き出すことが制限されます。

機械学習の他の多くの分野では、AutoML はそのような設計選択を自動化できることを示しており、RL に適用した場合にも有望な初期結果を生み出しています。ただし、自動強化学習 (AutoRL) には、AutoML の標準的なアプリケーションだけでなく、RL に固有の追加の課題も含まれており、当然ながら研究者はいくつかの異なるアプローチを採用することになります。

AutoRL は RL 研究の重要な分野となり、RNA 設計から囲碁のようなゲームに至るまでのさまざまなアプリケーションへの可能性を提供しています。 RL で考慮される方法と環境の多様性のため、さまざまなサブフィールドで多くの研究が行われています。オックスフォード大学、フライブルク大学、Google Research などの機関の 12 名以上の研究者が、AutoRL の分野を統一し、共通の分類法を提供することを目的とした論文を執筆しました。この研究では、各分野について詳細に議論し、将来の研究者にとって興味深いと思われる疑問を提起しています。

論文アドレス: https://arxiv.org/pdf/2201.03916.pdf

AutoRLメソッド

強化学習は、理論的には、世界モデルが不明な環境を含むあらゆるタスクに使用できます。ただし、この一般性には代償が伴い、最大の欠点は、エージェントが環境の現実的なモデルにアクセスできないことが多いことです。エージェントがシナリオ内でモデルを使用する場合、それを完全に経験から学習する必要があり、多くの課題が生じます。エージェントが探索したモデルと実際のモデルの間には誤差があり、この誤差により、エージェントは学習したモデルでは良好なパフォーマンスを発揮しますが、実際の環境ではパフォーマンスが低下します (非常に低下する場合もあります)。

この研究調査の目的は、さまざまな課題に対処できる AutoRL の分野を紹介することです。一方では、RL アルゴリズムの脆弱性により、特に実践者が最適な構成を検索するための十分なリソースを欠いている新しい領域での適用が妨げられています。多くの場合、まったく未知の問題に対して適度に強力なハイパーパラメータのセットを手動で見つけるのは、非常にコストがかかる可能性があります。 AutoRL は、RNA の設計など、このコンテキストにおける重要な問題の解決に役立つことが示されています。一方、より多くの計算から利益を得る人にとっては、アルゴリズムの柔軟性を高めることでパフォーマンスを向上できることは明らかです。これは有名な AlphaGo エージェントによって実証されており、ベイズ最適化を使用することで大幅に改善されました。

AutoRL アルゴリズムは 1980 年代初頭に有効であることが証明されました。しかし、最近の AutoML の人気により、より高度な技術の応用が生まれています。一方、最近のメタ学習の人気により、RL プロセスの自動化を目指す一連の作業が生まれています。

この論文は、これらのアプローチの分類法を提供することを試みており、アイデアを相互に刺激し合うことで将来の研究の幅を広げるとともに、RL 研究者がアルゴリズムのパフォーマンスを向上させるための一連の手法を紹介したいと考えています。 AutoRL は、オープン研究と現実世界のアプリケーションの両方において、強化学習の潜在的な影響を高める上で重要な役割を果たすことができると考えています。

さらに、この研究では、エージェントのトレーニングに使用されているデータが現在のポリシーの関数であるため、RL には非定常性があるため、AutoML に関心のある研究者を AutoRL コミュニティに引き付けることを期待しています。さらに、本研究では、特定のRL問題に対するAutoRLの環境とアルゴリズムの設計についても紹介しています。

この調査では、AutoRL コミュニティとテクノロジーなどについて調査しました。一般的に言えば、ほとんどの AutoRL メソッドは、内部ループと外部ループを組み合わせて構成できます。各ループはブラック ボックスまたは勾配ベースの方法のいずれかで最適化できますが、表 2 と図 2 に示すように、内側のループのブラック ボックス設定により勾配が使用できなくなるため、外側のループの勾配と内側のループのブラック ボックスを組み合わせることはできません。

本研究では、以下の表3に示すように、AutoRL手法を主要なカテゴリごとに分類してまとめています。手法の分類は、第4章の各セクションに反映されます。

ランダム/グリッド検索駆動型アプローチ

この研究では、まず最も単純な方法であるランダム検索とグリッド検索について説明しました。ランダム検索では、検索空間からハイパーパラメータ構成をランダムにサンプリングしますが、グリッド検索では、検索空間を固定されたポイントのグリッドに分割して評価します。ランダム検索とグリッド検索は単純なため、ハイパーパラメータのリストを選択し、ハイパーパラメータを評価し、最適な構成を選択するために使用できます。実際、グリッド検索は依然として RL で最も一般的に使用されている方法であり、グリッド検索はほとんどの場合ハイパーパラメータを調整しますが、最も効果的な方法とは見なされません。しかし、これらの古典的な方法では、最適化問題の潜在的な非定常性は考慮されていません。下の図 3 はこの問題を説明しています。

ランダム検索のパフォーマンスを向上させる一般的な方法は、ハイパーパラメータ最適化の構成評価である Hyperband を使用することです。適応型リソース割り当てと早期停止を通じてランダム検索を高速化することに重点を置いています。特に、Hyperband は「連続半減」を使用して、ハイパーパラメータ構成のセットに予算を割り当てます。 Zhang らはランダム検索とハイパーバンドを使用して、MBRL アルゴリズムのハイパーパラメータを調整しました。

ベイズ最適化

ベイズ最適化 (BO) は現在最も人気のある手法の 1 つであり、主に産業アプリケーションやさまざまな科学実験で使用されています。 RL アプリケーションの場合、BO の最も顕著な用途の 1 つは、モンテカルロ ツリー サーチ (MCTS) ハイパーパラメータや時間制御設定などの AlphaGo ハイパーパラメータの調整です。その結果、AlphaGo の自己対戦ゲームでの勝率は 50% から 66.5% に増加しました。図 4 は、RL のコンテキストにおけるベイズ最適化の一般的な概念を示しています。

進化的アルゴリズム

進化的アルゴリズムは、さまざまな最適化タスクで広く使用されています。そのメカニズムを図 5 に示します。

進化型アルゴリズムは、RL アルゴリズムのハイパーパラメータを検索するためによく使用されます。 Eriksson らは、実際の遺伝的アルゴリズム (GA) を使用して、集団内の各個体の遺伝子を通じて RL アルゴリズムのハイパーパラメータをエンコードし、SARSA ハイパーパラメータを調整しました。研究者らはこの方法を移動ロボットの制御に適用しました。 Cardenoso Fernandez 氏と Caarls 氏は、GA を使用して単純な設定で RL アルゴリズムのハイパーパラメータを調整し、局所最小値から脱出するための自動再起動戦略を組み込むことで優れたパフォーマンスを実現しました。 Ashraf らは、ザトウクジラの狩猟戦略にヒントを得た Whale Optimization Algorithm (WOA) を使用して DDPG ハイパーパラメータを最適化し、さまざまな RL タスクのパフォーマンスを向上させました。

オンラインチューニングのためのメタ勾配

メタ勾配は、RL ハイパーパラメータの非定常性を処理するための代替アプローチを提供します。メタ勾配定式化は、勾配を使用して内部ループと外部ループの両方を最適化する MAML などのメタ学習手法にヒントを得ています。特に、メタ勾配法では、(微分可能な)ハイパーパラメータのサブセットをメタパラメータ η として指定します。内側のループでは、エージェントは固定された η を使用して最適化し、(通常は固定された)損失関数を最小化するために勾配ステップを実行します。外側のループでは、外側の損失関数を最小化するために勾配ステップを実行することによって η が最適化されます。内部損失関数と外部損失関数のそれぞれの特定の選択により、新しいメタ勾配アルゴリズムが定義されます。

ブラックボックスオンラインチューニング

PBT とメタ勾配の利点は、ハイパーパラメータを動的に調整できることですが、これが唯一のアプローチではありません。実際、研究者たちはブラックボックス方式からオンライン学習にヒントを得た方法まで、さまざまなアプローチを検討してきました。このセクションでは、ハイパーパラメータが微分化できない設定で動的に適応する単一エージェント方式に焦点を当てます。

ハイパーパラメータを適応的に選択する方法は 1990 年代から重要になってきました。 Sutton と Singh (1994) は、TD アルゴリズムの適応重み付け方式に代わる 3 つの方法を提案し、Kearns と Singh (2000) は、時間差分アルゴリズムの誤差の上限を導出し、この上限を使用して λ のスケジュールを導出しました。 DowneyとSanner(2010)は、ベイズモデルの平均化を使用して、TD法のλブートストラップハイパーパラメータを選択しました。最近、White (2016) は、λ を状態の関数として適応させ、ほぼ最適なバイアスと分散のトレードオフを実現する λ-greedy を提案し、Paul ら (2019) は、オフポリシーデータによるランダム検索を使用してポリシー勾配アルゴリズムの新しいハイパーパラメータを定期的に選択する HOOF を提案しました。

環境デザイン

環境設計は、強化学習エージェントの自律学習の重要な要素です。カリキュラム学習から合成環境の学習と生成、カリキュラム学習と環境生成の組み合わせまで、ここでの目標は、環境設計を通じて機械学習エージェントの学習を高速化することです。図7に示すように:

ハイブリッドアプローチ

必然的に、いくつかの方法は単一のカテゴリに当てはまりません。実際、多くのアプローチはさまざまな方法の長所を活用しようとしており、ハイブリッド アプローチと呼ぶことができます。この研究では、これらのハイブリッド法は、BOHB、DEHBなど、表3の複数の種類の技術を使用する方法として定義されています。

<<:  米国の重要・新興技術リスト最新版:精密技術ポジショニング、AI、半導体などがリストに

>>:  人工知能 (AI): 2022 年に注目すべき 7 つのトレンド

ブログ    
ブログ    

推薦する

Nvidia 3090が180億パラメータの大規模モデルに単独で挑む。今度は国内オープンソースプロジェクトが大暴れ

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

Python 機械学習の実践: クレジットカード詐欺検出

ストーリーの背景:元のデータは個人の取引記録ですが、データ自体のプライバシーを考慮して、元のデータは...

人工知能が建設業界の様相を変えている

建設業は最も長い歴史を持つ産業の一つであると言えます。結局のところ、人々は数千年前から様々なタイプの...

金融業界のデータ管理はどこへ向かうのでしょうか?

近年、インターネット金融の波は伝統的な金融業界に課題をもたらしています。同時に、伝統的な金融企業の情...

...

Sora では 1 分間のビデオを生成するのに 1 時間以上かかります。これによりユーザー エクスペリエンスにどのような変化がもたらされるのでしょうか?

人工知能に対する人々の熱意が高まり続けるにつれ、新しく発売された製品は世界中の人々から大きな注目を集...

Transformer 機械学習モデルとは何ですか?

翻訳者 | 李睿校正:孫淑娟近年、Transformer 機械学習モデルは、ディープラーニングとディ...

3nmなのに歯磨き粉を絞ってるだけ? A17 Proの実行スコアが公開:CPUマルチコアはわずか3.6%向上

昨日Apple A17 Proが正式リリースされ、3nmプロセスを採用していますが、その性能はどのよ...

AIサポートにより、Kiteはインテリジェントなコード補完機能を追加し、操作を半分に減らし、リアルタイムで補完します。

コード補完ツール Kite は最近最新バージョンに更新され、「インテリジェント スニペット」と呼ばれ...

自動化はウエスタン証券のデジタル従業員にとっての出発点

金融テクノロジーと伝統テクノロジーの相互支援は、徐々に証券業界の発展の中核的な原動力となってきました...

AIとIoTの連携方法

人工知能 (AI) とモノのインターネット (IoT) の融合により、イノベーションの新しい時代が到...

デジタル経済における人工知能の今後の発展動向

近年、デジタル経済の継続的な発展を背景に、人工知能は急速に発展し、さまざまな応用シナリオと深く統合さ...

MLCommonsがAI安全ワーキンググループを発表

人工知能ベンチマーク組織 MLCommons は、人工知能安全性 (AIS) ワーキング グループの...

マイクロソフトリサーチアジアと教育省が協力し、AI産業と教育の統合に向けた双方にメリットのあるエコシステムの構築に取り組んでいます。

マイクロソフトリサーチアジアは、「中国の大学における人工知能人材の国際トレーニングプログラム」に関す...