なぜRLの一般化は難しいのか:バークレーの博士が認知POMDPと暗黙の部分観測性から説明する

なぜRLの一般化は難しいのか:バークレーの博士が認知POMDPと暗黙の部分観測性から説明する

[[437395]]

今日の強化学習 (RL) には、収束性が低いなど多くの問題があります。比較的弱い実験環境では、モデルテストの結果は許容範囲内に見え、多くの問題は明らかではありませんが、多数の実験により、深層強化学習の一般化は難しいことが証明されています。強化学習エージェントは非常に複雑なタスクを実行することを学習できますが、さまざまなタスクに対する一般化能力が低いようです。比較すると、教師あり深層ネットワークの方が一般化能力が優れています。

一部の研究者は、教師あり学習の場合、エラーは単に画像の誤分類であると考えています。 MDP(マルコフ決定過程)仮定に基づく強化学習では、1 回の認識エラーによって最適ではない決定が下され、間違いが続く可能性もあります。これは、強化学習が現実世界で使用できない根本的な原因でもあります。

強化学習における一般化は、理論的な観点から見ても、なぜ根本的に難しいのでしょうか?カリフォルニア大学バークレー校の博士課程学生であるディビア・ゴーシュ氏と他の研究者らは、この現象を説明する論文を共同で執筆しました。論文では、認識論的 POMDP (Epistemic POMDP) と暗黙の部分的観測可能性 (Implicit Partial Observability) という2つの側面から説明しています。論文の共同筆頭著者である Dibya Ghosh 氏は、意思決定に強化学習を使用することに焦点を当てています。彼は以前、モントリオールの Google Brain で働いていました。

論文アドレス: https://arxiv.org/pdf/2107.06277.pdf

例から学ぶ

RL の一般化を正式に分析する前に、研究者はまず 2 つの例を通して RL で一般化が難しい理由を説明します。

絵を推測するゲーム

このゲームでは、RL エージェントは各エピソードで画像を見て、できるだけ早く画像ラベルを推測しようとします (下の図 1)。各タイムステップで、エージェントは推測を行う必要があり、推測が正しければエピソードは終了します。しかし、間違った推測をした場合、エージェントは否定的なフィードバックを受け取り、次のラウンドで同じ画像に対してもう一度推測を行う必要があります。各画像には一意のラベル (正しいラベル付け関数 f_true:x—>y を使用) があるため、エージェントは画像を観測として受け取ります。これは完全に観測可能な RL 環境です。

図 1: 推測ゲームでは、エージェントは画像ラベルが正解になるまで繰り返し推測します。

無制限の数のトレーニング画像にアクセスでき、標準の RL アルゴリズムを使用してポリシーを学習すると仮定します。このポリシーは、真のラベルを確実に予測する方法 (y:=f_true(x)) を学習します。これは、MDP で最も高いリターンのポリシーでもあります。トレーニング画像の有限セットが与えられた場合でも、RL アルゴリズムは同じポリシーを学習して、画像に一致するラベルを決定論的に予測します。

しかし、この戦略はどの程度一般化できるのでしょうか?未知のテスト画像では、エージェントがラベルを正しく予測した場合、エージェントは最高の報酬を受け取ります。一方、ラベルが間違っていた場合、エージェントは正しいラベルを推測できないため、壊滅的に低い報酬を受け取ります。この壊滅的な障害モードが続くのは、最新のディープ ネットワークによって一般化が改善され、誤分類の可能性が減ったとしても、テスト セットのエラーを完全に 0 に減らすことができないためです。

この決定論的な予測戦略よりも優れた戦略は存在するのでしょうか?これは、RL ポリシーの学習では、推測ゲームの 2 つの顕著な特徴が無視されるためです。1) エージェントはエピソード内で推測が正しかったかどうかのフィードバックを受け取ります。2) エージェントは将来のタイム ステップで推測を変更できます。除去プロセス戦略では、これら 2 つの機能を有効活用できます。まず、RL は最も可能性が高いと思われるラベルを選択し、それが正しくない場合はそのラベルを除去して次に可能性の高いラベルに適応します。ただし、このようなメモリベースの適応型ポリシーは、MDP 目標を最適化し、決定論的かつメモリのないポリシーのみを学習するため、標準的な RL アルゴリズムでは学習されません。

迷路解法アルゴリズム

RL 一般化ベンチマークの定番である迷路解決問題では、エージェントが迷路内の目的地まで移動し、迷路全体を俯瞰する必要があります。このタスクは完全に観察ベースであり、エージェントには迷路図全体が提示されます。したがって、エージェントが目標までの最短経路をたどる限り、最適なポリシーはメモリがなく決定論的です。

推測ゲームと同様に、RL は、トレーニング迷路レイアウト内で報酬を最大化することで、ゴールまでの最短経路をとると思われるアクションを決定論的に実行します。

この RL ポリシーは一般化が不十分です。学習したポリシーが壁にぶつかったり、経路をたどったりするなどの間違ったアクションを選択した場合、同じ間違いを繰り返し、迷路を解くことができないからです。ただし、この失敗モードは完全に回避可能です。RL エージェントが最初にこのような誤ったアクションを実行したとしても、数回の追跡の後、エージェントは実行されたアクションが正しかったかどうかに関する情報 (次の観察に基づくなど) を受け取るからです。

可能な限り一般化するために、エージェントは、最初のアクションが予期しない結果につながる場合、選択したアクションを適応させる必要がありますが、この動作は標準的な RL の目的を回避します。

図 2: 迷路タスクでは、RL ポリシーの一般化が不十分です。つまり、間違いを犯すと、同じ間違いを繰り返し、失敗につながります (左)。適切に一般化されたエージェントは間違いを犯しますが、これらの間違いに適応して回復する能力を持っています (右)。一般化のための標準的なRLの目標では、この動作を学習しません。

図 3: トレーニング データセットが限られているため、エージェントは実際の環境を正確に復元できません。代わりに、エージェントは一貫した環境のセットのうちどれが真の環境であるかを知らないため、暗黙の部分的な観測可能性が存在します。

エージェントに小さなトレーニング セットのコンテキストが与えられると、ダイナミクス モデルの多くは提供されたトレーニング コンテキストと一致しますが、保持されたコンテキストとは異なります。これらの矛盾する仮定は、限られたトレーニング セット内でのエージェントの認識上の不確実性を反映しています。さらに重要なのは、エージェントが軌道を通じて受け取る情報によって、評価時にその認識論的不確実性が変化する可能性があることです。推測ゲームの画像について、エージェントは最初は「T シャツ / コート」のラベルのどちらにするか決めかねているとします。エージェントが「T シャツ」を推測して誤ったフィードバックを受け取った場合、エージェントは不確実性を変更し、「コート」ラベルについてより自信を持つようになります。つまり、エージェントは適応して「コート」を推測することになります。

認知的 POMDP と暗黙的部分観測可能性

RL エージェントが認識論的不確実性に対処する方法は 2 つあります。不確実性の低い領域に積極的に移動することと、情報収集を利用することです。しかし、そのどれもが「不確実性に対処する最善の方法はあるのか、もしあるとしたら、それをどのように記述するのか」という疑問に答えていません。ベイズの観点から見ると、そのような最善の解決策が存在することがわかります。最適な一般化には、エージェントの認知的不確実性によって暗黙的に作成される「部分的に観測可能なマルコフ決定プロセス (POMDP)」を解決する必要があります。

認識論的 POMDP は次のように機能します。エージェントは限られたトレーニング セットしか見たことがないため、提供されたトレーニング コンテキストと一致する可能性のある環境は多数存在します。一貫した環境のセットは、ベイジアン事後確率 P(M | D) を介してエンコードできます。認知 POMDP の各段階で、エージェントはこの一貫した環境 M~P(M | D) に配置され、その中で報酬を最大化するように求められます。

このシステムは、アクションに必要な関連情報がエージェントによって部分的にしか観察できないため、POMDP に対応します。つまり、環境内の状態は観察されますが、環境 M がこれらの状態をどのように生成したかに関する情報はエージェントには隠されています。認識論的 POMDP は、一般化問題をベイジアン RL フレームワークにインスタンス化し、より一般的には MDP 分布の下での最適な動作を研究します。

図 4: 認知 POMDP では、エージェントは各フェーズで相互に一貫した異なる環境と対話しますが、どの環境と対話しているかはわからないため、部分的な観測可能性につながる可能性があります。エージェントがうまく機能するには、どのような環境に置かれてもうまく機能する(おそらくメモリベースの)戦略を採用する必要があります。

例を使って認知 POMDP を理解しましょう。推測ゲームの場合、エージェントは画像がどのようにラベル付けされているかわからないため、各可能な環境M∼P(M|D)は、トレーニングデータセットf_M:X→Yと一致する異なる画像ラベラーに対応します。推測ゲームの認知POMDPでは、各段階で画像xとラベラーf_Mがランダムに選択され、エージェントはサンプリングされた分類器y=f_M(x)によって割り当てられたラベルを出力する必要があります。エージェントには分類子の ID が提供されず、画像 x のみが提供されるため、エージェントはこれを直接実行できません。すべてのラベラー f_M が特定の画像のラベルに事後的に同意した場合、エージェントはこのラベルを出力するだけで済みます (部分的な観測可能性はありません)。ただし、異なる分類器が異なるラベルを割り当てる場合、エージェントは平均的にパフォーマンスのよい戦略を使用する必要があります。

認識論的 POMDP は、限られたトレーニング セットのコンテキストからポリシーを学習すること、つまりトレーニング セットで完全に観測可能な RL アルゴリズムを実行することの危険性も強調しています。これらのアルゴリズムは、環境を MDP としてモデル化し、MDP 最適ポリシー、つまり決定論的ポリシーとマルコフ ポリシーを学習します。これらの戦略は部分的な観測可能性を考慮していないため、一般化が不十分になる傾向があります(例:推測ゲームや迷路タスク)。これは、MDP ベースのトレーニング目標 (最新のアルゴリズムの標準) と認知 POMDP ベースのトレーニング目標 (学習したポリシーがどの程度一般化されるかを実際に決定する) の間に不一致があることを示しています。

RL における一般化の推進

より一般化された RL ポリシーを学習するにはどうすればよいでしょうか?認識論的 POMDP は標準的なソリューションを提供します。環境全体にわたるエージェントの事後分布を計算できる場合、認識論的 POMDP を構築し、それに対して POMDP 解決アルゴリズムを実行すると、ベイズ最適性に一般化されるポリシーが生成されます。

残念ながら、ほとんどの興味深い問題では、これは完全には不可能です。それでも、認知 POMDP は、より優れた一般化機能を備えた RL アルゴリズムを設計するためのベンチマークとして機能します。最初のステップとして、研究者らは論文の中で、統計的ブートストラッピングを使用して認知 POMDP を近似する戦略を学習する LEEP と呼ばれるアルゴリズムを紹介しました。

困難な RL エージェント一般化ベンチマークである Procgen では、LEEP はテスト時に PPO よりも大幅な改善を達成しています (図 3)。 LEEP は、あくまでも大まかな近似ではありますが、認識論的 POMDP でポリシーを学習しようとすることが、より一般的な RL アルゴリズムを開発する効果的な方法になり得ることを示しています。

図 5: 認知 POMDP 目標に基づくアルゴリズムである LEEP は、4 つの Procgen タスクで PPO よりも優れた一般化を実現します。

教師あり学習では、トレーニング セットのパフォーマンスを最適化するとモデルの一般化が向上するため、RL の一般化も同じ方法で解決できると簡単に想定できますが、これは明らかに誤りです。 RL におけるトレーニング データが限られていると、完全に観測可能な問題に暗黙的な部分観測可能性が導入されます。認識論的 POMDP で形式化されたこの暗黙の部分的観測可能性は、RL で適切に一般化するには、POMDP 問題の鍵となる適応型または確率型の動作が必要であることを意味します。

最終的に、これはディープ RL アルゴリズムの一般化動作における非互換性を浮き彫りにします。トレーニング データが限られているため、MDP ベースの RL 目標は、最終的に一般化パフォーマンスを決定する暗黙的な POMDP 目標と一致しません。

<<:  AIロボットが2025年までにクラウドデータセンターの半分を占める可能性

>>:  人工知能は石油・ガス生産者の業務改善と温室効果ガス排出削減に貢献

ブログ    
ブログ    

推薦する

2022 年に予測されるロボティック プロセス オートメーションのトップ 10 トレンド

ロボティック プロセス オートメーション (RPA) を導入する企業の主な目標は、時間のかかる反復的...

準備はできたか? GNN グラフ ニューラル ネットワーク 2021 年の主要なアプリケーション ホットスポット 5 つ

[[378224]]今年から始めます。グラフニューラルネットワークは研究者の間で話題になっており、こ...

清華大学とアリババDAMOアカデミーが開発した業界初の少数サンプルNERデータセット

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

最高人民検察院は、虚偽訴訟の監視に人工知能とビッグデータを活用することを検討している。

虚偽の訴訟は、他人の正当な権利と利益を侵害するだけでなく、社会の健全性を著しく損ない、司法の公平性、...

アメリカは最強のAIを開発するために1億ドルを投資しています。あなたを狙っているわけではありませんが、ここにいる全員が職を失う可能性があります。

米企業が人工知能に1億ドルを投資人工知能といえば、誰もが知っているものでしょう。AppleファンのS...

...

...

AIビッグモデルは今後も拡大し続けるのか?

人工知能は現在、ビジネスと金融のあらゆる側面に急速に導入されています。いくつかの刺激的な成功により、...

アルゴリズムに関する漫画: コンシステント・ハッシュとは何ですか?

1年前——同システムでは、今後2年間で総注文数が約1億件に達すると予測している。 1 つの MyS...

...

...

...

...

llama.cppを勉強した後、携帯電話で大規模なモデルを実行するのはとても簡単だと分かりました

最近、オープンソース コミュニティでは、大規模モデルの最適化手法を模索する人が増えています。 LLa...

画像を外国語として扱うKuaishouと北京大学のマルチモーダル大規模モデルはDALLE-3に匹敵する

GPT や LLaMA などの現在の大規模言語モデルは、自然言語処理の分野で大きな進歩を遂げており、...