わずか 1/500 のデータで Atari ゲームをマスターしましょう!清華大学クロススクール研究所の助教授が小規模データRLモデルを提案し、AIコミュニティの波を引き起こした。

[[434129]]

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

最近、ある研究が学界で幅広い注目を集め、白熱した議論を巻き起こしています。ディープマインドとグーグルはこの問題を議論するために社内非公開会議を開いたと報じられている。多くのファンを持つテクノロジー系YouTubeブロガーのYannic Kicher氏は、この論文を説明するために30分のビデオまで作成した。学者たちはこれを「完全にゲームを変える」、「RL における大きな進歩」、「これは素晴らしい」とさえ表現しています。チームの先生自身もTwitterでこう言っています。「同じデータを使って、RLエージェントがピクセルから直接人間を上回るパフォーマンスを達成したのはこれが初めてです！」これにより、一般的な強化学習が現実世界のシナリオに近づき、たとえばロボットのサンプリング効率に焦点が当てられるようになります。

さて、この記事の主役であるEfficientZeroを紹介しましょう。

EfficientZero アルゴリズムは、清華大学学際情報科学研究所の Gao Yang 氏のチームによる「限られたデータで Atari ゲームをマスターする」という新しい研究で提案されました。 EfficientZero のパフォーマンスは 2 億フレームで DQN (Deep Q-Learning) に近いですが、消費するデータは 500 分の 1 です。わずか 2 時間のトレーニングで、現実に近い複雑な状況の Atari ゲームにおいて、平均的な人間のレベルの 190.4%、つまりパフォーマンスの中央値の 116.0% をゼロから達成できます。

論文リンク: https://arxiv.org/abs/2111.00210#

サンプル効率は強化学習における最も厄介な課題であり、重要な手法のトレーニングには数百万 (または数十億) の環境ステップが必要です。 MuZero モデルから改良された効率的な視覚 RL アルゴリズムである EfficientZero は、ゼロからトレーニングされ、最終的にわずか 2 時間のトレーニングデータで Atari の同じ条件下での平均的な人間のパフォーマンスを上回りました。

MuZero は、ツリーベースの検索と学習済みモデルを組み合わせて、基礎となるダイナミクスの知識を必要とせずに、さまざまな困難で視覚的に複雑なドメイン全体で優れたパフォーマンスを実現します。 AI Technology Review は以前の記事で MuZero について報告しました: DeepMind がまた大きな動きを見せました!新しいアルゴリズム「MuZero」がNatureでトップとなり、AIは人間の計画に一歩近づきました。では、なぜ Atari ゲームを選ぶのでしょうか? Atari ゲームには多数のシーンとさまざまなルールがあり、ある程度複雑な現実環境に適合しているため、多要素環境での強化学習アルゴリズムを検証するためのパフォーマンステスト標準として長い間使用されてきました。 EfficientZero の低いサンプル複雑性と高いパフォーマンスにより、強化学習を現実世界の適用性に近づけることができます。

図に示すように、EfficientZero は、人間の平均標準スコアの中央値で、以前の SoTA のパフォーマンスをそれぞれ 170% と 180% 上回っています。これは、Atari 100k ベンチマークで平均的な人間のパフォーマンスを上回った最初のアルゴリズムです。

強化学習は困難な問題に対して大きな成功を収めてきました。 2015年にDeepMindが開発したDQNネットワーク、中国の囲碁世界チャンピオンである柯潔を破ったAlphaGo、Dota2でチーム戦ができるOpenAI Fiveなど。しかし、これらは膨大な量のデータに基づいて訓練された戦略です。 AlphaZero がチェスの初心者からトッププレイヤーになるまでに 2,100 万回のゲームを要しました。プロのチェスプレイヤーは 1 日に約 5 回のゲームしか完了できません。つまり、人間のプレイヤーが同じ量の経験を積むには 11,500 年かかることになります。

サンプルの複雑さは、シミュレーションやゲームに RL アルゴリズムを適用する上で障害にはなりません。ロボット工学、ヘルスケア、広告推奨システムなどの現実の問題に関しては、サンプルの複雑さを低く抑えながら高いパフォーマンスを達成することが重要です。

過去数年間で、サンプル効率の高い強化学習において大きな進歩を遂げてきました。実際の環境からのデータとモデルからの「想像上のデータ」の両方を使用して、ポリシーをトレーニングできます。しかし、ほとんどの成功は州ベースの環境において起こります。たとえば、画像ベースの環境では、両方のニーズを満たす必要があることは珍しくありません。MuZero と Dreamer V2 は超人的なパフォーマンスを発揮しますが、サンプル効率は良くありません。SimPLe などの他の方法は非常に効果的ですが、パフォーマンスは劣ります。最近、モデルフリーのアプローチは、データ拡張や自己教師あり学習法などのデータ効率の高いメカニズムに適用され、ある程度の成功を収めています。しかし、それはまだ人間の期待には及ばない。

サンプル効率を改善し、優れたパフォーマンスを維持するために、モデルベースのビジュアル RL エージェントに、自己教師あり環境モデル、モデル複合エラーを軽減するメカニズム、およびポリシー外の問題を修正する方法が不可欠です。 EfficientZero は、MuZero に基づいて、「時間的な対照的な一貫性の使用、予測される報酬の不確実性の低減、オフラインポリシー値のオフセットの修正」という 3 つの点を改善します。

DeepMind Control (DMControl) スイートのシミュレートされたロボット環境での実験では、EfficientZero は最先端のパフォーマンスを達成し、実際の状態から直接学習するモデルである状態 SAC を上回り、EfficientZero の有効性がさらに検証されました。深層強化学習アルゴリズムが限られたデータによって「窒息」する時代はもう存在しないかもしれない。

[[434130]]

Gao Yang: 博士、清華大学学際情報科学研究所助教授。彼はカリフォルニア大学バークレー校で博士号を取得し、清華大学コンピュータサイエンス学部で学士号を取得しました。彼の主な研究分野はコンピュータービジョンとロボット工学です。

<<: プライバシー技術: 「AI レース」に勝つための秘密のアドバンテージ

>>: 小さなデータ、大きな展望！米国のシンクタンクの最新レポート：長い間無視されてきた小規模データ人工知能の可能性は計り知れない