わずか 1/500 のデータで Atari ゲームをマスターしましょう!清華大学クロススクール研究所の助教授が小規模データRLモデルを提案し、AIコミュニティの波を引き起こした。

わずか 1/500 のデータで Atari ゲームをマスターしましょう!清華大学クロススクール研究所の助教授が小規模データRLモデルを提案し、AIコミュニティの波を引き起こした。

[[434129]]

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

最近、ある研究が学界で幅広い注目を集め、白熱した議論を巻き起こしています。ディープマインドとグーグルはこの問題を議論するために社内非公開会議を開いたと報じられている。多くのファンを持つテクノロジー系YouTubeブロガーのYannic Kicher氏は、この論文を説明するために30分のビデオまで作成した。学者たちはこれを「完全にゲームを変える」、「RL における大きな進歩」、「これは素晴らしい」とさえ表現しています。チームの先生自身もTwitterでこう言っています。「同じデータを使って、RLエージェントがピクセルから直接人間を上回るパフォーマンスを達成したのはこれが初めてです!」これにより、一般的な強化学習が現実世界のシナリオに近づき、たとえばロボットのサンプリング効率に焦点が当てられるようになります。

さて、この記事の主役であるEfficientZeroを紹介しましょう。

EfficientZero アルゴリズムは、清華大学学際情報科学研究所の Gao Yang 氏のチームによる「限られたデータで Atari ゲームをマスターする」という新しい研究で提案されました。 EfficientZero のパフォーマンスは 2 億フレームで DQN (Deep Q-Learning) に近いですが、消費するデータは 500 分の 1 です。わずか 2 時間のトレーニングで、現実に近い複雑な状況の Atari ゲームにおいて、平均的な人間のレベルの 190.4%、つまりパフォーマンスの中央値の 116.0% をゼロから達成できます。

論文リンク: https://arxiv.org/abs/2111.00210#

サンプル効率は強化学習における最も厄介な課題であり、重要な手法のトレーニングには数百万 (または数十億) の環境ステップが必要です。 MuZero モデルから改良された効率的な視覚 RL アルゴリズムである EfficientZero は、ゼロからトレーニングされ、最終的にわずか 2 時間のトレーニング データで Atari の同じ条件下での平均的な人間のパフォーマンスを上回りました。

MuZero は、ツリーベースの検索と学習済みモデルを組み合わせて、基礎となるダイナミクスの知識を必要とせずに、さまざまな困難で視覚的に複雑なドメイン全体で優れたパフォーマンスを実現します。 AI Technology Review は以前の記事で MuZero について報告しました: DeepMind がまた大きな動きを見せました!新しいアルゴリズム「MuZero」がNatureでトップとなり、AIは人間の計画に一歩近づきました。では、なぜ Atari ゲームを選ぶのでしょうか? Atari ゲームには多数のシーンとさまざまなルールがあり、ある程度複雑な現実環境に適合しているため、多要素環境での強化学習アルゴリズムを検証するためのパフォーマンステスト標準として長い間使用されてきました。 EfficientZero の低いサンプル複雑性と高いパフォーマンスにより、強化学習を現実世界の適用性に近づけることができます。

図に示すように、EfficientZero は、人間の平均標準スコアの中央値で、以前の SoTA のパフォーマンスをそれぞれ 170% と 180% 上回っています。これは、Atari 100k ベンチマークで平均的な人間のパフォーマンスを上回った最初のアルゴリズムです。

強化学習は困難な問題に対して大きな成功を収めてきました。 2015年にDeepMindが開発したDQNネットワーク、中国の囲碁世界チャンピオンである柯潔を破ったAlphaGo、Dota2でチーム戦ができるOpenAI Fiveなど。しかし、これらは膨大な量のデータに基づいて訓練された戦略です。 AlphaZero がチェスの初心者からトップ プレイヤーになるまでに 2,100 万回のゲームを要しました。プロのチェス プレイヤーは 1 日に約 5 回のゲームしか完了できません。つまり、人間のプレイヤーが同じ量の経験を積むには 11,500 年かかることになります。

サンプルの複雑さは、シミュレーションやゲームに RL アルゴリズムを適用する上で障害にはなりません。ロボット工学、ヘルスケア、広告推奨システムなどの現実の問題に関しては、サンプルの複雑さを低く抑えながら高いパフォーマンスを達成することが重要です。

過去数年間で、サンプル効率の高い強化学習において大きな進歩を遂げてきました。実際の環境からのデータとモデルからの「想像上のデータ」の両方を使用して、ポリシーをトレーニングできます。しかし、ほとんどの成功は州ベースの環境において起こります。たとえば、画像ベースの環境では、両方のニーズを満たす必要があることは珍しくありません。MuZero と Dreamer V2 は超人的なパフォーマンスを発揮しますが、サンプル効率は良くありません。SimPLe などの他の方法は非常に効果的ですが、パフォーマンスは劣ります。最近、モデルフリーのアプローチは、データ拡張や自己教師あり学習法などのデータ効率の高いメカニズムに適用され、ある程度の成功を収めています。しかし、それはまだ人間の期待には及ばない。

サンプル効率を改善し、優れたパフォーマンスを維持するために、モデルベースのビジュアル RL エージェントに、自己教師あり環境モデル、モデル複合エラーを軽減するメカニズム、およびポリシー外の問題を修正する方法が不可欠です。 EfficientZero は、MuZero に基づいて、「時間的な対照的な一貫性の使用、予測される報酬の不確実性の低減、オフライン ポリシー値のオフセットの修正」という 3 つの点を改善します。

DeepMind Control (DMControl) スイートのシミュレートされたロボット環境での実験では、EfficientZero は最先端のパフォーマンスを達成し、実際の状態から直接学習するモデルである状態 SAC を上回り、EfficientZero の有効性がさらに検証されました。深層強化学習アルゴリズムが限られたデータによって「窒息」する時代はもう存在しないかもしれない。

[[434130]]

Gao Yang: 博士、清華大学学際情報科学研究所助教授。彼はカリフォルニア大学バークレー校で博士号を取得し、清華大学コンピュータサイエンス学部で学士号を取得しました。彼の主な研究分野はコンピュータービジョンとロボット工学です。

<<:  プライバシー技術: 「AI レース」に勝つための秘密のアドバンテージ

>>:  小さなデータ、大きな展望!米国のシンクタンクの最新レポート:長い間無視されてきた小規模データ人工知能の可能性は計り知れない

ブログ    
ブログ    

推薦する

ガートナー:2025年までにベンチャーキャピタル投資の75%がAIを活用して意思決定を行うようになる

海外メディアの報道によると、市場調査会社ガートナーは最近、投資家が人工知能やデータ分析技術をますます...

クロス検証は非常に重要です!

まず、クロス検証がなぜ必要なのかを理解する必要があります。クロス検証は、予測モデルのパフォーマンスと...

大規模機械学習の台頭と「ゼロトラスト」アーキテクチャの出現、2021年の9つの主要な技術トレンド

[[373625]]このほど、デロイト マネジメント コンサルティングは「2021 年テクノロジー ...

自動運転車の未来はどうなるのか?マッキンゼーは言う

自動運転車は徐々に現実のものとなりつつありますが、まだ多くの疑問が残っています。消費者は本当に運転の...

大規模モデルの微調整には人間のデータに頼らなければならないのでしょうか? DeepMind: フィードバック付きの自己トレーニングの方が優れている

皆さんもご存知のとおり、大規模言語モデル (LLM) はディープラーニングの状況を変えつつあり、人間...

ディープフェイクの検出が得意なのは誰でしょうか?人間か機械か?

翻訳者 |陳俊レビュー | Chonglou Deepfakesと呼ばれる詐欺アプリをご存知ですか?...

第一線のSASEがエッジAIを護衛

データの共有と流通が厳格な要求になると、もともと孤立していたビジネス ネットワークは境界を打ち破り、...

Google は NeRF を使用して、自動運転用の仮想世界でサンフランシスコを再現します

自動運転システムのトレーニングには、高精度のマップ、膨大な量のデータ、仮想環境が必要です。この方向で...

AIが麻雀をプレイする論文:理系の学生にとって麻雀はこう見える

AI 研究の初期の頃から、チェッカー、チェス、囲碁、ポーカーから StarCraft II に至るま...

Hacker Newsのランキングアルゴリズムの仕組み

[[83666]]この記事では、Hacker News ウェブサイトの記事ランキング アルゴリズムの...

...

行列のランクと行列式の意味を1つの記事で理解する

工学部の学生として、私たちは行列や行列式などの線形代数の知識を長い間使用してきました。この記事では、...

スーパーコンピューターで設計された、カエルの細胞から作られた初の生きたロボット

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...