人間よりも上手にゲームをプレイする:新しい強化学習アルゴリズムは、AIが真に知的な学習主体に進化するのに役立つ可能性があります

人間よりも上手にゲームをプレイする:新しい強化学習アルゴリズムは、AIが真に知的な学習主体に進化するのに役立つ可能性があります

[[384945]]

近年、人工知能 (AI) は強化学習アルゴリズムのサポートにより目覚ましい成果を達成しています。例えば、AIは囲碁、StarCraft II、Dota 2など多くの戦略ゲームや競技ゲームで世界チャンピオンレベルのパフォーマンスを達成しており、走る、ジャンプする、つかむといったロボットのスキルの自律学習を促進する上でも重要な役割を果たしています。

今、AIはさらに賢くなるかもしれません。

機械学習の重要な分野である強化学習は、環境に基づいてどのように行動するかに焦点を当てています。これは心理学の行動主義理論、つまり、生物が環境から与えられた報酬や罰の刺激を受けて徐々に刺激に対する期待を形成し、最大の利益を得られる習慣的な行動を生み出す方法に触発されています。

しかし、このアルゴリズム的アプローチには明らかな欠点があります。多くの成功事例は、大量の情報に基づく慎重に設計された報酬メカニズムを通じてのみ達成できます。フィードバックがほとんどない複雑な環境に遭遇すると、強化学習アルゴリズムは簡単に障害に遭遇する可能性があります。そのため、これまでの AI は、通常、まばらで誤解を招く報酬を伴う困難な探索問題を解決するのが困難でした。

本日 Nature に掲載された研究では、古典的な Atari 2600 ゲームでトップクラスの人間プレイヤーや以前の AI システムを上回り、Montezuma's Revenge や Pitfall などのさまざまな探索ゲームで最先端のレベルに達する、新しいクラスの強化学習アルゴリズムが提案されています。

この論文の主な著者は OpenAI と Uber AI Labs の人たちです。彼らはこのタイプのアルゴリズムを Go-Explore と呼んでいます。このタイプのアルゴリズムは複雑な環境を探索する方法を改善し、AI が真にインテリジェントな学習体へと進化するための重要なステップとなる可能性があります。実際、Uber AI Labs は 2018 年にはすでに探索ゲームで Go-Explore アルゴリズムのパフォーマンスを実証していました。

[[384946]]

図|探検ゲームにおけるGo-Exploreのパフォーマンス(出典:YouTube)

AIの探索能力の核心

論文の第一著者および責任著者である Adrien Ecoffet 氏は、現在 OpenAI の研究科学者です。彼の関心は、強化学習 (特に探索と品質の多様性に着想を得た手法) と人工知能の安全性 (特に道徳的一貫性) です。近年は、マルチエージェント環境における出現する複雑性の研究に重点を置いています。OpenAI に入社する前は、Uber AI Labs でも働いていました。

強化学習アルゴリズムをさらに一歩進めたい場合は、適切な解決策を見つける必要があります。エスコフィエ氏とその同僚は、従来のアルゴリズムの探索能力を妨げてきた主な問題が 2 つあると分析しました。

1 つ目は「分離」です。これは、状態空間の特定の領域がまだ有望であるという証拠があるにもかかわらず、アルゴリズムがそれらの領域に戻るのを途中で停止する状態です。解離は、探索する領域が複数ある場合に特に発生する可能性が高く、エージェントが 1 つの領域を部分的に探索し、2 番目の領域に切り替えて、最初の領域を訪問する方法を忘れる可能性があるためです。

2 つ目は脱線です。アルゴリズムの探索メカニズムによって、エージェントが以前に訪れた状態に戻れなくなり、探索が直接妨げられるか、探索メカニズムが強制的に最小化されて効果的な探索が行われなくなります。

これらの概念をどのように理解すればよいでしょうか?この物語は、Go-Explore アルゴリズムがリリースされる前に始まります。簡単に言えば、探索ゲームにおける報酬の希薄化の問題を解決するために、アルゴリズム科学者は通常、内発的動機付け (IM) の方法を採用します。つまり、報酬を環境全体に人工的に均等に分配して、エージェントが新しい領域や新しい状態を探索するように促します。

図 | 「分離」状態の図解 (出典: arXiv)

上の図に示すように、緑色の領域は内発的報酬を表し、白色の領域は内発的報酬のない領域を表し、紫色の領域はアルゴリズムが現在探索している領域を表します。

たとえば、エージェントが 2 つの迷路の入り口の間にいる場合、左の迷路からランダムに探索を開始します。IM アルゴリズムでは、エージェントが新しい動作をランダムに試して、より内在的な報酬メカニズムを見つける必要があるため、左の迷路の 50% を探索した後、エージェントはいつでも右の迷路の探索を開始できます。

しかし、ディープラーニング自体には「破滅的な忘却」という問題があり、ニューラルネットワークを使用して新しいタスクを学習する場合、ネットワーク内のパラメータを更新する必要がありますが、以前のタスクから抽出された知識もこれらのパラメータに保存されます。そのため、新しいタスクを学習するたびに、インテリジェントエージェントは古いタスクの学習から得た知識を忘れてしまい、人間のように以前に学習した経験や知識を使用して同様のスキルを迅速に学習することができません。

そのため、右側の迷路の探索を完了した後、エージェントは左側の迷路で何を探索したかを覚えていません。さらに悪いことに、左側の迷路の一部は初期段階で探索されているため、エージェントをさらに探索するように刺激する内発的報酬はほとんどありません。研究者たちはこの状況を次のように要約しました: アルゴリズムは、内発的動機付けを提供する状態範囲から切り離されています。エージェントがこれらのエリアを訪れたと考えると、詳細な探索動作が停滞し、未探索のまま残っている広いエリアを見逃してしまう可能性があります。

報酬メカニズムに単純に従うと、エージェントは行き止まりに陥る可能性があります。したがって、探索問題の核心は、エージェントが有望な状態と領域を明示的に「記憶」し、新しい領域を探索する前にそれらに戻ることができるようにすることで、「切断」と「脱線」を明示的に回避することにあります。

Go-Explore のアルゴリズム ロジック 分離を回避するために、Go-Explore はエージェントが環境内で訪れたさまざまな状態の「アーカイブ」を構築し、どの状態も忘れられないようにします。下の図に示すように、初期状態のみを含むアーカイブから開始して、このアーカイブを構築するために継続的に反復します。

図|Go-Explore法の概要(出典:Nature)

まず、アーカイブから戻る状態を選択し (a)、選択した状態に戻り (b)、その状態から探索し (c)、戻りと探索のプロセス中に遭遇した各状態を低次元セル表現にマッピングし (d)、遭遇したすべての新しい状態でアーカイブを更新します (e)。

このプロセス全体は古典的な計画アルゴリズムを彷彿とさせますが、その潜在能力は深層強化学習の研究ではあまり評価されていません。しかし、強化学習で関心のある問題(前述の Atari ゲームの探索難易度問題など)は高次元であり、報酬がまばらで確率性があるため、有効な計画方法が知られておらず、探索する状態空間が大きすぎて網羅的に探索できず、ランダムな遷移によりノードが完全に拡張されたかどうかを知ることが不可能になります。

Go-Explore は、計画アルゴリズムの原理をこれらの困難な問題に移植したものと見ることができます。

これまでの強化学習アルゴリズムは、リターンと探索を分離するのではなく、プロセス全体にわたって探索を混合し、通常はわずかな時間でランダムなアクションを追加したり、ランダムな「ポリシー」 (通常はニューラル ネットワーク) からサンプリングしたりしていました。ポリシーは、各状態で実行するアクションを決定する関数です。

Go-Explore は探索前に戻ることで、戻る際の探索を最小限に抑えて脱線を回避し、その後は未知の領域をより深く探索することに専念できます。

Go-Explore は、強化学習タスク用のシミュレーターの使いやすさと幅広い使用を可能にするユニークな機会も提供します。シミュレーターは、以前の状態を保存してすぐに戻ることができる「再開可能な環境」であり、脱線を完全に排除します。

再開可能な環境のこの特性を利用して、Go-Explore は「探索フェーズ」中に継続的に再開 (アーカイブ内の状態から探索アクションを実行) することで環境の領域を徹底的に探索し、最終的に見つかった最高スコアの軌跡 (アクション シーケンス) を返します。

このような軌道は、ランダム性や予期しない結果に対して堅牢ではありません。たとえば、ロボットが滑って重要な方向転換に失敗し、軌道全体が無効になる可能性があります。この問題に対処するために、Go-Explore は「デモンストレーションからの学習」(LFD) アプローチを通じて堅牢なポリシーもトレーニングします。このアプローチでは、探索フェーズからの軌跡が通常の人間の専門家のデモンストレーションに置き換えられ、十分なランダム性を持つ環境バリアントでの堅牢性が確保されます。

結果はどうですか?

Atari ベンチマーク スイートは、強化学習アルゴリズムの重要なベンチマークであり、さまざまなレベルの報酬のスパース性と欺瞞を備えたさまざまなゲームが含まれているため、Go-Explore に適したテストベッドです。

テストでは、Go-Explore の平均パフォーマンスは「スーパーヒーロー」であり、11 のゲーム競争テストでこれまでの最高レベルのアルゴリズムを上回りました。 Montezuma's Revengeでは、Go-Exploreのパフォーマンスはこれまでの最先端スコアの4倍でした。Pitfall!では、Go-Exploreの探索能力は平均的な人間のパフォーマンスを超えましたが、これまでの多くのアルゴリズムはまったくスコアを出すことができませんでした。実験結果は、強化学習研究の長年の焦点であった大きな進歩を示しました。

図|ゲーム「モンテスマの復讐」におけるGo-Exploreのパフォーマンス(出典:YouTube)

[[384947]]

図|ゲーム「ピットフォール」でのGo-Exploreのパフォーマンス!(出典:YouTube)

異なるアルゴリズムには異なる計算能力が必要であることに注意する価値があります。 Go-Explore によって処理されるフレームの数 (300 億) は、Ape-X (220 億) や NGU (350 億) などの他の分散強化学習アルゴリズムの数とほぼ同じですが、古いアルゴリズムは一般的に処理するフレーム数が少なく、その多くは収束の兆候 (つまり、それ以上の進歩は期待できない) を示しており、その多くでは数十億のフレームを妥当な時間内に処理できるかどうかは不明です。

図 | Atari プラットフォーム ゲームにおける Go-Explore の強力なパフォーマンス (出典: Nature)

さらに、Go-Explore の機能は難しい探索問題に限定されません。OpenAI gym が提供する 55 の Atari ゲームすべてで超人的なスコアの軌跡を見つけます。これは前例のない偉業であり、ゲーム軌跡の 85.5% が、これまでの最先端の強化学習アルゴリズムよりも高いスコアを獲得しています。

研究者らは、実際のアプリケーションでは、有用な機能はドメイン知識に基づいて定義できることが多いと述べた。Go-Explore は、この簡単に入手できるドメイン知識を活用して、探索関連機能のみを含む機能ユニットを構築することで、パフォーマンスを大幅に向上させることができる。Go-Explore によって生成された戦略は、Montezuma's Revenge で平均 170 万点を超えており、これは既存のテクノロジーの 150 倍である。

Go-Explore は探索ゲームで優れたパフォーマンスを発揮するだけでなく、ロボットにも使用できます。

ロボット工学は、強化学習の有望な応用分野です。ロボット工学タスクの高レベルの目標 (マグカップを戸棚に入れるなど) を定義するのは簡単な場合が多いですが、十分に密度の高い報酬関数 (マグカップに向かって移動する、マグカップをつかむなどのアクションにつながるすべての低レベルの運動コマンドに報酬を与えるなど) を定義するのははるかに困難です。

Go-Explore を使用すると、このような密な報酬関数を放棄し、高レベルのタスクに対してスパースな報酬関数のみを考慮することができます。

図 | Go-Explore は、困難で報酬がまばらなシミュレーション ロボット タスクを解決できます (出典: Nature)

研究者らは、ロボットアームのシミュレーションを使用して、Go-Explore が現実世界の困難な探索タスクを解決できることを実証しました。ロボットアームは物体を拾い、4 つの棚のうちの 1 つに置く必要があります。そのうち 2 つはラッチ付きのドアの後ろにあり、指定されたターゲット棚に物体が置かれた場合にのみ報酬が与えられます。

継続的制御のための最先端の強化学習アルゴリズムである Proximal Policy Optimization (PPO) は、この環境で 10 億フレームのトレーニングを行った後も報酬に遭遇せず、このタスクの困難な探索の性質を示しています。Go-Explore は、探索フェーズ中に 4 つの棚にオブジェクトを配置するための軌道を迅速かつ確実に発見できます。Go-Explore によって発見された軌道の堅牢性分析では、99% のケースで堅牢なポリシーを生成できることが示されています。

さらなる可能性

ポリシーベースの Go-Explore には、探索と安定した学習を促進するその他のイノベーションも含まれています。その中で最も重要なのは、自己模倣学習、動的エントロピー増加、ソフト軌道、動的イベント制限であり、これらについては論文の方法セクションで詳しく説明されています。

研究者らは、この研究で提案された Go-Explore アルゴリズム ファミリーの有効性は、ロボット工学、言語理解、医薬品設計など、多くの分野で進歩をもたらすことを示していると述べています。論文で言及された例は、Go-Explore が実現できる可能性のある機能のほんの一部に過ぎず、将来のアルゴリズム研究に多くの刺激的な可能性をもたらします。

論文によると、今後の研究の重要な方向性は、圧縮ベースの方法、対照予測コーディング、補助タスクなどを通じて学習した単位表現を改善し、Go-Explore をより複雑な領域に一般化できるようにすることです。

さらに、Go-Explore 探索フェーズの計画的な性質は、他の強力な計画アルゴリズム (MCTS、RRT など) を高次元状態空間に移植する可能性も浮き彫りにしています。これらの新しいアイデアは、アルゴリズムの汎用性、パフォーマンス、堅牢性、効率性を向上させる豊富な可能性を提供します。

この研究で示された洞察は、以前に発見した状態を記憶し、そこに戻り、そこから探索するという単純なロジックが AI アルゴリズムに不可欠であり、インテリジェント エージェントの進歩の基本的な機能である可能性があることを示唆しています。 Go-Explore の内外におけるこれらの洞察は、より強力な AI システムを作成する能力に新たな影響を及ぼします。

参考文献:

https://www.nature.com/articles/s41586-020-03157-9

https://www.youtube.com/watch?v=u6_Ng2oFzEY&feature

https://towardsdatascience.com/a-short-introduction-to-go-explore-c61c2ef201f0

https://eng.uber.com/go-explore/

https://arxiv.org/abs/1901.10995

詳しくはこちら

<<:  将来、ロボットがあなたの仕事を奪うでしょうか?慌てずに専門家の言うことに耳を傾けましょう

>>:  無人バスに乗ってみませんか?テクノロジーは未来を変えることができるでしょうか?

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

Python の例を使用して TensorFlow を始めるにはどうすればよいでしょうか?

[[223516]]この記事に付属するコードは、ここからダウンロードできます。 https://g...

PaddlePaddle と TensorFlow の比較分析

この記事では主に、フレームワークの概要、システム アーキテクチャ、プログラミング モデル、分散アーキ...

私はトップ200のAIツールを調査しましたが、業界が少し飽和状態にあることがわかりました

LinkedIn では、機械学習の職種に応募する人の多くに 200 人を超える応募者がいます。 AI...

中国にはどのような人工知能の人材が必要でしょうか?

[[233697]] 「『AI』が何の略か、誰もが知っているとは思いません。アルゴリズムはあっても...

産業用AIが製造業に変革をもたらす5つの方法

すべての分野の中で、人工知能は製造業に最も大きな影響を与えており、この変革はまだ始まったばかりです。...

中国気象局:2030年までに、人工知能気象アプリケーションの開発レベルは世界最高レベルに達する

中国気象局は7月29日、「人工知能気象応用作業計画(2023-2030年)」を発表し、国内の人工知能...

人工知能はどのように農業の発展を促進できるのでしょうか?

古代より、農業は人類の生存の基盤であり、国家経済の基盤となってきました。しかし、人口の急速な増加、耕...

...

...

大型モデルの中に泥棒はいますか?上海交通大学は、パラメータを保護するために、大規模モデル用の「人間が読める指紋」を作成します

大規模モデルの事前トレーニングには膨大な量のコンピューティング リソースとデータが必要となるため、事...

人工知能に対して、人間がかけがえのない存在となるような利点は何でしょうか?

人工知能に関して言えば、かつて映画「マトリックス」で描かれたSFシーンが世界に衝撃を与え、トレンドを...

全光自動運転ネットワーク、F5G全光スマートシティの共同構築

新たなインフラ、都市のデジタルガバナンス、政府と企業のデジタル変革、デジタルホームの急速な発展に伴い...

海雲傑迅は人工知能教育分野で総合的なサービスを提供するAI Goを立ち上げようとしている

[51CTO.com オリジナル記事] 今、業界で人気のテクノロジーは何ですか?それは間違いなく人工...

「映画を見る」こと以外に、人工知能は医療の分野で何ができるのでしょうか?

6月26日に開催されたセコイア・グローバル・ヘルスケア産業サミットで、スタンフォード大学のフェイフ...