AIが継続的にモンスターと戦い、アップグレードできるようにするために、DeepMindは「メタバース」を作成した。

AIが継続的にモンスターと戦い、アップグレードできるようにするために、DeepMindは「メタバース」を作成した。

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

DeepMind は突然、もう一つのちょっとしたサプライズを私たちに与えてくれました。

強化学習は一般化能力が低く、単一のタスクについてしかゼロから学習できないことが多いことは誰もが知っています。

以前DeepMindが開発したAlphaZeroと同様に、囲碁、チェス、将棋をプレイすることはできますが、各ボードゲームごとにゼロからトレーニングすることしかできません。

一般化能力の低さも、AI が人工知能として批判される大きな理由です。人間の知能の素晴らしいところの一つは、過去の経験を生かして新しい環境に素早く適応できることです。例えば、四川料理を初めて食べるからといって、煮込まれた火鍋を見て戸惑うことはありません。潮汕火鍋を食べたことがありますよね? 要は、すすぎ方です。

しかし、一般化能力は一夜にして身につくものではありません。ゲームをするときと同じように、最初は簡単なタスクから始めて、徐々に複雑なタスクへとレベルアップしていきます。ゲーム「Hollow Knight」では、最初は歩き回って剣を振り回してモンスターを倒すだけですが、悪夢のような「Path of Pain」レベルでは、前のレベルで少しずつ蓄積したスキルがなければ、一人でプレイすることしかできません。

[[414006]]

1.マルチタスクメタバース

DeepMind は今回、この「カリキュラム学習」というアイデアを採用し、インテリジェントエージェントが常に拡大し、アップグレードするオープンワールドで学習できるようにしました。つまり、古いタスクに基づいて、AI の新しいタスク (トレーニング データ) が継続的に生成されます。

この世界では、エージェントは「紫色の立方体に近づく」などの単純なタスクから、「紫色の立方体に近づくか、黄色の球を赤い床に置く」などのより複雑なタスクまで、思う存分練習することができます。また、かくれんぼ(相手を見つけて相手に見つからないようにする)など、他のエージェントと遊ぶこともできます。

各ミニゲームは世界の小さな一角に存在し、何千もの小さな一角が組み合わさって、下の写真の幾何学的な「地球」のような巨大な物理シミュレーション世界を形成します。

一般的に言えば、この世界におけるタスクは、タスク = ゲーム + 世界 + プレイヤーという 3 つの要素で構成されており、タスクの複雑さは 3 つの要素間のさまざまな関係によって決まります。

複雑さを判断するための 4 つの側面は、競争力、バランス、オプション、探索の難易度です。

たとえば、「ブロックをつかむ」ゲームでは、青いエージェントは黄色いブロックを白い領域に置く必要があり、赤いエージェントは黄色いブロックを青い領域に置く必要があります。これら 2 つの目標は矛盾しているため、非常に競争的です。同時に、双方の条件は等しいため、非常にバランスが取れています。目標が単純なため、選択肢は少なく、DeepMind は探索の難易度を中高と評価していますが、これはおそらく、位置決め領域が比較的複雑なシナリオであるためです。

別の例として、「Balls Like to Play with Blocks」というゲームでは、青と赤のエージェントは、同じ色のボールとブロックを近い位置に配置するという共通の目標を持っています。

現時点では、競争性は当然非常に低く、バランスは間違いなく非常に高く、オプションは上記のゲームよりもはるかに高くなっています。探索の難易度については、ここには配置領域がなく、インテリジェントエージェントは球体とブロックをどこにでも配置できるため、難易度は小さくなります。

DeepMind は、この 4 次元に基づいて、超大規模なタスク空間の「メタバース」を作成しました。幾何学的な「地球」は、このメタバースのほんの一角であり、この 4 次元のタスク空間内の 1 点に限定されています。 DeepMind はこの「メタバース」を Xland と名付けており、そこには数十億のタスクが含まれています。

XLand 全体を見てみると、これはゲームのコレクションで構成されており、各ゲームは、トポロジと特性がスムーズに変化するさまざまなシミュレートされた世界でプレイできます。

2.生涯学習

データが揃ったので、適切なアルゴリズムを見つける必要があります。 DeepMind は、Goal Attention Network (GOAT) がより一般的な戦略を学習できることを発見しました。

具体的には、エージェントの入力には、一人称 RGB 画像、固有受容覚、ターゲットが含まれます。予備処理の後、中間出力が生成され、GOAT モジュールに渡されます。GOAT モジュールは、エージェントの現在の目標に基づいて中間出力の特定の部分を処理し、目標の論理分析を実行します。

いわゆる論理分析とは、各ゲームに対して、いくつかの方法を使用して別のゲームを構築し、戦略の価値関数の最適値の上限または下限を制限できることを意味します。

この時点で、DeepMind は次のような質問をします。「各エージェントにとって最適なタスク セットは何ですか?」言い換えれば、モンスターを倒してレベルアップする場合、剣一本で倒すだけではなく、どのようなレベル設定にすればプレイヤーは「本物の」マスターになるためにアップグレードに成功するのでしょうか?

DeepMind が出した答えは、新しいタスクはそれぞれ古いタスクに基づいて生成され、「難しすぎず、簡単すぎず」であるということです。実はこれこそが、人間が学習するときに「幸せ」を感じる、ワクワクするポイントなのです。

[[414008]]

トレーニング開始時に難しすぎたり簡単すぎたりするタスクは、早期学習を促進する可能性がありますが、トレーニング後期には学習の飽和や停滞につながる可能性があります。

実際、エージェントが 1 つのタスクに優れていることを要求するわけではなく、生涯を通じて学習すること、つまり常に新しいタスクに適応することを奨励します。

いわゆる「難しすぎる」とか「簡単すぎる」というのは、実はかなり曖昧な表現です。必要なのは、新しいタスクと古いタスクを柔軟に結び付ける定量的な方法です。

新しいタスクへの適応不足によりインテリジェントエージェントが「突然死ぬ」のを防ぐにはどうすればよいでしょうか?進化的学習は大きな柔軟性をもたらします。一般的に、新しいタスクと古いタスクは同時に実行され、複数のエージェントが各タスクの「競争」に参加します。古いタスクにうまく適応するエージェントが選択され、新しいタスクの学習を継続します。

新しいタスクでは、古いタスクの優秀なエージェントの重み、瞬間的なタスク分布、ハイパーパラメータがコピーされ、新しいラウンドの「競争」に参加します。

さらに、古いタスクの優秀なインテリジェントエージェントに加えて、多くの新しい人々も参加しており、「突然死」の問題を心配することなく、ランダム性、革新性、柔軟性が導入されています。

もちろん、あらゆるタスクに優秀なエージェントが 1 人だけ存在するわけではありません。タスクは絶えず生成され、動的に変化するため、1 つのタスクでさまざまな強みを持つエージェントをトレーニングし、さまざまな方向に進化させることができます (エージェントの相対的なパフォーマンスと堅牢性によって異なります)。

最終的には、春秋戦国時代の「百家争鳴」のように、各エージェントはそれぞれ得意とする異なるタスクのセットを形成することになります。モンスターを倒してレベルアップするというのは狭量なようで、単に地球をシミュレートしているだけです。

DeepMind は、「この組み合わせ学習システムの反復的な性質は、制限されたパフォーマンス メトリックを最適化するのではなく、反復的に定義された一般的な機能の範囲を最適化することです。これにより、エージェントは環境空間とエージェントのニューラル ネットワークの表現力によってのみ制限される、オープンエンド方式で学習できます」と述べています。

3.知性の出現

最終的に、この複雑な「メタバース」でアップグレード、進化、分岐する知的存在によって、どのような優れた種が形成されるのでしょうか?

DeepMindは、インテリジェントエージェントには、道具の使用、狩猟、計数、協力、競争などの明らかなゼロサンプル学習能力があると述べた。

具体的な例を見てみましょう。

まず、エージェントは即興で対応することを学びました。目標は3つあります。

  • 黒いピラミッドを黄色い球の隣に置きます。
  • 紫色の球を黄色のピラミッドの隣に置きます。
  • 黒いピラミッドをオレンジ色の床の上に置きます。

AIは当初、黒いピラミッドを見つけ、それをオレンジ色の床(目標3)まで運ぼうとしましたが、移動の途中で黄色い球体を見つけ、瞬時に考えを変えて「目標1は達成できる」と、黒いピラミッドを黄色い球体の隣に置きました。

2 番目の例は、高くジャンプできない場合、プラットフォーム上の紫色のピラミッドをどうやって取得できるかということです。

このタスクでは、エージェントは障害物を突破してプラットフォーム上の紫色のピラミッドに到達する方法を見つける必要があります。プラットフォームの周囲には階段や坂道などの道はありません。

インテリジェントエージェントは、テーブルを上げる方法がわからなかったため、不安のあまり「テーブルをひっくり返し」、周囲の垂直の板を何枚も倒してしまいました。すると偶然にも、プラットフォームの横に黒い石板が落ちてきました。「おい、待って、これが私が求めていた階段じゃないのか?」

このプロセスがエージェントの知能を反映しているかどうかはまだ不明です。一時的な幸運なだけかもしれません。重要なのは統計を見ることです。

5 世代のトレーニングの後、エージェントは XLand の 4,000 の独立した世界で約 70 万の独立したゲームをプレイし、340 万の独立したタスクの結果が含まれ、最終世代の各エージェントは 2,000 億のトレーニング ステップを経ました。

現在、エージェントは、人間でも完了できないいくつかのタスクを除いて、ほぼすべての評価タスクに正常に参加できます。

DeepMind によるこの研究は、ある程度、「集中的な学習」の重要性を反映しているのかもしれません。つまり、データの量だけでなく、タスクの量も大きくする必要があります。これにより、エージェントは一般化能力においても優れたパフォーマンスを発揮します。たとえば、データによると、いくつかの新しい複雑なタスクを 30 分間集中的にトレーニングするだけで、エージェントはすぐに適応できますが、強化学習を使用して最初からトレーニングしたエージェントはこれらのタスクをまったく学習できません。

将来的には、この「メタバース」がより複雑で活気に満ちたものとなり、AI が進化し続け、私たちに驚くべき (そして恐ろしい) 体験をもたらしてくれることも期待されます。

[[414011]]

<<:  未成年者の顔情報の処理には保護者の個別の同意が必要です

>>:  ビッグデータ、クラウドコンピューティング、人工知能は密接に結びついている

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

人工知能を活用して顧客サービス体験を向上させる 5 つの方法

人々がデジタルの世界に移行するにつれて、組織と顧客の関係はここ数年で変化してきました。顧客の期待はか...

Langchain、ChromaDB、GPT 3.5 に基づく検索強化型生成

翻訳者|朱 仙中レビュー | Chonglou概要:このブログでは、検索拡張生成と呼ばれるプロンプト...

...

...

2017年の人工知能の挫折

今年、AIプロジェクトのAlphGoとLibratusが、それぞれ囲碁とテキサスホールデムポーカーで...

インド初のAI教師アイリスが就任。3か国語を話し、個別指導を改善できる

3月8日、インド初のAI教師であるアイリス氏が就任した。彼女は、楽しみながら学ぶことで生徒の学習体験...

2018 年のネットワーク イノベーションを推進する 5 つのエンジン

IT 分野は革新を止めたことがなく、ネットワーク分野も例外ではありません。今日は、ネットワーク革新を...

人工知能に関する3カ年国家戦略が発表されました。8つの主要分野が注目されます。

昨日、工業情報化部が突然、人工知能に関するもう一つの重要な赤字文書を発行しました!文書では、2018...

5G+UAVの利点

5G+UAVの利点を見てみましょう。 [[398161]]現在、ドローンの開発は3つの大きな障害に直...

面接で使えるEslintのFix機能に隠されたアルゴリズムの質問

[[422353]] eslint が修正をサポートしていることはわかっています。--fix パラメ...

データインテリジェンスのない人工知能は人工的である

良いロボット掃除機が動いているところを見たことがありますか?最初は楽しいのですが、掃除してほしかった...

ロボットが2000万の仕事に取って代わる:最大の懸念は30代なのに何も知らないこと

[[269741]] 01 数日前、あるニュースが私の周りの多くの人々に反省と心配を抱かせました。 ...

時間変換に基づく初のビデオ移行攻撃アルゴリズム、復旦大学の研究がAAAI 2022に選出

[[441526]]近年、ディープラーニングは一連のタスク(画像認識、物体認識、セマンティックセグメ...

...