AIが継続的にモンスターと戦い、アップグレードできるようにするために、DeepMindは「メタバース」を作成した。

AIが継続的にモンスターと戦い、アップグレードできるようにするために、DeepMindは「メタバース」を作成した。

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

DeepMind は突然、もう一つのちょっとしたサプライズを私たちに与えてくれました。

強化学習は一般化能力が低く、単一のタスクについてしかゼロから学習できないことが多いことは誰もが知っています。

以前DeepMindが開発したAlphaZeroと同様に、囲碁、チェス、将棋をプレイすることはできますが、各ボードゲームごとにゼロからトレーニングすることしかできません。

一般化能力の低さも、AI が人工知能として批判される大きな理由です。人間の知能の素晴らしいところの一つは、過去の経験を生かして新しい環境に素早く適応できることです。例えば、四川料理を初めて食べるからといって、煮込まれた火鍋を見て戸惑うことはありません。潮汕火鍋を食べたことがありますよね? 要は、すすぎ方です。

しかし、一般化能力は一夜にして身につくものではありません。ゲームをするときと同じように、最初は簡単なタスクから始めて、徐々に複雑なタスクへとレベルアップしていきます。ゲーム「Hollow Knight」では、最初は歩き回って剣を振り回してモンスターを倒すだけですが、悪夢のような「Path of Pain」レベルでは、前のレベルで少しずつ蓄積したスキルがなければ、一人でプレイすることしかできません。

[[414006]]

1.マルチタスクメタバース

DeepMind は今回、この「カリキュラム学習」というアイデアを採用し、インテリジェントエージェントが常に拡大し、アップグレードするオープンワールドで学習できるようにしました。つまり、古いタスクに基づいて、AI の新しいタスク (トレーニング データ) が継続的に生成されます。

この世界では、エージェントは「紫色の立方体に近づく」などの単純なタスクから、「紫色の立方体に近づくか、黄色の球を赤い床に置く」などのより複雑なタスクまで、思う存分練習することができます。また、かくれんぼ(相手を見つけて相手に見つからないようにする)など、他のエージェントと遊ぶこともできます。

各ミニゲームは世界の小さな一角に存在し、何千もの小さな一角が組み合わさって、下の写真の幾何学的な「地球」のような巨大な物理シミュレーション世界を形成します。

一般的に言えば、この世界におけるタスクは、タスク = ゲーム + 世界 + プレイヤーという 3 つの要素で構成されており、タスクの複雑さは 3 つの要素間のさまざまな関係によって決まります。

複雑さを判断するための 4 つの側面は、競争力、バランス、オプション、探索の難易度です。

たとえば、「ブロックをつかむ」ゲームでは、青いエージェントは黄色いブロックを白い領域に置く必要があり、赤いエージェントは黄色いブロックを青い領域に置く必要があります。これら 2 つの目標は矛盾しているため、非常に競争的です。同時に、双方の条件は等しいため、非常にバランスが取れています。目標が単純なため、選択肢は少なく、DeepMind は探索の難易度を中高と評価していますが、これはおそらく、位置決め領域が比較的複雑なシナリオであるためです。

別の例として、「Balls Like to Play with Blocks」というゲームでは、青と赤のエージェントは、同じ色のボールとブロックを近い位置に配置するという共通の目標を持っています。

現時点では、競争性は当然非常に低く、バランスは間違いなく非常に高く、オプションは上記のゲームよりもはるかに高くなっています。探索の難易度については、ここには配置領域がなく、インテリジェントエージェントは球体とブロックをどこにでも配置できるため、難易度は小さくなります。

DeepMind は、この 4 次元に基づいて、超大規模なタスク空間の「メタバース」を作成しました。幾何学的な「地球」は、このメタバースのほんの一角であり、この 4 次元のタスク空間内の 1 点に限定されています。 DeepMind はこの「メタバース」を Xland と名付けており、そこには数十億のタスクが含まれています。

XLand 全体を見てみると、これはゲームのコレクションで構成されており、各ゲームは、トポロジと特性がスムーズに変化するさまざまなシミュレートされた世界でプレイできます。

2.生涯学習

データが揃ったので、適切なアルゴリズムを見つける必要があります。 DeepMind は、Goal Attention Network (GOAT) がより一般的な戦略を学習できることを発見しました。

具体的には、エージェントの入力には、一人称 RGB 画像、固有受容覚、ターゲットが含まれます。予備処理の後、中間出力が生成され、GOAT モジュールに渡されます。GOAT モジュールは、エージェントの現在の目標に基づいて中間出力の特定の部分を処理し、目標の論理分析を実行します。

いわゆる論理分析とは、各ゲームに対して、いくつかの方法を使用して別のゲームを構築し、戦略の価値関数の最適値の上限または下限を制限できることを意味します。

この時点で、DeepMind は次のような質問をします。「各エージェントにとって最適なタスク セットは何ですか?」言い換えれば、モンスターを倒してレベルアップする場合、剣一本で倒すだけではなく、どのようなレベル設定にすればプレイヤーは「本物の」マスターになるためにアップグレードに成功するのでしょうか?

DeepMind が出した答えは、新しいタスクはそれぞれ古いタスクに基づいて生成され、「難しすぎず、簡単すぎず」であるということです。実はこれこそが、人間が学習するときに「幸せ」を感じる、ワクワクするポイントなのです。

[[414008]]

トレーニング開始時に難しすぎたり簡単すぎたりするタスクは、早期学習を促進する可能性がありますが、トレーニング後期には学習の飽和や停滞につながる可能性があります。

実際、エージェントが 1 つのタスクに優れていることを要求するわけではなく、生涯を通じて学習すること、つまり常に新しいタスクに適応することを奨励します。

いわゆる「難しすぎる」とか「簡単すぎる」というのは、実はかなり曖昧な表現です。必要なのは、新しいタスクと古いタスクを柔軟に結び付ける定量的な方法です。

新しいタスクへの適応不足によりインテリジェントエージェントが「突然死ぬ」のを防ぐにはどうすればよいでしょうか?進化的学習は大きな柔軟性をもたらします。一般的に、新しいタスクと古いタスクは同時に実行され、複数のエージェントが各タスクの「競争」に参加します。古いタスクにうまく適応するエージェントが選択され、新しいタスクの学習を継続します。

新しいタスクでは、古いタスクの優秀なエージェントの重み、瞬間的なタスク分布、ハイパーパラメータがコピーされ、新しいラウンドの「競争」に参加します。

さらに、古いタスクの優秀なインテリジェントエージェントに加えて、多くの新しい人々も参加しており、「突然死」の問題を心配することなく、ランダム性、革新性、柔軟性が導入されています。

もちろん、あらゆるタスクに優秀なエージェントが 1 人だけ存在するわけではありません。タスクは絶えず生成され、動的に変化するため、1 つのタスクでさまざまな強みを持つエージェントをトレーニングし、さまざまな方向に進化させることができます (エージェントの相対的なパフォーマンスと堅牢性によって異なります)。

最終的には、春秋戦国時代の「百家争鳴」のように、各エージェントはそれぞれ得意とする異なるタスクのセットを形成することになります。モンスターを倒してレベルアップするというのは狭量なようで、単に地球をシミュレートしているだけです。

DeepMind は、「この組み合わせ学習システムの反復的な性質は、制限されたパフォーマンス メトリックを最適化するのではなく、反復的に定義された一般的な機能の範囲を最適化することです。これにより、エージェントは環境空間とエージェントのニューラル ネットワークの表現力によってのみ制限される、オープンエンド方式で学習できます」と述べています。

3.知性の出現

最終的に、この複雑な「メタバース」でアップグレード、進化、分岐する知的存在によって、どのような優れた種が形成されるのでしょうか?

DeepMindは、インテリジェントエージェントには、道具の使用、狩猟、計数、協力、競争などの明らかなゼロサンプル学習能力があると述べた。

具体的な例を見てみましょう。

まず、エージェントは即興で対応することを学びました。目標は3つあります。

  • 黒いピラミッドを黄色い球の隣に置きます。
  • 紫色の球を黄色のピラミッドの隣に置きます。
  • 黒いピラミッドをオレンジ色の床の上に置きます。

AIは当初、黒いピラミッドを見つけ、それをオレンジ色の床(目標3)まで運ぼうとしましたが、移動の途中で黄色い球体を見つけ、瞬時に考えを変えて「目標1は達成できる」と、黒いピラミッドを黄色い球体の隣に置きました。

2 番目の例は、高くジャンプできない場合、プラットフォーム上の紫色のピラミッドをどうやって取得できるかということです。

このタスクでは、エージェントは障害物を突破してプラットフォーム上の紫色のピラミッドに到達する方法を見つける必要があります。プラットフォームの周囲には階段や坂道などの道はありません。

インテリジェントエージェントは、テーブルを上げる方法がわからなかったため、不安のあまり「テーブルをひっくり返し」、周囲の垂直の板を何枚も倒してしまいました。すると偶然にも、プラットフォームの横に黒い石板が落ちてきました。「おい、待って、これが私が求めていた階段じゃないのか?」

このプロセスがエージェントの知能を反映しているかどうかはまだ不明です。一時的な幸運なだけかもしれません。重要なのは統計を見ることです。

5 世代のトレーニングの後、エージェントは XLand の 4,000 の独立した世界で約 70 万の独立したゲームをプレイし、340 万の独立したタスクの結果が含まれ、最終世代の各エージェントは 2,000 億のトレーニング ステップを経ました。

現在、エージェントは、人間でも完了できないいくつかのタスクを除いて、ほぼすべての評価タスクに正常に参加できます。

DeepMind によるこの研究は、ある程度、「集中的な学習」の重要性を反映しているのかもしれません。つまり、データの量だけでなく、タスクの量も大きくする必要があります。これにより、エージェントは一般化能力においても優れたパフォーマンスを発揮します。たとえば、データによると、いくつかの新しい複雑なタスクを 30 分間集中的にトレーニングするだけで、エージェントはすぐに適応できますが、強化学習を使用して最初からトレーニングしたエージェントはこれらのタスクをまったく学習できません。

将来的には、この「メタバース」がより複雑で活気に満ちたものとなり、AI が進化し続け、私たちに驚くべき (そして恐ろしい) 体験をもたらしてくれることも期待されます。

[[414011]]

<<:  未成年者の顔情報の処理には保護者の個別の同意が必要です

>>:  ビッグデータ、クラウドコンピューティング、人工知能は密接に結びついている

ブログ    
ブログ    

推薦する

センサーがなければ、電子自動化もロボットも存在しないでしょう。

センサーは、温度、湿度、光、その他の非電気量などの特定の物理的パラメータの変化を、電流、電圧などの別...

AIのデジタルシールド:インフラのサイバーセキュリティ戦略の強化

技術革新の時代において、人工知能 (AI) は変革の力として際立っています。パーソナライズされた推奨...

「質問の海」戦略を取り除き、モデルに人間のように考えることを学習させる

[[395305]]最近、Ant Security Tianzhu Labのセキュリティ専門家である...

機械学習プロジェクトが失敗する9つの理由

この記事では、データ サイエンス プロジェクトが失敗する最も一般的な理由をまとめ、落とし穴を回避する...

Adobe が超強力な人工知能ブラックテクノロジーをリリース、アーティストたちは職を失うかもしれない!

Adobe Make itのシェアを聞いて、Adobeの人工知能ブラックテクノロジーに衝撃を受けま...

...

...

小売業における AI の ROI をマクロとミクロのレベルで測定

[[259079]] AI の応用により予測コストが大幅に削減され、企業はますます新しい、予想外の方...

パフォーマンスが20%向上しました! USTCの「状態シーケンス周波数領域予測」手法:学習サンプル効率の最大化の特徴

強化学習 (RL) アルゴリズムのトレーニング プロセスでは、サポートとして環境との相互作用のサンプ...

AIと機械理解の限界を打ち破り、オックスフォード大学のコンピューターサイエンス博士の143ページの論文は3Dオブジェクトの再構築とセグメント化を学ぶ

機械に人間のように三次元の現実世界を知覚する能力を与えることは、人工知能の分野における基本的かつ長年...

機械学習の理論的基礎はどの程度しっかりしているのでしょうか?

機械学習の分野では、いくつかのモデルが非常に効果的ですが、その理由は完全にはわかっていません。逆に、...

人工知能の分野では、すでに世界中で 10 個の画期的な技術が存在します。

[[238191]]人工知能はハイテクで、多岐にわたり、多次元的で、学際的な統合装置であり、ビッグ...

人工知能の台頭でIT業界やその他の分野は失業の波に直面するかもしれない

[[237676]]画像ソース @Visual China以前、「AI従業員の最初の一団が解雇された...

適切なバランスを見つける: 人間と機械の知能を統合する

今日の急速に変化するデジタル環境において、顧客は独自のニーズや要望を満たす優れたサービスをますます期...