2000億回のオープン学習を経て、DeepMindのAIはさらに洗練されてきた

2000億回のオープン学習を経て、DeepMindのAIはさらに洗練されてきた

[[415688]]

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

これまでに見たことのないゲームタスクで簡単に目標を達成することを学習したインテリジェントエージェントのグループが存在します。

例えば、下のような高台に直面した場合、上にある紫色のピラミッドに到達する必要があります。

[[415689]]

ジャンプする機能がなく、不安そうに物を投げ回しているようです。実際、ボードの 1 つが階段に「投げ込まれ」ていました。なんと偶然でしょう。目標は達成されました。

[[415690]]

これは単に盲目の猫が死んだネズミを捕まえるだけの例だと言う人もいるかもしれませんが、複数の実験により、エージェントがこの方法を再現できることが証明されました。

[[415691]]

そして、方法は複数あります。「私が上がらないなら、あなたが降りてください」 - ボードを使ってターゲットを直接下に引っ張るだけです。

[[415692]]

これでいいですか?

これらの洗練されたインテリジェントエージェントは DeepMind から提供されています。

現在、AI の汎用性を高め、1 つのインスタンスから推論を導き出せるようにするために、数十億のゲーム タスクを含むインテリジェント エージェント専用の「メタバース」XLand が作成されました。これにより、インテリジェント エージェントは、拡大とアップグレードが続くオープン ワールドで数億回のトレーニング セッションを通じて、優れた一般化機能を開発できるようになります。

最終結果は上で見た通りで、新しいゲームでゼロからトレーニングする必要なく、自律的にタスクを解決できるようになります。

DeepMind もこれについて、「オープン ラーニングによる汎用知能」と題した論文を発表しました。

これはどうやって行うのですか?

XLランド

最も重要な貢献の 1 つは、この巨大な「メタバース」シミュレーション空間です。

これは無数の「ゲーム惑星」を持つ「ゲーム銀河」です。各惑星のゲームは、競争性、バランス、オプション、探索の難易度の 4 つの次元によって区別されます。

たとえば、画像の左上隅に示されている「Cube Grabbing」ゲームでは、青いエージェントは黄色のキューブを白い領域に入れる必要があり、赤いエージェントは同じキューブを青い領域に入れる必要があります。

考えただけでも頭が痛くなるほど、このゲームの競争性は最大限に高められており、双方の条件・目標が同じなのでバランス値も非常に高く、目標エリアを見つける必要があるため、探索の難易度は小さくありません。

もう 1 つの例は、画像の右上隅にある「球体と立方体のペアリング」です。青/赤のエージェントは、幾何学的なオブジェクトを色ごとにグループ化し、ペアリングを完了する必要があります。このゲームには多くのオプションがありますが、競争力はそれほど強くありません。

ps. 青いゲームは完全に競争的なゲームを表し、ピンクのゲームは完全に協力的なゲームを表します。

ゲーム タスクに関係なく、このエージェント グループは最も単純なタスク (「紫色のキューブに近づく」など) から開始し、徐々に複雑さが増すゲーム (別のエージェントとの「かくれんぼ」など) のロックを解除します。各ゲームには報酬があり、エージェントの目標は報酬を最大化することです。

インテリジェントな「プレーヤー」は、ターゲットのテキスト説明を読み、RGB 画像を観察することで周囲の環境を認識し、タスクを完了します。

生成される新しいタスクは古いタスクに基づいており、難易度はちょうど良いものでなければなりません。

上記のオープンな学習環境に加えて、トレーニング方法も非常に重要です。

研究者が使用するニューラル ネットワーク トレーニング アーキテクチャは、エージェントの内部反復状態に対する注意メカニズムを提供し、プレイ中のゲームのサブ目標を推定することでエージェントの注意を継続的に誘導します。

この戦略により、エージェントはより一般的な戦略を学習できるようになります。

もう一つの疑問があります。このような広大なゲーム環境では、どのようなゲームタスクの分散が最も一般化可能なエージェントを生み出すことができるのでしょうか?

研究者たちは、各エージェントのゲーム配分を継続的に調整することで、新しいタスクはそれぞれ完了した古いタスクに基づいて生成される必要があり、難しすぎたり簡単すぎたりしてはいけないことを発見しました。

これは基本的に一般的な認識と一致しています。

彼らはまず 4 つの反復を経ました:

各タスクは複数のエージェントによって競合されます。古いタスクにうまく適応したエージェントは、重み、瞬間的なタスク分散、ハイパーパラメータなどを使用して新しいラウンドのタスクに参加し、学習を継続します。競争を「活発化」させるために、この時点で新しいエージェントも追加されます。

エージェントは明確なゼロショット学習能力を発揮する

最終的に生成された第 5 世代のエージェントは、XLand の 4,000 を超える「惑星」で約 70 万回のゲームをプレイしました。各エージェントは 2,000 億回のトレーニングを受け、340 万の固有のタスクを完了しました。

この時までに、エージェントはすべての評価タスクを正常に完了することができました (人間にとっても不可能ないくつかのタスクを除く)。

実験全体を通して、XLand のような環境やオープンなトレーニング方法を開発することで、一部の RL ベースのエージェントが明らかなゼロショット学習能力を示したことも最終的に示されています。

例としては、道具の使用、囲い、かくれんぼ、立方体探し、数え上げ、協力や競争などが挙げられます。

研究者らはまた、エージェントは新しいタスクに直面したときに「最善の解決策は何か」を知らなかったが、目標を達成するまで実験を続けたことも観察した。

冒頭で述べたラダー構築に加えて、より単純な目標を一時的に置き換える次のような例もあります。

ゲームでは、エージェントは達成すべき 3 つの目標のうち 1 つを選択する必要があります。

1. 黒いピラミッドを黄色い球の隣に置きます。

2. 紫色の球を黄色のピラミッドの隣に置きます。

3. 黒いピラミッドをオレンジ色の領域に配置します。

最初は黒いピラミッドを見つけて目標 3 を達成しようとしましたが、輸送中に黄色い球体を見つけたため、1 秒以内に考えを変えて、ピラミッドを黄色い球体のすぐ隣に置いて目標 1 を達成することを選択しました。 (全体のプロセスには6秒かかります)

[[415693]]

最後に、DeepMind の研究を読んだ後、もう 1 つ質問したいことがあります。真の汎用人工知能から私たちはどれくらい離れているのでしょうか?

(追伸: 記事の冒頭のピラミッドミッションのレッド リタードが下手なことに気付きましたか? レッド リタードは回転し続け、ブルーが構築したはしごを破壊します)

論文の宛先:

https://arxiv.org/abs/2107.12808

<<:  国防総省は「数日前」に出来事を予測できる人工知能をテストしている

>>:  スマートシティの建設が加速、ドローンが4つの面で貢献

ブログ    

推薦する

【ビッグネームがやってくる、エピソード10】柔軟なビッグデータクラウド分析プラットフォームを構築するためのハードルはゼロ

[51CTO.com からのオリジナル記事] ビッグデータとビッグデータ分析は、現在、企業の注目の的...

IoTとAIが出会うとき: テクノロジーの未来

人工知能(AI)は驚異的な進歩を遂げ、一般に応用可能な技術として社会に影響を与えています。しかし、初...

「MLOps」の考え方を取り入れるためのベストプラクティス

AI プロジェクトを構想から実装に移行することは悪循環ですが、解決策は 1 つしかありません。悪循環...

見事な! ! !テスラのエンドツーエンドのデモンストレーションビデオ分析

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

...

3つの側面での共同の取り組みにより、人工知能はスマート交通の発展に貢献します。

[[442361]]都市化の継続的な進展と自動車保有数の急速な増加により、我が国の交通発展は困難な...

Windows 11 AI「パーソナルアシスタント」、Microsoft Windows Copilot が近日登場

6月26日のニュースによると、今年5月、マイクロソフトは毎年恒例のBuild開発者会議で、Windo...

YouTube でフォローすべき 5 人のデータ サイエンティストと機械学習エンジニア

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...

人工知能は何度も「危機的状況」に陥っているが、「成長痛」をどう解決するのか?

専門家や業界関係者は、人工知能がさまざまな業界や分野に広く浸透するにつれ、現場の応用に重点を置き基礎...

IoTとロボットの連携

明らかに、ロボット工学とモノのインターネットはまったく異なる分野です。しかし、両者が互いに成長し革新...

市場における自動運転の現在のレベルはどの程度ですか?

車に乗り込み、目的地を入力し、車を始動し、車内で作業または休憩し、快適かつ安全に目的地に到着します。...

人工知能向け開発言語5つを比較するとどれが優れているのか?

我が国の人工知能は近年急速に発展しており、顔認識や医療など多くの分野で優れた成果を上げています。しか...

AIチップアーキテクチャは最先端へ向かう

企業は、AI をエッジに押し上げるための最適な武器として、さまざまなチップ アーキテクチャを採用しよ...

6144個のTPU、5400億個のパラメータ、バグ修正、ジョーク解釈など、GoogleはPathwaysを使用して大規模なモデルをトレーニングしました

Google の次世代アーキテクチャ Pathways は、大規模なモデルのトレーニングに使用されて...