その場所を爆破しろ!ディープマインドによる汎用人工知能の新たなブレークスルー:重みのセットが視覚テキストと意思決定をカバー

その場所を爆破しろ!ディープマインドによる汎用人工知能の新たなブレークスルー:重みのセットが視覚テキストと意思決定をカバー

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

汎用人工知能に関しては、やはり DeepMind に頼る必要があります。

今回は、1 つのモデルと同じ重量で、Atari ゲームを非常にうまくプレイできました。

人間とチャットしたり、絵に基づいて物語を書いたりすることも問題ありません。

実際の環境でロボットアームを制御し、指示に従ってタスクを完了させることもできます。

このモデルはスペイン語で「猫」を意味する「ガト」と名付けられています。

DeepMind によれば、猫は同じ重みを持つ同じニューラル ネットワークを使用して、さまざまな環境に適応できるそうです。

具体的には、DeepMind は 604 種類の異なるタスクで AI をトレーニングしましたが、そのすべてにはまったく異なるモード、観察する要素、行動ルールがありました。

Gato は 450 のタスクでエキスパート レベルの 50% を超えただけでなく、23 の Atari ゲームで人間の平均を上回るパフォーマンスを発揮しました。

DeepMindのCEOハサビス氏は次のように率直に語った。

これは現在最も一般的なエージェントです。

この最新の成果が発表されるやいなや、AI界では即座に白熱した議論が巻き起こりました。

あるAI研究者は次のように指摘した。

ガトーは印象的です。クラウド上でトレーニングするには 50,000 ドルしかかかりません。

この金額は、PaLM トレーニングにかかる​​ 1,100 万ドルの費用のほんの一部にすぎません。 PaLM の予算で Gato を 100 倍に拡大することは完全に可能であり、おそらくうまくいくでしょう。

PaLM は、Google がリリースした 5,400 億のパラメータを持つ言語モデルです。

ある人が、AlphaStar アーキテクチャと Gato アーキテクチャを直接比較しました。

Zoom AIの著名な科学者Awni Hannun氏は、過去5週間にわたるGoogle/DeepMindによる集中的な成果の公開を直接的に嘆いた。

では、DeepMind のこの「猫」の背景にある物語は何でしょうか?

1台のトランスフォーマーですべてを実現

DeepMind は、その研究方法をたった一文で説明しました。

大規模言語モデルにヒントを得て、同様のアプローチを使用して、モデル機能をテキスト以外の領域に拡張します。

そうです、今回は、大規模な言語モデルでよく使用される Transformer アーキテクチャが役立ちました。

Transformer の本質は、1 つのシーケンスを別のシーケンスに変換することです。

したがって、さまざまなタスクを習得させたい場合は、まずあらゆる種類のデータをシーケンスにエンコードする必要があります。

言うまでもなく、テキストは本来シーケンス情報であり、従来の SentencePiece エンコーディングを使用してエンコードできます。

画像については、ViT がすでに用意しています。まず、16 x 16 ピクセルに分割し、各ピクセルに番号を付けてシーケンスに処理します。

ゲームをプレイするときのキー入力もシーケンスであり、誰もが知っている「上、上、下、下、左、左、右、ババ」などの離散値に属します。

ロボットを操作する際のセンサー信号と関節トルクは連続値であり、一連のサンプリングとエンコードを通じて離散シーケンスにも処理されます。

最終的には、すべてのシーケンス データは同じ Transformer によって処理されます。

Gato モデル全体で使用されるトレーニング データは、一般的にゲームとロボット制御タスクに偏っており、596 のタスクが 85.3% を占めています。視覚と自然言語のタスクはわずか 14.7% を占めます。

モデル アーキテクチャに関しては、シンプルさとスケーラビリティのために、最も古典的なオリジナルの Transformer に基づいていくつかの小さな変更を加えました。具体的なパラメータは次のとおりです。

Gato の 24 層、11.8 億パラメータ バージョンを Google 16x16 Cloud TPUv3 スライスでトレーニングするのに約 4 日かかりました。

展開されると、Gato は視覚および言語タスクに関して従来の Transformer や ViT と同じように動作します。

ゲームやロボットの制御における行動パターンは、「一歩ずつ進んで何が起こるかを見る」と理解できます。

まず、出力シーケンスの先頭として、ゲーム操作やロボットの動作などのタスクプロンプトが与えられます。

次に、Gato は現在の環境を観察し、アクション ベクトルに対して自己回帰サンプリングを実行し、アクションが実行されて環境が変化した後にプロセスを繰り返します...

では、このように訓練されたガトーは、さまざまなタスクをどのように遂行するのでしょうか?

わずか12億のパラメータで万能選手になる

ゲームのプレイに関しては、ガトーのパフォーマンスは 1 枚の写真にまとめることができます。

x 軸はトレーニング セット内のエキスパート レベルのパーセンテージです。0 はランダム パラメーター モデルのレベルを表します。

Y 軸は、Gato が対応するエキスパート レベルを超えた、またはそれに到達したタスクの数です。

最終結果では、ガトーは604のタスクのうち450でエキスパートレベルの50%を超えました。

より詳細な結果は次のとおりです。

アタリのゲームテストでは、ガトーは23のゲームで人間の平均を上回る成績を収め、11のゲームでは人間の2倍の成績を収めた。

これらのゲームには、古典的な卓球やレースのほか、射撃、格闘などのタイプが含まれます。

ベンジオ氏のチームが実施したBabyAIテストでは、ガトー氏はほぼすべてのレベルでエキスパートレベルの80%に達し、最も難しいボスレベルでは75%に達した。これは、以前の BabyAI リストの 2 つのモデル (それぞれ 77% と 90%) に匹敵しますが、両方のモデルは数百万のデモンストレーションを使用して特別にトレーニングされました。

△BabyAIレベルの例

メタワールド(仮想環境でロボットアームを操作する)では、ガトーは45のタスクのうち44でエキスパートレベルの50%を超え、35で80%を超え、3で90%を超えました。

メタワールドミッションの例

実際のロボットを操作する点では、以前のモデルと同様に優れています。

視覚タスクとテキストタスクに関しては、DeepMind は今回、少なくとも一般的なモデルの実現可能性を検証するためにベンチマークを実行せず、代わりにいくつかの例を示しました。

画像を説明する

△チャットダイアログ

最後に、DeepMind は Gato モデルのスケーラビリティも評価しました。

Gato は現在、個々のタスクで SOTA の結果に匹敵することはできませんが、実験結果によると、パラメータ、データ、ハードウェアの増加に伴い、Gato モデルのパフォーマンスには比例して向上する余地がまだあることが示されています。

さらに、Gato は少数サンプル学習においても一定の可能性を示しています。

DeepMind は、このような汎用モデルは、将来的にプロンプ​​トや微調整を通じて新しいタスクを迅速に学習でき、タスクごとに大規模なモデルをゼロからトレーニングする必要はないと考えています。

汎用人工知能までどれくらい遠いのでしょうか?

ガトーのパフォーマンスを見て、ネットユーザーが「衝撃を受けた」のも不思議ではない。

AGI(汎用人工知能)がもうすぐ実現すると信じている人もいます。

もちろん、反対・疑問の声も多数あります。

例えば、人工知能に冷水を浴びせる先頭に立ってきたマーカス氏は、今回も最初の一撃を放った。

10ページをよく見てください。大規模言語モデルの特徴である信頼性の低さと誤情報は、モデルがどれだけ大きくなってもそのまま残ります。

しかし、いずれにせよ、DeepMind の汎用人工知能に向けた取り組みは、常に新たな成果を生み出しています。

実際、2013年にGoogleを驚かせたAtariのゲームAIであれ、世界的に有名なAlphaGoやAlphaStarであれ、DeepMindがこれらの中間結果を通じて達成したい究極の目標は、常に汎用人工知能というキーワードにたどり着いています。

昨年、ディープマインドの主任研究科学者であり、ロンドン大学ユニバーシティ・カレッジの教授でもあるデビッド・シルバー氏は、やはり大きな議論を呼んだ論文「報酬だけで十分」の出版を主導した。

この論文では、報酬最大化に基づく人工知能の一分野としての強化学習が、汎用人工知能の開発を促進するのに十分であると考えています。

ガトー氏のチームのメンバーによると、この「猫」はディープマインド内で2年間にわたって育まれてきたという。

今回、Gatoはオフラインで教師あり学習されましたが、論文では原理的にはオフラインまたはオンラインの強化学習を使用して学習させることもできると強調しています。

ちょうど1週間前、DeepMind は次のような新しいビデオを公開しました。

私たちは次の大きなことをやろうとしています。それは、人々が難しすぎると考える多くのことに挑戦することを意味します。しかし、試してみる必要があります。

今のところ、次の大きなものは AGI のようです。

論文アドレス: https://www.deepmind.com/publications/a-generalist-agent

<<:  ロボットが高齢者介護のあらゆる問題を解決する

>>:  間隔適応型ルックアップテーブルに基づくリアルタイム画像強調法

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

BI ツールはデータ駆動型の文化を創造するのに十分でしょうか?

[[330768]] 【51CTO.com クイック翻訳】世界中でデータの爆発的な増加がしばらく続...

...

最終的にAIによってモザイクが見破られたとき、私たちのプライバシーはどこに隠されるのでしょうか?

[[239842]]モザイクといえば、多くのオタクがそれに腹を立てていると思います。1、2時間かけ...

...

...

アメリカ心理学会:AIと頻繁に接触する従業員は孤独になりやすく、病気のリスクも高まる

アメリカ心理学会は6月14日、「AIと頻繁に接触する従業員は孤独になりやすく、病気のリスクも高まる」...

スタンフォード大学とOpenAIがメタプロンプティングを提案し、最も強力なゼロショットプロンプティング技術が誕生した。

最新世代の言語モデル (特に GPT-4、PaLM、LLaMa) は、自然言語処理と生成の限界を押し...

7つの部門:AI、IoTなどの技術を活用し、廃家電リサイクル・処理のインテリジェント化を推進

近年、人工知能などの新世代情報技術や5Gなどの新世代通信技術の急速な発展に伴い、あらゆる分野で科学技...

GPT の成熟への道に関する公式メモ | OpenAI Developer Day

OpenAI は ChatGPT 製品の作成の詳細を明らかにしました。そして、この共有の波は、次の...

AI によってビデオの偽造が容易になるのでしょうか?

ああ、あの時のビデオテープが本当にあればよかったのに!ジェームズ・コミー氏は6月8日、上院情報委員会...

物体検出と注釈の時代は終わったのでしょうか?

急速に進化する機械学習の分野では、データのラベル付けという面倒で時間のかかる作業が依然として存在して...

...

人工知能の簡単な歴史 | (1)相農は人工知能の誕生を目撃した

[[391106]] 1956年、人工知能元年。その夏、米国ニューハンプシャー州ハノーバーの小さな町...

...

素人でもわかるポピュラーサイエンス:これは自然言語処理と呼ばれるものです

[[208394]] 1. 自然言語処理とは何ですか?簡単に言えば、自然言語処理(NLP)とは、コン...