その場所を爆破しろ！ディープマインドによる汎用人工知能の新たなブレークスルー：重みのセットが視覚テキストと意思決定をカバー

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

汎用人工知能に関しては、やはり DeepMind に頼る必要があります。

今回は、1 つのモデルと同じ重量で、Atari ゲームを非常にうまくプレイできました。

人間とチャットしたり、絵に基づいて物語を書いたりすることも問題ありません。

実際の環境でロボットアームを制御し、指示に従ってタスクを完了させることもできます。

このモデルはスペイン語で「猫」を意味する「ガト」と名付けられています。

DeepMind によれば、猫は同じ重みを持つ同じニューラルネットワークを使用して、さまざまな環境に適応できるそうです。

具体的には、DeepMind は 604 種類の異なるタスクで AI をトレーニングしましたが、そのすべてにはまったく異なるモード、観察する要素、行動ルールがありました。

Gato は 450 のタスクでエキスパートレベルの 50% を超えただけでなく、23 の Atari ゲームで人間の平均を上回るパフォーマンスを発揮しました。

DeepMindのCEOハサビス氏は次のように率直に語った。

これは現在最も一般的なエージェントです。

この最新の成果が発表されるやいなや、AI界では即座に白熱した議論が巻き起こりました。

あるAI研究者は次のように指摘した。

ガトーは印象的です。クラウド上でトレーニングするには 50,000 ドルしかかかりません。
この金額は、PaLM トレーニングにかかる 1,100 万ドルの費用のほんの一部にすぎません。 PaLM の予算で Gato を 100 倍に拡大することは完全に可能であり、おそらくうまくいくでしょう。

PaLM は、Google がリリースした 5,400 億のパラメータを持つ言語モデルです。

ある人が、AlphaStar アーキテクチャと Gato アーキテクチャを直接比較しました。

Zoom AIの著名な科学者Awni Hannun氏は、過去5週間にわたるGoogle/DeepMindによる集中的な成果の公開を直接的に嘆いた。

では、DeepMind のこの「猫」の背景にある物語は何でしょうか?

1台のトランスフォーマーですべてを実現

DeepMind は、その研究方法をたった一文で説明しました。

大規模言語モデルにヒントを得て、同様のアプローチを使用して、モデル機能をテキスト以外の領域に拡張します。

そうです、今回は、大規模な言語モデルでよく使用される Transformer アーキテクチャが役立ちました。

Transformer の本質は、1 つのシーケンスを別のシーケンスに変換することです。

したがって、さまざまなタスクを習得させたい場合は、まずあらゆる種類のデータをシーケンスにエンコードする必要があります。

言うまでもなく、テキストは本来シーケンス情報であり、従来の SentencePiece エンコーディングを使用してエンコードできます。

画像については、ViT がすでに用意しています。まず、16 x 16 ピクセルに分割し、各ピクセルに番号を付けてシーケンスに処理します。

ゲームをプレイするときのキー入力もシーケンスであり、誰もが知っている「上、上、下、下、左、左、右、ババ」などの離散値に属します。

ロボットを操作する際のセンサー信号と関節トルクは連続値であり、一連のサンプリングとエンコードを通じて離散シーケンスにも処理されます。

最終的には、すべてのシーケンスデータは同じ Transformer によって処理されます。

Gato モデル全体で使用されるトレーニングデータは、一般的にゲームとロボット制御タスクに偏っており、596 のタスクが 85.3% を占めています。視覚と自然言語のタスクはわずか 14.7% を占めます。

モデルアーキテクチャに関しては、シンプルさとスケーラビリティのために、最も古典的なオリジナルの Transformer に基づいていくつかの小さな変更を加えました。具体的なパラメータは次のとおりです。

Gato の 24 層、11.8 億パラメータバージョンを Google 16x16 Cloud TPUv3 スライスでトレーニングするのに約 4 日かかりました。

展開されると、Gato は視覚および言語タスクに関して従来の Transformer や ViT と同じように動作します。

ゲームやロボットの制御における行動パターンは、「一歩ずつ進んで何が起こるかを見る」と理解できます。

まず、出力シーケンスの先頭として、ゲーム操作やロボットの動作などのタスクプロンプトが与えられます。

次に、Gato は現在の環境を観察し、アクションベクトルに対して自己回帰サンプリングを実行し、アクションが実行されて環境が変化した後にプロセスを繰り返します...

では、このように訓練されたガトーは、さまざまなタスクをどのように遂行するのでしょうか?

わずか12億のパラメータで万能選手になる

ゲームのプレイに関しては、ガトーのパフォーマンスは 1 枚の写真にまとめることができます。

x 軸はトレーニングセット内のエキスパートレベルのパーセンテージです。0 はランダムパラメーターモデルのレベルを表します。

Y 軸は、Gato が対応するエキスパートレベルを超えた、またはそれに到達したタスクの数です。

最終結果では、ガトーは604のタスクのうち450でエキスパートレベルの50％を超えました。

より詳細な結果は次のとおりです。

アタリのゲームテストでは、ガトーは23のゲームで人間の平均を上回る成績を収め、11のゲームでは人間の2倍の成績を収めた。

これらのゲームには、古典的な卓球やレースのほか、射撃、格闘などのタイプが含まれます。

ベンジオ氏のチームが実施したBabyAIテストでは、ガトー氏はほぼすべてのレベルでエキスパートレベルの80％に達し、最も難しいボスレベルでは75％に達した。これは、以前の BabyAI リストの 2 つのモデル (それぞれ 77% と 90%) に匹敵しますが、両方のモデルは数百万のデモンストレーションを使用して特別にトレーニングされました。

△BabyAIレベルの例

メタワールド（仮想環境でロボットアームを操作する）では、ガトーは45のタスクのうち44でエキスパートレベルの50％を超え、35で80％を超え、3で90％を超えました。

メタワールドミッションの例

実際のロボットを操作する点では、以前のモデルと同様に優れています。

視覚タスクとテキストタスクに関しては、DeepMind は今回、少なくとも一般的なモデルの実現可能性を検証するためにベンチマークを実行せず、代わりにいくつかの例を示しました。

画像を説明する

△チャットダイアログ

最後に、DeepMind は Gato モデルのスケーラビリティも評価しました。

Gato は現在、個々のタスクで SOTA の結果に匹敵することはできませんが、実験結果によると、パラメータ、データ、ハードウェアの増加に伴い、Gato モデルのパフォーマンスには比例して向上する余地がまだあることが示されています。

さらに、Gato は少数サンプル学習においても一定の可能性を示しています。

DeepMind は、このような汎用モデルは、将来的にプロンプトや微調整を通じて新しいタスクを迅速に学習でき、タスクごとに大規模なモデルをゼロからトレーニングする必要はないと考えています。

汎用人工知能までどれくらい遠いのでしょうか?

ガトーのパフォーマンスを見て、ネットユーザーが「衝撃を受けた」のも不思議ではない。

AGI（汎用人工知能）がもうすぐ実現すると信じている人もいます。

もちろん、反対・疑問の声も多数あります。

例えば、人工知能に冷水を浴びせる先頭に立ってきたマーカス氏は、今回も最初の一撃を放った。

10ページをよく見てください。大規模言語モデルの特徴である信頼性の低さと誤情報は、モデルがどれだけ大きくなってもそのまま残ります。

しかし、いずれにせよ、DeepMind の汎用人工知能に向けた取り組みは、常に新たな成果を生み出しています。

実際、2013年にGoogleを驚かせたAtariのゲームAIであれ、世界的に有名なAlphaGoやAlphaStarであれ、DeepMindがこれらの中間結果を通じて達成したい究極の目標は、常に汎用人工知能というキーワードにたどり着いています。

昨年、ディープマインドの主任研究科学者であり、ロンドン大学ユニバーシティ・カレッジの教授でもあるデビッド・シルバー氏は、やはり大きな議論を呼んだ論文「報酬だけで十分」の出版を主導した。

この論文では、報酬最大化に基づく人工知能の一分野としての強化学習が、汎用人工知能の開発を促進するのに十分であると考えています。

ガトー氏のチームのメンバーによると、この「猫」はディープマインド内で2年間にわたって育まれてきたという。

今回、Gatoはオフラインで教師あり学習されましたが、論文では原理的にはオフラインまたはオンラインの強化学習を使用して学習させることもできると強調しています。

ちょうど1週間前、DeepMind は次のような新しいビデオを公開しました。

私たちは次の大きなことをやろうとしています。それは、人々が難しすぎると考える多くのことに挑戦することを意味します。しかし、試してみる必要があります。

今のところ、次の大きなものは AGI のようです。

論文アドレス: https://www.deepmind.com/publications/a-generalist-agent

<<: ロボットが高齢者介護のあらゆる問題を解決する

>>: 間隔適応型ルックアップテーブルに基づくリアルタイム画像強調法

ALS の少年がアリ数学コンテストで輝く!ブラックホールを研究するためにMITに独学で入学、指導者はホーキングと非常に似ている

その場所を爆破しろ！ディープマインドによる汎用人工知能の新たなブレークスルー：重みのセットが視覚テキストと意思決定をカバー

1台のトランスフォーマーですべてを実現

わずか12億のパラメータで万能選手になる

汎用人工知能までどれくらい遠いのでしょうか?

ALS の少年がアリ数学コンテストで輝く!ブラックホールを研究するためにMITに独学で入学、指導者はホーキングと非常に似ている

仕事の未来: 2030 年までに消滅する仕事はどれでしょうか?

GANを別の視点から見る: 別の損失関数

AI を活用してインテリジェントな医療システムを構築するにはどうすればよいでしょうか?

AIを活用して、ナスダックは金融業界向けのSaaSプロバイダーに変革したいと考えている

「天機」が本日ネイチャー誌の表紙を飾る：清華大学のShi Luping氏のチームが世界初の異種融合脳型チップをリリース！

触覚を感知し、自己治癒するロボットが現実になりつつある

私の国は、5G、人工知能、自動運転で目覚ましい成果を上げ、革新的な国の仲間入りを果たしました。

FacebookがFaissオープンソースリソースライブラリをリリース。精度と効率をトレードすることが機械学習の発展方向となるのか？

推薦する

AIに人間主義の精神を持ち込むことについて、フェイフェイ・リーとビル・ゲイツは今日スタンフォードで何について話したのでしょうか?

大量データのための2次パーソナルコネクションマイニングアルゴリズム（Hadoop実装）

機械学習をプログラマーにとってより身近なものにする方法

MIT の新しい研究: 労働者は AI によって排除されることを心配する必要はありません。コストは非常に高く、視覚的な作業の23％しか置き換えられない

AIサークルが爆発した！マイクロソフトがトランスフォーマーのブロックを解除、シーケンスの長さが10億以上に拡大

バックトラッキングアルゴリズム - ロボットの動作範囲

ウェブデザインに人工知能を活用する10の方法

画像の混合を利用してより細かい特徴表現を学習するCMU Xing Boのチームの新しい論文がAAAIに選出されました

OpenAI は GPT-4 をすべての有料 API ユーザーに公開します

1000 以上の AI エージェントが復活、メタバースの OpenAI バージョンがリリースされる? ChatGPT+VR が「ウエストワールド」を 100% 復元

2021年に注目すべき5つのAIと機械学習のトレンド