ゴリラもMinecraftをプレイできるようになり、動画を一度見るだけで新しいスキルが手に入る

ゴリラもMinecraftをプレイできるようになり、動画を一度見るだけで新しいスキルが手に入る

GPT-4にMinecraftの遊び方を教えた後、人間はゴリラにもこのゲームの遊び方を教えました。

写真のゴリラはカンジという名の42歳のボノボです。タッチスクリーンをタップしてゲームをプレイします。画面の中央をタップすると前進し、側面をタッチすると周囲を見回します。良い成績を収めた場合、研究者はピーナッツやその他のスナックなどの報酬を与える予定だ。

おそらく以前にいくつかのゲームをプレイしたことがあったため、Kanzi は画面の前に座るとすぐにその状態になり、数秒でキャラクターを操作して前進する方法を学びました。指定エリアまで到達できれば、画面上におやつの図柄が表示され、スタッフがそれに応じたおやつをあげてくれます。この報酬の仕組みにより、カンジはゲーム内での歩き方をすぐに学びました。

次のテストタスクは、ゲーム内のツール (画面上部のボタン) を使用して、いくつかのビルディングブロックを破壊することです。この操作は Kanzi がこれまでプレイしたどのゲームにも登場したことがないため、Kanzi にとっては少し難しいです。スタッフはカンジにヒントを与えるために、画面の上にあるボタンを指さし続けましたが、カンジはまだ理解できませんでした。

スタッフは絶望の中で、別の方法を試さざるを得なかった。カンジに人間のデモンストレーションを見せることだ。

カンジは注意深く見守っていて、ブロックが壊れるとおやつももらいました。そこでスタッフは、自分で試してみることにしました。

最後に、積み木まで歩いていくと、カンジは上部のボタンを見つけ、積み木を壊すことに成功し、スタッフから歓声が上がりました。

これら 2 つのタスクを終えた後、Kanzi は環境内のスナックを集めることとブロックを壊すことという 2 つの基本的なスキルを習得しました。 Kanzi の次の目標は、これらのスキルをまったく新しい環境で使用し、ネットワークの反対側にいる人間のプレイヤーにそれが本物であると納得させることです。

これに先立ち、カンジはスキルを強化するために特別に設計された洞窟環境に置かれました。カンジは、ブロックの壁を一つずつ突き破ることによってのみ、洞窟の端に到達できました。

モンスターを倒してレベルアップしながら、カンジは覚えたばかりの新しいスキルに慣れていきました。しかし、コーナーで行き詰まってしまうこともあります。その場合はスタッフに助けを求め、まっすぐに積み木の壁まで歩いていき、窮地を脱してレベルをクリアしていきます。

結局、ほとんど助けを借りずに、カンジは洞窟を通り抜けて、洞窟の端にたどり着きました。これはまた、Kanzi が人間のプレイヤーを混乱させる準備ができていることを意味します。

テスト中、人間のプレイヤーには特別なプレイヤーと一緒にゲームをプレイすることが伝えられました。もちろん、ゲーム内でのKanziの移動速度が遅い、操作方法が平均的なプレイヤーと異なるなど、いくつかの異常な動作にも気づきました。しかし、彼はゲームのパートナーがゴリラだとは思ってもいませんでした。真実が明らかになったとき、トミーの反応はショックと興奮が入り混じったものでした。

人間のプレイヤーとのこのテストは、スタッフによって「マルチプレイヤー」モードと呼ばれています。次に、彼らは Kanzi に、村、砂漠の寺院、ネザーポータルなど、「Minecraft」の他の環境タイプに挑戦するように依頼しました。カンジはゲームの最後まで勝ち進みました。

この動画は海外の動画サイトで大きな注目を集めました。ビデオプロデューサーであり YouTube ブロガーでもある ChrisDaCow の当初の意図は、人間に野生動物に注目し、これらの動物の興味深い側面を見るよう呼びかけることだった。

ビデオリンク: https://www.youtube.com/watch?v=UKpFoYqN9-0

しかし、AI 研究者の目には、これは単なる楽しみ以上のものである。彼らは知能に関連する何かを観察しました。

Nvidia の上級 AI 科学者である Jim Fan 氏は、AI に Minecraft のプレイ方法を教えたり、ゴリラに教えたりするための類似した手法が数多くあることに気づいたと述べています。

  • コンテキスト内強化学習: Kanzi がゲーム内でマークされたマイルストーンに到達すると、果物やピーナッツが報酬として与えられ、ゲーム内の指示に従う動機付けになります。
  • 人間によるフィードバックによる強化学習 (RLHF): Kanzi は言語を完全には理解していませんが、トレーナーが自分を応援しているのがわかり、時折歓声で応えます。これは彼が正しい方向に進んでいるという強いシグナルとなった。
  • 模倣学習: トレーナーは Kanzi にタスクのやり方をデモンストレーションで示し、たった 1 回のデモン​​ストレーションで Kanzi はその概念を理解しました。これは、報酬だけを使用するよりもはるかに効率的です。
  • レッスンの学習: 非常にシンプルな環境から始めて、徐々に Kanzi の制御スキルを教えました。最終的に、カンジは複雑な洞窟、迷路、そして冥界を進むことができるようになりました。

「ゴリラの視覚システムがいかに強力であるかにも驚きました。カンジは生まれてこのかたMinecraftを見たことがありませんでしたし、彼の先祖も見たことがなかったでしょう。しかし彼は、自然界とはまったく異なるMinecraftのテクスチャや物理特性にすぐに適応しました。このレベルの一般化は、現在最も強力な視覚モデルができることよりもはるかに優れています。私たちは再びモラベックのパラドックスに陥っています。つまり、私たちの最高のAIは言語理解においては人間のレベルに近いのですが、ピクセルの解析においては動物にはるかに遅れをとっているのです」とジム・ファンは語った。

モラベックのパラドックスは、人工知能とロボット工学の学者によって発見された常識に反する現象です。従来の想定に反して、推論などの人間特有の高レベルの知能能力には、ほとんど計算能力は必要ありません。しかし、無意識のスキルと直感には膨大な計算能力が必要です。この概念は、1980 年代にハンス・モラベック、ブルックス、マービン・ミンスキーらによって解説されました。モラベック氏は次のように書いている。「コンピューターにチェスの遊び方を大人と同じように教えるのは比較的簡単だが、1 歳児のように認識して行動するように教えるのは非常に困難、あるいは不可能だ。」

しかし、一部の人々はこれに疑問を呈し、Kanzi は報酬のためだけにプレイを続け、「何が起こっているのか全く知らなかった」ため、「Minecraft」のプレイ方法を実際には学んでいなかったと考えている。

これに対して、ある人がこう反論しました。「これは刺激反応学習、またはオペラント条件付けと呼ばれています。人間を含め、すべての動物が学習する基本的な方法の 1 つです。非常に理解しやすいです。これは学習を軽視しているのではなく、学習の本質なのです。」

この実験の興味深いところは、本当に衝撃的だということです。ChatGPT とゴリラが Minecraft をプレイできるようになった今、将来、脳コンピューター インターフェースがスムーズに開発されるとどうなるでしょうか?

<<:  GitHub のスター数が 16.9k に急上昇、MetaGPT はインターネット全体で人気に!

>>:  673本の論文を要約し、UIUCなどが20ヶ月で完成させた信頼性の高い機械学習レビューを発表

推薦する

AIのリスクと安全性をどのように管理するのか?

AI モデルのトレーニングには、大規模で機密性の高いデータセットが使用されることが多く、プライバシ...

製造業で「ロボット」が増加中

1997年、IBMが開発したディープ・ブルーがロシアのチェス名人ガルリ・カスパロフに勝利し、人工知能...

人工知能は医師に完全に取って代わることはできない

今後数年間で、初めて医療用人工知能 (AI) システムとやり取りすることになるかもしれません。自動運...

生成的敵対ネットワーク (GAN) の未解決の 7 つの謎

いくつかの指標によれば、生成的敵対的ネットワーク (GAN) の研究は過去 2 年間で大きな進歩を遂...

...

人工知能はまだ長い道のりを歩んでいる

過去2年間で、「スマートホーム」はほぼすべての家電メーカーが必ず話題にし、自社製品になくてはならない...

EleutherAIが200億パラメータのGPT風モデルを発表: GPT-3とは異なり、無料でオープン

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

...

河南省鄭州市:自動運転オンライン配車サービス車両が一般公開

[[408894]]河南省鄭州市では7月1日、鄭東新区で自動運転バスと自動運転乗用車が運用開始され、...

...

新浪微博廖博:WAICリアルタイムストリームコンピューティングプラットフォームの成長と発展

[51CTO.com からのオリジナル記事] 7 年間の努力と見事な変貌。 2012年以降、6年連続...

将来の教育において人工知能が果たす12の役割

近年、人工知能は急速に発展し、熱い議論を巻き起こしています。人工知能が人間に取って代わるかどうかが注...

機械学習 | PyTorch 簡潔チュートリアル パート 2

前回の記事「PyTorch Concise Tutorial Part 1」に引き続き、多層パーセプ...

...

歩行者の軌道予測に効果的な方法と共通基本方法は何ですか?トップカンファレンスの論文を共有しましょう!

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...