ゴリラもMinecraftをプレイできるようになり、動画を一度見るだけで新しいスキルが手に入る

GPT-4にMinecraftの遊び方を教えた後、人間はゴリラにもこのゲームの遊び方を教えました。

写真のゴリラはカンジという名の42歳のボノボです。タッチスクリーンをタップしてゲームをプレイします。画面の中央をタップすると前進し、側面をタッチすると周囲を見回します。良い成績を収めた場合、研究者はピーナッツやその他のスナックなどの報酬を与える予定だ。

おそらく以前にいくつかのゲームをプレイしたことがあったため、Kanzi は画面の前に座るとすぐにその状態になり、数秒でキャラクターを操作して前進する方法を学びました。指定エリアまで到達できれば、画面上におやつの図柄が表示され、スタッフがそれに応じたおやつをあげてくれます。この報酬の仕組みにより、カンジはゲーム内での歩き方をすぐに学びました。

次のテストタスクは、ゲーム内のツール (画面上部のボタン) を使用して、いくつかのビルディングブロックを破壊することです。この操作は Kanzi がこれまでプレイしたどのゲームにも登場したことがないため、Kanzi にとっては少し難しいです。スタッフはカンジにヒントを与えるために、画面の上にあるボタンを指さし続けましたが、カンジはまだ理解できませんでした。

スタッフは絶望の中で、別の方法を試さざるを得なかった。カンジに人間のデモンストレーションを見せることだ。

カンジは注意深く見守っていて、ブロックが壊れるとおやつももらいました。そこでスタッフは、自分で試してみることにしました。

最後に、積み木まで歩いていくと、カンジは上部のボタンを見つけ、積み木を壊すことに成功し、スタッフから歓声が上がりました。

これら 2 つのタスクを終えた後、Kanzi は環境内のスナックを集めることとブロックを壊すことという 2 つの基本的なスキルを習得しました。 Kanzi の次の目標は、これらのスキルをまったく新しい環境で使用し、ネットワークの反対側にいる人間のプレイヤーにそれが本物であると納得させることです。

これに先立ち、カンジはスキルを強化するために特別に設計された洞窟環境に置かれました。カンジは、ブロックの壁を一つずつ突き破ることによってのみ、洞窟の端に到達できました。

モンスターを倒してレベルアップしながら、カンジは覚えたばかりの新しいスキルに慣れていきました。しかし、コーナーで行き詰まってしまうこともあります。その場合はスタッフに助けを求め、まっすぐに積み木の壁まで歩いていき、窮地を脱してレベルをクリアしていきます。

結局、ほとんど助けを借りずに、カンジは洞窟を通り抜けて、洞窟の端にたどり着きました。これはまた、Kanzi が人間のプレイヤーを混乱させる準備ができていることを意味します。

テスト中、人間のプレイヤーには特別なプレイヤーと一緒にゲームをプレイすることが伝えられました。もちろん、ゲーム内でのKanziの移動速度が遅い、操作方法が平均的なプレイヤーと異なるなど、いくつかの異常な動作にも気づきました。しかし、彼はゲームのパートナーがゴリラだとは思ってもいませんでした。真実が明らかになったとき、トミーの反応はショックと興奮が入り混じったものでした。

人間のプレイヤーとのこのテストは、スタッフによって「マルチプレイヤー」モードと呼ばれています。次に、彼らは Kanzi に、村、砂漠の寺院、ネザーポータルなど、「Minecraft」の他の環境タイプに挑戦するように依頼しました。カンジはゲームの最後まで勝ち進みました。

この動画は海外の動画サイトで大きな注目を集めました。ビデオプロデューサーであり YouTube ブロガーでもある ChrisDaCow の当初の意図は、人間に野生動物に注目し、これらの動物の興味深い側面を見るよう呼びかけることだった。

ビデオリンク: https://www.youtube.com/watch?v=UKpFoYqN9-0

しかし、AI 研究者の目には、これは単なる楽しみ以上のものである。彼らは知能に関連する何かを観察しました。

Nvidia の上級 AI 科学者である Jim Fan 氏は、AI に Minecraft のプレイ方法を教えたり、ゴリラに教えたりするための類似した手法が数多くあることに気づいたと述べています。

コンテキスト内強化学習: Kanzi がゲーム内でマークされたマイルストーンに到達すると、果物やピーナッツが報酬として与えられ、ゲーム内の指示に従う動機付けになります。
人間によるフィードバックによる強化学習 (RLHF): Kanzi は言語を完全には理解していませんが、トレーナーが自分を応援しているのがわかり、時折歓声で応えます。これは彼が正しい方向に進んでいるという強いシグナルとなった。
模倣学習: トレーナーは Kanzi にタスクのやり方をデモンストレーションで示し、たった 1 回のデモンストレーションで Kanzi はその概念を理解しました。これは、報酬だけを使用するよりもはるかに効率的です。
レッスンの学習: 非常にシンプルな環境から始めて、徐々に Kanzi の制御スキルを教えました。最終的に、カンジは複雑な洞窟、迷路、そして冥界を進むことができるようになりました。

「ゴリラの視覚システムがいかに強力であるかにも驚きました。カンジは生まれてこのかたMinecraftを見たことがありませんでしたし、彼の先祖も見たことがなかったでしょう。しかし彼は、自然界とはまったく異なるMinecraftのテクスチャや物理特性にすぐに適応しました。このレベルの一般化は、現在最も強力な視覚モデルができることよりもはるかに優れています。私たちは再びモラベックのパラドックスに陥っています。つまり、私たちの最高のAIは言語理解においては人間のレベルに近いのですが、ピクセルの解析においては動物にはるかに遅れをとっているのです」とジム・ファンは語った。

モラベックのパラドックスは、人工知能とロボット工学の学者によって発見された常識に反する現象です。従来の想定に反して、推論などの人間特有の高レベルの知能能力には、ほとんど計算能力は必要ありません。しかし、無意識のスキルと直感には膨大な計算能力が必要です。この概念は、1980 年代にハンス・モラベック、ブルックス、マービン・ミンスキーらによって解説されました。モラベック氏は次のように書いている。「コンピューターにチェスの遊び方を大人と同じように教えるのは比較的簡単だが、1 歳児のように認識して行動するように教えるのは非常に困難、あるいは不可能だ。」

しかし、一部の人々はこれに疑問を呈し、Kanzi は報酬のためだけにプレイを続け、「何が起こっているのか全く知らなかった」ため、「Minecraft」のプレイ方法を実際には学んでいなかったと考えている。

これに対して、ある人がこう反論しました。「これは刺激反応学習、またはオペラント条件付けと呼ばれています。人間を含め、すべての動物が学習する基本的な方法の 1 つです。非常に理解しやすいです。これは学習を軽視しているのではなく、学習の本質なのです。」

この実験の興味深いところは、本当に衝撃的だということです。ChatGPT とゴリラが Minecraft をプレイできるようになった今、将来、脳コンピューターインターフェースがスムーズに開発されるとどうなるでしょうか?

<<: GitHub のスター数が 16.9k に急上昇、MetaGPT はインターネット全体で人気に!

>>: 673本の論文を要約し、UIUCなどが20ヶ月で完成させた信頼性の高い機械学習レビューを発表