ゴリラもMinecraftをプレイできるようになり、動画を一度見るだけで新しいスキルが手に入る

ゴリラもMinecraftをプレイできるようになり、動画を一度見るだけで新しいスキルが手に入る

GPT-4にMinecraftの遊び方を教えた後、人間はゴリラにもこのゲームの遊び方を教えました。

写真のゴリラはカンジという名の42歳のボノボです。タッチスクリーンをタップしてゲームをプレイします。画面の中央をタップすると前進し、側面をタッチすると周囲を見回します。良い成績を収めた場合、研究者はピーナッツやその他のスナックなどの報酬を与える予定だ。

おそらく以前にいくつかのゲームをプレイしたことがあったため、Kanzi は画面の前に座るとすぐにその状態になり、数秒でキャラクターを操作して前進する方法を学びました。指定エリアまで到達できれば、画面上におやつの図柄が表示され、スタッフがそれに応じたおやつをあげてくれます。この報酬の仕組みにより、カンジはゲーム内での歩き方をすぐに学びました。

次のテストタスクは、ゲーム内のツール (画面上部のボタン) を使用して、いくつかのビルディングブロックを破壊することです。この操作は Kanzi がこれまでプレイしたどのゲームにも登場したことがないため、Kanzi にとっては少し難しいです。スタッフはカンジにヒントを与えるために、画面の上にあるボタンを指さし続けましたが、カンジはまだ理解できませんでした。

スタッフは絶望の中で、別の方法を試さざるを得なかった。カンジに人間のデモンストレーションを見せることだ。

カンジは注意深く見守っていて、ブロックが壊れるとおやつももらいました。そこでスタッフは、自分で試してみることにしました。

最後に、積み木まで歩いていくと、カンジは上部のボタンを見つけ、積み木を壊すことに成功し、スタッフから歓声が上がりました。

これら 2 つのタスクを終えた後、Kanzi は環境内のスナックを集めることとブロックを壊すことという 2 つの基本的なスキルを習得しました。 Kanzi の次の目標は、これらのスキルをまったく新しい環境で使用し、ネットワークの反対側にいる人間のプレイヤーにそれが本物であると納得させることです。

これに先立ち、カンジはスキルを強化するために特別に設計された洞窟環境に置かれました。カンジは、ブロックの壁を一つずつ突き破ることによってのみ、洞窟の端に到達できました。

モンスターを倒してレベルアップしながら、カンジは覚えたばかりの新しいスキルに慣れていきました。しかし、コーナーで行き詰まってしまうこともあります。その場合はスタッフに助けを求め、まっすぐに積み木の壁まで歩いていき、窮地を脱してレベルをクリアしていきます。

結局、ほとんど助けを借りずに、カンジは洞窟を通り抜けて、洞窟の端にたどり着きました。これはまた、Kanzi が人間のプレイヤーを混乱させる準備ができていることを意味します。

テスト中、人間のプレイヤーには特別なプレイヤーと一緒にゲームをプレイすることが伝えられました。もちろん、ゲーム内でのKanziの移動速度が遅い、操作方法が平均的なプレイヤーと異なるなど、いくつかの異常な動作にも気づきました。しかし、彼はゲームのパートナーがゴリラだとは思ってもいませんでした。真実が明らかになったとき、トミーの反応はショックと興奮が入り混じったものでした。

人間のプレイヤーとのこのテストは、スタッフによって「マルチプレイヤー」モードと呼ばれています。次に、彼らは Kanzi に、村、砂漠の寺院、ネザーポータルなど、「Minecraft」の他の環境タイプに挑戦するように依頼しました。カンジはゲームの最後まで勝ち進みました。

この動画は海外の動画サイトで大きな注目を集めました。ビデオプロデューサーであり YouTube ブロガーでもある ChrisDaCow の当初の意図は、人間に野生動物に注目し、これらの動物の興味深い側面を見るよう呼びかけることだった。

ビデオリンク: https://www.youtube.com/watch?v=UKpFoYqN9-0

しかし、AI 研究者の目には、これは単なる楽しみ以上のものである。彼らは知能に関連する何かを観察しました。

Nvidia の上級 AI 科学者である Jim Fan 氏は、AI に Minecraft のプレイ方法を教えたり、ゴリラに教えたりするための類似した手法が数多くあることに気づいたと述べています。

  • コンテキスト内強化学習: Kanzi がゲーム内でマークされたマイルストーンに到達すると、果物やピーナッツが報酬として与えられ、ゲーム内の指示に従う動機付けになります。
  • 人間によるフィードバックによる強化学習 (RLHF): Kanzi は言語を完全には理解していませんが、トレーナーが自分を応援しているのがわかり、時折歓声で応えます。これは彼が正しい方向に進んでいるという強いシグナルとなった。
  • 模倣学習: トレーナーは Kanzi にタスクのやり方をデモンストレーションで示し、たった 1 回のデモン​​ストレーションで Kanzi はその概念を理解しました。これは、報酬だけを使用するよりもはるかに効率的です。
  • レッスンの学習: 非常にシンプルな環境から始めて、徐々に Kanzi の制御スキルを教えました。最終的に、カンジは複雑な洞窟、迷路、そして冥界を進むことができるようになりました。

「ゴリラの視覚システムがいかに強力であるかにも驚きました。カンジは生まれてこのかたMinecraftを見たことがありませんでしたし、彼の先祖も見たことがなかったでしょう。しかし彼は、自然界とはまったく異なるMinecraftのテクスチャや物理特性にすぐに適応しました。このレベルの一般化は、現在最も強力な視覚モデルができることよりもはるかに優れています。私たちは再びモラベックのパラドックスに陥っています。つまり、私たちの最高のAIは言語理解においては人間のレベルに近いのですが、ピクセルの解析においては動物にはるかに遅れをとっているのです」とジム・ファンは語った。

モラベックのパラドックスは、人工知能とロボット工学の学者によって発見された常識に反する現象です。従来の想定に反して、推論などの人間特有の高レベルの知能能力には、ほとんど計算能力は必要ありません。しかし、無意識のスキルと直感には膨大な計算能力が必要です。この概念は、1980 年代にハンス・モラベック、ブルックス、マービン・ミンスキーらによって解説されました。モラベック氏は次のように書いている。「コンピューターにチェスの遊び方を大人と同じように教えるのは比較的簡単だが、1 歳児のように認識して行動するように教えるのは非常に困難、あるいは不可能だ。」

しかし、一部の人々はこれに疑問を呈し、Kanzi は報酬のためだけにプレイを続け、「何が起こっているのか全く知らなかった」ため、「Minecraft」のプレイ方法を実際には学んでいなかったと考えている。

これに対して、ある人がこう反論しました。「これは刺激反応学習、またはオペラント条件付けと呼ばれています。人間を含め、すべての動物が学習する基本的な方法の 1 つです。非常に理解しやすいです。これは学習を軽視しているのではなく、学習の本質なのです。」

この実験の興味深いところは、本当に衝撃的だということです。ChatGPT とゴリラが Minecraft をプレイできるようになった今、将来、脳コンピューター インターフェースがスムーズに開発されるとどうなるでしょうか?

<<:  GitHub のスター数が 16.9k に急上昇、MetaGPT はインターネット全体で人気に!

>>:  673本の論文を要約し、UIUCなどが20ヶ月で完成させた信頼性の高い機械学習レビューを発表

ブログ    
ブログ    

推薦する

私の国は自動運転のための最初の閉鎖された高速道路テスト環境を構築しました

1月21日、公安部交通管理科学研究所は、工業情報化部、公安部、江蘇省人民政府が共同で建設する「国家イ...

人工知能教師が将来果たす8つの役割

人工知能の急速な発展は目まぐるしく、教育、特に教師への影響は甚大です。人工知能は、退屈で面倒な仕事に...

...

人工知能とは何ですか?米Googleが正式発表!

[[213130]] 1つこれは世界を変える握手です!今日、世界で最も最先端の2つの科学、 人工知...

IEEE | わずか1秒でドローンは地上で宙返りできる

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

メタは自社の弁護士の警告を無視し、海賊版書籍を使用してAIモデルを訓練したと報じられている。

ロイター通信は12月13日、著作権侵害訴訟の新たな文書によると、メタ・プラットフォームズは何千冊もの...

AI人材が年間数百万ドルを稼ぐ理由

現在、ほぼすべてのテクノロジー大手が AI プロジェクトを実施しており、AI 時代に勝ち残るために、...

AIを使えばITの運用と保守が簡単になる

[[437499]]この記事はWeChatの公開アカウント「Computer World」から転載し...

実用的なヒント | 人工知能に変身するために習得すべき 8 つのニューラル ネットワーク

なぜ機械学習が必要なのでしょうか?機械学習は、人間が直接プログラムできない複雑な問題を解決できるため...

AI、BI、データ: 2020 年までに勝利するのは誰か?

10 年前、データと分析の市場には大手企業が存在しませんでした。実際、業界では「クラウド」、「ビッ...

クルーズの自動運転意思決定・計画技術の分析

クルーズ社の自動運転意思決定計画および制御部門の責任者であるブランドン・バッソ氏は、コロンビア大学で...

突如、Stable Diffusion 3がリリースされました!ソラと同じアーキテクチャですが、すべてがよりリアルです

1年以上の開発期間を経て、前世代に比べて3つの主要な機能に進化しました。さあ、効果を直接確かめてみま...

...

人工知能の時代では、プログラマーは排除されるのでしょうか?

よく考えてみると、この質問は少し皮肉に思えます。将来、新しいクリエイター (AI) がクリエイター ...