びっくり! 7万時間の訓練を経て、OpenAIのモデルは「Minecraft」で木材の設計を学習した。

びっくり! 7万時間の訓練を経て、OpenAIのモデルは「Minecraft」で木材の設計を学習した。

最近、GPTを忘れてしまったかのようなOpenAIが新たなアイデアを思いつきました。

大量のラベルなしビデオと少量のラベル付きデータでトレーニングした後、AI は最終的に Minecraft でダイヤモンドのツルハシを作ることを学習しました。

熱心なゲーマーであれば、このプロセス全体を完了するのに少なくとも 20 分、合計 24,000 回の操作が必要になります。

これは単純なことのように思えますが、AIにとっては非常に難しいことです。

7歳の子供でも10分で習得できる

最も単純な木製のツルハシの場合、人間のプレイヤーがプロセスを一から学ぶのはそれほど難しくありません。

オタクは1本のビデオを使って3分以内に他のオタクに教えることができます。

デモビデオの長さは2分52秒です。

ただし、ダイヤモンドのツルハシの製作ははるかに複雑です。

それでも、7歳の子供は、たった10分のデモンストレーションビデオを見るだけでそれを学ぶことができます。

この作業の難しさは、主にダイヤモンド鉱山を掘る方法にあります。

このプロセスは、大まかに 12 のステップにまとめることができます。まず、手作業で「木」のピクセル ブロックを削り取り、次に丸太を木のブロックに合成し、木のブロックを使用して木の棒を作り、木の棒を使用してワークショップ ツール テーブルを作成し、テーブルを使用して木のつるはしを作成し、木のつるはしを使用して石を叩き、石と木の棒を使用して石のつるはしを作成し、石のつるはしを使用してかまどを作成し、かまどを使用して鉄鉱石を処理し、鉄鉱石を使用して鉄インゴットを溶かし、鉄インゴットを使用して鉄のつるはしを作成し、鉄のつるはしを使用してダイヤモンドを掘ります。

今、AIにプレッシャーがかかっています。

偶然にも、CMU、OpenAI、DeepMind、Microsoft Researchなどの機関が2019年から関連するコンテスト「MineRL」を開催しています。

参加者は「ゼロからツールを自律的に構築し、ダイヤモンド鉱山を自動的に発見して採掘する」ことができる人工知能を開発する必要があり、勝利条件もシンプルです。最も速い人が勝利します。

結果はどうですか?

最初のMineRLコンテストの後、ネイチャー誌では「7歳の子どもが10分間のビデオを見て学習したが、AIは800万歩を歩いても理解できなかった」と報じられました。

データはたくさんあるのですが、使えません。

サンドボックス型ビルディングゲームである「Minecraft」は、プレイヤーの戦略とゲーム内の仮想環境が非常にオープンであるため、さまざまな AI モデルの学習および意思決定能力のテストの場や試金石として特に適しています。

さらに、「国民的」なゲームであるため、インターネット上で「Minecraft」に関連する動画を見つけることは簡単です。

ただし、チュートリアルを作成する場合でも、独自の作業を披露する場合でも、ある程度は画面に表示される結果にすぎません。

つまり、ビデオを見る人はアップホストが何をどのように行ったかは知ることができますが、どのように行ったかを知る方法はありません。

具体的には、コンピュータの画面に表示されるのは結果のみであり、操作手順は、アップホストがキーボードを連続的にクリックし、マウスを連続的に動かす動作であり、目に見えません。

このプロセスさえも編集されており、AIどころか人間でも学習できないと推定されています。

さらに悪いことに、多くのプレイヤーがゲーム内で木材を削る作業が退屈で、まるで宿題をこなすようなものだと不満を漏らした。その結果、アップデートの波を経て、多くのツールが無料で利用できるようになりました...しかし、今ではデータさえ見つけるのが困難になっています。

OpenAI が AI に「Minecraft」のプレイ方法を教えたい場合、この膨大な量のラベルなしビデオデータを活用する方法を見つけなければならない。

ビデオ事前トレーニングモデル - VPT

こうして、VPT が誕生しました。

論文アドレス: https://cdn.openai.com/vpt/Paper.pdf

これは新しいものですが、複雑ではありません。半教師あり模倣学習法です。

まず、外注したゲームプレイヤーのビデオやキーボードとマウスの操作記録などのデータを収集しました。

VPT法の概要

研究者たちはその後、このデータを使い、ビデオの各ステップでキーボードとマウスがどのように動いたかを推測できる逆動力学モデル(IDM)を作成しました。

この方法により、タスク全体がはるかに簡単になり、目標を達成するために必要なデータは以前よりもはるかに少なくなります。

少量のアウトソーシング データを使用して IDM を完了したら、IDM を使用して、より大きなラベルなしデータセットに注釈を付けることができます。

ベースモデルのトレーニングデータが微調整に与える影響

70,000 時間のトレーニングを経て、OpenAI の行動クローニング モデルは他のモデルでは実行できないさまざまなタスクを達成できるようになりました。

モデルは、木を切り倒して木材を集める方法、木材から棒を作る方法、棒からテーブルを作る方法を学びました。このプロセス全体を完了するには、比較的熟練したプレイヤーで約 50 秒かかります。

このモデルはテーブルとして使えるだけでなく、泳いだり、狩りをしたり、食べたりすることもできます。

ジャンプするときに足の下にレンガや木のブロックを置き、ジャンプしながら柱を建てることができる、クールな「走って、ジャンプして、建てる」操作もあります。これはハードコアプレイヤーにとって必須のコースです。

テーブルを作る(0ショット)

狩猟(0発)

「走る、跳ぶ、乗る」シンプルバージョン(0ショット)

モデルがより高度なタスクを実行できるようにするため、通常、データ セットはより細かい方向を区別できるように、より小さなスケールに微調整されます。

OpenAI は、VPT でトレーニングされたモデルが微調整後に下流のデータセットにどの程度適応できるかを示す研究を実施しました。

研究者らは、人々に「マインクラフト」を10分間プレイし、基本的な材料を使って家を建てるよう勧めた。これにより、作業台の構築など、ゲーム初期のタスクを実行するモデルの能力が向上することを期待しています。

研究者たちは、データセットを微調整した後、モデルが初期のタスクをより上手に実行できるようになっただけでなく、木製の作業台や石の道具台の作り方をモデルが自ら理解していることも発見した。

研究者は、モデルが自ら簡単なシェルターを建設したり、村を探索したり、箱を略奪したりする様子を目にすることもある。

石のツルハシを作る全工程(以下に記載されている時間は、熟練したプレイヤーが同じ作業を実行するのにかかる時間です)

石のツルハシを作る

それでは、OpenAI の専門家がどのように微調整を行っているかを見てみましょう。

彼らが使用した方法は強化学習(RL)です。

ほとんどの RL 手法では、事前確率を確率的に探索することでこれらの課題に対処します。たとえば、モデルはエントロピー報酬を通じてランダムなアクションを実行するようにインセンティブを与えられることがよくあります。ランダムなアクションを実行するよりも人間の行動をシミュレートする方が役立つ可能性があるため、VPT モデルは RL のより優れた事前モデルになるはずです。

研究者らは、ダイヤモンドのツルハシを集めるといった難しいタスクにモデルを設定した。これは「Minecraft」では前例のない機能であり、ネイティブの人間とコンピューターのインターフェースを使用すると、タスク全体を実行するのがはるかに困難になる。

ダイヤモンドのツルハシを作成するには、長くて複雑な一連のサブタスクが必要です。タスクを扱いやすくするために、研究者はシーケンス内の各項目に対してエージェントに報酬を与えました。

彼らは、ランダム初期化 (標準的な RL アプローチ) からトレーニングされた RL ポリシーは、ほとんど報酬を受け取らず、丸太を収集することを学習せず、棒を収集することはほとんどないことを発見しました。

対照的に、VPT モデルを微調整すると、ダイヤモンドのツルハシの作り方を学習できるだけでなく、すべてのアイテムを収集するという人間レベルの成功も達成できます。

Minecraft でダイヤモンドツールを作成できるコンピュータ モデルが実証されたのはこれが初めてです。

<<:  ヘルスケアにおける AI: 注目すべき 3 つのトレンド

>>:  ネイチャー誌が量子コンピューティングの大きな進歩を発表:史上初の量子集積回路が実現

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

「オープン性、透明性、倫理」という目標を達成するために、AIアルゴリズムが政府の規制を策定するために使用される。

ニュージーランド政府は、政府機関がアルゴリズムを使用する方法のガイドとなることを目的とした一連の標準...

機械学習の導入を容易にする 6 つのツール

「機械学習」という言葉には魔法のような雰囲気があります。機械学習は一般に一般の人々に受け入れられてい...

金融業界は AI を活用してデータを強化する準備ができているでしょうか?

金融業界は国民経済の生命線です。モバイルインターネットやオンライン決済の普及により、データは企業にと...

機械学習とは何ですか?機械はどんどん賢くなっていて、もはやSFの世界ではない

[[351468]]機械学習 (ML) は、一連のデータに基づいて予測を行うようにコンピューター シ...

ベクトルデータベースは AI をどのように改善するのでしょうか?

翻訳者 |ブガッティレビュー | Chonglou事前トレーニング済みのAIモデルがすぐに利用できる...

データ分析 VS アルゴリズムモデル、どのように作業を分割し、効率的に連携するか?

[[438791]]この記事はWeChat公式アカウント「地道学院」から転載したもので、著者は地道...

...

江長建、世界初のサイボーグと対談 - JD Smart Community 2.0 全国ローンチカンファレンス ライブプレビュー

[[374688]] 「半オーク」「半魚」… SF映画、漫画、おとぎ話では、それは驚くことではありま...

...

人工知能のいくつかの重要な技術をご存知ですか?

今日は人工的にしか開発できない重要な技術をいくつか紹介します。音声認識からスマートホーム、人間と機械...

298.2億ドル規模のロボット市場がなぜこれほど不振なのか?

以前、マッキンゼー・グローバル・インスティテュートは、2030年までに約70%の企業が少なくとも1つ...

生成 AI とその使用例とは何ですか?

生成 AI は私たちの働き方を変える運命にある驚異的な技術ですが、それは何を実現できるのでしょうか。...

アリババがコアテクノロジーを公開:推論性能が2位より5倍速く、4つの世界選手権で優勝した方法

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

Googleの新しい研究により、ロボット犬が速歩することが可能になった

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...