びっくり! 7万時間の訓練を経て、OpenAIのモデルは「Minecraft」で木材の設計を学習した。

びっくり! 7万時間の訓練を経て、OpenAIのモデルは「Minecraft」で木材の設計を学習した。

最近、GPTを忘れてしまったかのようなOpenAIが新たなアイデアを思いつきました。

大量のラベルなしビデオと少量のラベル付きデータでトレーニングした後、AI は最終的に Minecraft でダイヤモンドのツルハシを作ることを学習しました。

熱心なゲーマーであれば、このプロセス全体を完了するのに少なくとも 20 分、合計 24,000 回の操作が必要になります。

これは単純なことのように思えますが、AIにとっては非常に難しいことです。

7歳の子供でも10分で習得できる

最も単純な木製のツルハシの場合、人間のプレイヤーがプロセスを一から学ぶのはそれほど難しくありません。

オタクは1本のビデオを使って3分以内に他のオタクに教えることができます。

デモビデオの長さは2分52秒です。

ただし、ダイヤモンドのツルハシの製作ははるかに複雑です。

それでも、7歳の子供は、たった10分のデモンストレーションビデオを見るだけでそれを学ぶことができます。

この作業の難しさは、主にダイヤモンド鉱山を掘る方法にあります。

このプロセスは、大まかに 12 のステップにまとめることができます。まず、手作業で「木」のピクセル ブロックを削り取り、次に丸太を木のブロックに合成し、木のブロックを使用して木の棒を作り、木の棒を使用してワークショップ ツール テーブルを作成し、テーブルを使用して木のつるはしを作成し、木のつるはしを使用して石を叩き、石と木の棒を使用して石のつるはしを作成し、石のつるはしを使用してかまどを作成し、かまどを使用して鉄鉱石を処理し、鉄鉱石を使用して鉄インゴットを溶かし、鉄インゴットを使用して鉄のつるはしを作成し、鉄のつるはしを使用してダイヤモンドを掘ります。

今、AIにプレッシャーがかかっています。

偶然にも、CMU、OpenAI、DeepMind、Microsoft Researchなどの機関が2019年から関連するコンテスト「MineRL」を開催しています。

参加者は「ゼロからツールを自律的に構築し、ダイヤモンド鉱山を自動的に発見して採掘する」ことができる人工知能を開発する必要があり、勝利条件もシンプルです。最も速い人が勝利します。

結果はどうですか?

最初のMineRLコンテストの後、ネイチャー誌では「7歳の子どもが10分間のビデオを見て学習したが、AIは800万歩を歩いても理解できなかった」と報じられました。

データはたくさんあるのですが、使えません。

サンドボックス型ビルディングゲームである「Minecraft」は、プレイヤーの戦略とゲーム内の仮想環境が非常にオープンであるため、さまざまな AI モデルの学習および意思決定能力のテストの場や試金石として特に適しています。

さらに、「国民的」なゲームであるため、インターネット上で「Minecraft」に関連する動画を見つけることは簡単です。

ただし、チュートリアルを作成する場合でも、独自の作業を披露する場合でも、ある程度は画面に表示される結果にすぎません。

つまり、ビデオを見る人はアップホストが何をどのように行ったかは知ることができますが、どのように行ったかを知る方法はありません。

具体的には、コンピュータの画面に表示されるのは結果のみであり、操作手順は、アップホストがキーボードを連続的にクリックし、マウスを連続的に動かす動作であり、目に見えません。

このプロセスさえも編集されており、AIどころか人間でも学習できないと推定されています。

さらに悪いことに、多くのプレイヤーがゲーム内で木材を削る作業が退屈で、まるで宿題をこなすようなものだと不満を漏らした。その結果、アップデートの波を経て、多くのツールが無料で利用できるようになりました...しかし、今ではデータさえ見つけるのが困難になっています。

OpenAI が AI に「Minecraft」のプレイ方法を教えたい場合、この膨大な量のラベルなしビデオデータを活用する方法を見つけなければならない。

ビデオ事前トレーニングモデル - VPT

こうして、VPT が誕生しました。

論文アドレス: https://cdn.openai.com/vpt/Paper.pdf

これは新しいものですが、複雑ではありません。半教師あり模倣学習法です。

まず、外注したゲームプレイヤーのビデオやキーボードとマウスの操作記録などのデータを収集しました。

VPT法の概要

研究者たちはその後、このデータを使い、ビデオの各ステップでキーボードとマウスがどのように動いたかを推測できる逆動力学モデル(IDM)を作成しました。

この方法により、タスク全体がはるかに簡単になり、目標を達成するために必要なデータは以前よりもはるかに少なくなります。

少量のアウトソーシング データを使用して IDM を完了したら、IDM を使用して、より大きなラベルなしデータセットに注釈を付けることができます。

ベースモデルのトレーニングデータが微調整に与える影響

70,000 時間のトレーニングを経て、OpenAI の行動クローニング モデルは他のモデルでは実行できないさまざまなタスクを達成できるようになりました。

モデルは、木を切り倒して木材を集める方法、木材から棒を作る方法、棒からテーブルを作る方法を学びました。このプロセス全体を完了するには、比較的熟練したプレイヤーで約 50 秒かかります。

このモデルはテーブルとして使えるだけでなく、泳いだり、狩りをしたり、食べたりすることもできます。

ジャンプするときに足の下にレンガや木のブロックを置き、ジャンプしながら柱を建てることができる、クールな「走って、ジャンプして、建てる」操作もあります。これはハードコアプレイヤーにとって必須のコースです。

テーブルを作る(0ショット)

狩猟(0発)

「走る、跳ぶ、乗る」シンプルバージョン(0ショット)

モデルがより高度なタスクを実行できるようにするため、通常、データ セットはより細かい方向を区別できるように、より小さなスケールに微調整されます。

OpenAI は、VPT でトレーニングされたモデルが微調整後に下流のデータセットにどの程度適応できるかを示す研究を実施しました。

研究者らは、人々に「マインクラフト」を10分間プレイし、基本的な材料を使って家を建てるよう勧めた。これにより、作業台の構築など、ゲーム初期のタスクを実行するモデルの能力が向上することを期待しています。

研究者たちは、データセットを微調整した後、モデルが初期のタスクをより上手に実行できるようになっただけでなく、木製の作業台や石の道具台の作り方をモデルが自ら理解していることも発見した。

研究者は、モデルが自ら簡単なシェルターを建設したり、村を探索したり、箱を略奪したりする様子を目にすることもある。

石のツルハシを作る全工程(以下に記載されている時間は、熟練したプレイヤーが同じ作業を実行するのにかかる時間です)

石のツルハシを作る

それでは、OpenAI の専門家がどのように微調整を行っているかを見てみましょう。

彼らが使用した方法は強化学習(RL)です。

ほとんどの RL 手法では、事前確率を確率的に探索することでこれらの課題に対処します。たとえば、モデルはエントロピー報酬を通じてランダムなアクションを実行するようにインセンティブを与えられることがよくあります。ランダムなアクションを実行するよりも人間の行動をシミュレートする方が役立つ可能性があるため、VPT モデルは RL のより優れた事前モデルになるはずです。

研究者らは、ダイヤモンドのツルハシを集めるといった難しいタスクにモデルを設定した。これは「Minecraft」では前例のない機能であり、ネイティブの人間とコンピューターのインターフェースを使用すると、タスク全体を実行するのがはるかに困難になる。

ダイヤモンドのツルハシを作成するには、長くて複雑な一連のサブタスクが必要です。タスクを扱いやすくするために、研究者はシーケンス内の各項目に対してエージェントに報酬を与えました。

彼らは、ランダム初期化 (標準的な RL アプローチ) からトレーニングされた RL ポリシーは、ほとんど報酬を受け取らず、丸太を収集することを学習せず、棒を収集することはほとんどないことを発見しました。

対照的に、VPT モデルを微調整すると、ダイヤモンドのツルハシの作り方を学習できるだけでなく、すべてのアイテムを収集するという人間レベルの成功も達成できます。

Minecraft でダイヤモンドツールを作成できるコンピュータ モデルが実証されたのはこれが初めてです。

<<:  ヘルスケアにおける AI: 注目すべき 3 つのトレンド

>>:  ネイチャー誌が量子コンピューティングの大きな進歩を発表:史上初の量子集積回路が実現

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

...

家庭では人工知能がどのように活用されているのでしょうか?

人工知能(AI)は現在、私たちの家族構造にますます統合されています。さらに、快適性、利便性、安全性、...

スマート製品はどこにでもあります。人工知能と通常の知能の違いは何でしょうか?

多くの一般消費者にとって、どれが本物の人工知能でどれが単なる普通の知能なのかを区別することは不可能で...

データサイエンティストと開発者向けの新しいツールであるAmazon SageMakerが中国で利用可能になりました

【51CTO.comオリジナル記事】機械学習は誕生以来、多くの分野で応用されてきましたが、現時点では...

Cacti パーセンタイル監視アルゴリズム

Cactiパーセンテージ監視アルゴリズムの具体的な方法は次のとおりです。 cacti のテンプレート...

...

70%は輸入品。中国の産業用ロボットはチップのような悲劇をどう回避できるのか?

ロボットは産業の魂です。 [[386663]]しかし、私たちの身近な国である日本が、20年もの間、世...

スマートカーの「ChatGPTモーメント」はどこまで進んでいるのでしょうか?

今年の「テクノロジー スプリング フェスティバル ガラ」CES で最も注目を集めたものは何かと聞かれ...

...

ディープラーニング/コンピュータービジョンでよくある8つの間違いとその回避方法

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

AI によって雇用が失われる場合、バックアップ プランはありますか?

[[425784]]人工知能などの主要な破壊的技術は現在、生産性と出力を向上させるために世界中のさ...

ロボットが人間の「仲間」となり、人間と機械の関係が変化する。これは良いことなのか、悪いことなのか?

最近南京で開催された2020年世界知能製造会議において、中国工程院の研究者らは、人類の発展の観点から...

アリババの年次技術概要: 検索における人工知能の応用と実践

[51CTO.com からのオリジナル記事] ディープラーニングに代表される人工知能は、画像、音声、...

Googleが4月22日に発表したアルゴリズム改善策の分析

Google の中国ウェブマスター ブログにログインすると、4 月 22 日の午後に更新された「品質...