びっくり! 7万時間の訓練を経て、OpenAIのモデルは「Minecraft」で木材の設計を学習した。

びっくり! 7万時間の訓練を経て、OpenAIのモデルは「Minecraft」で木材の設計を学習した。

最近、GPTを忘れてしまったかのようなOpenAIが新たなアイデアを思いつきました。

大量のラベルなしビデオと少量のラベル付きデータでトレーニングした後、AI は最終的に Minecraft でダイヤモンドのツルハシを作ることを学習しました。

熱心なゲーマーであれば、このプロセス全体を完了するのに少なくとも 20 分、合計 24,000 回の操作が必要になります。

これは単純なことのように思えますが、AIにとっては非常に難しいことです。

7歳の子供でも10分で習得できる

最も単純な木製のツルハシの場合、人間のプレイヤーがプロセスを一から学ぶのはそれほど難しくありません。

オタクは1本のビデオを使って3分以内に他のオタクに教えることができます。

デモビデオの長さは2分52秒です。

ただし、ダイヤモンドのツルハシの製作ははるかに複雑です。

それでも、7歳の子供は、たった10分のデモンストレーションビデオを見るだけでそれを学ぶことができます。

この作業の難しさは、主にダイヤモンド鉱山を掘る方法にあります。

このプロセスは、大まかに 12 のステップにまとめることができます。まず、手作業で「木」のピクセル ブロックを削り取り、次に丸太を木のブロックに合成し、木のブロックを使用して木の棒を作り、木の棒を使用してワークショップ ツール テーブルを作成し、テーブルを使用して木のつるはしを作成し、木のつるはしを使用して石を叩き、石と木の棒を使用して石のつるはしを作成し、石のつるはしを使用してかまどを作成し、かまどを使用して鉄鉱石を処理し、鉄鉱石を使用して鉄インゴットを溶かし、鉄インゴットを使用して鉄のつるはしを作成し、鉄のつるはしを使用してダイヤモンドを掘ります。

今、AIにプレッシャーがかかっています。

偶然にも、CMU、OpenAI、DeepMind、Microsoft Researchなどの機関が2019年から関連するコンテスト「MineRL」を開催しています。

参加者は「ゼロからツールを自律的に構築し、ダイヤモンド鉱山を自動的に発見して採掘する」ことができる人工知能を開発する必要があり、勝利条件もシンプルです。最も速い人が勝利します。

結果はどうですか?

最初のMineRLコンテストの後、ネイチャー誌では「7歳の子どもが10分間のビデオを見て学習したが、AIは800万歩を歩いても理解できなかった」と報じられました。

データはたくさんあるのですが、使えません。

サンドボックス型ビルディングゲームである「Minecraft」は、プレイヤーの戦略とゲーム内の仮想環境が非常にオープンであるため、さまざまな AI モデルの学習および意思決定能力のテストの場や試金石として特に適しています。

さらに、「国民的」なゲームであるため、インターネット上で「Minecraft」に関連する動画を見つけることは簡単です。

ただし、チュートリアルを作成する場合でも、独自の作業を披露する場合でも、ある程度は画面に表示される結果にすぎません。

つまり、ビデオを見る人はアップホストが何をどのように行ったかは知ることができますが、どのように行ったかを知る方法はありません。

具体的には、コンピュータの画面に表示されるのは結果のみであり、操作手順は、アップホストがキーボードを連続的にクリックし、マウスを連続的に動かす動作であり、目に見えません。

このプロセスさえも編集されており、AIどころか人間でも学習できないと推定されています。

さらに悪いことに、多くのプレイヤーがゲーム内で木材を削る作業が退屈で、まるで宿題をこなすようなものだと不満を漏らした。その結果、アップデートの波を経て、多くのツールが無料で利用できるようになりました...しかし、今ではデータさえ見つけるのが困難になっています。

OpenAI が AI に「Minecraft」のプレイ方法を教えたい場合、この膨大な量のラベルなしビデオデータを活用する方法を見つけなければならない。

ビデオ事前トレーニングモデル - VPT

こうして、VPT が誕生しました。

論文アドレス: https://cdn.openai.com/vpt/Paper.pdf

これは新しいものですが、複雑ではありません。半教師あり模倣学習法です。

まず、外注したゲームプレイヤーのビデオやキーボードとマウスの操作記録などのデータを収集しました。

VPT法の概要

研究者たちはその後、このデータを使い、ビデオの各ステップでキーボードとマウスがどのように動いたかを推測できる逆動力学モデル(IDM)を作成しました。

この方法により、タスク全体がはるかに簡単になり、目標を達成するために必要なデータは以前よりもはるかに少なくなります。

少量のアウトソーシング データを使用して IDM を完了したら、IDM を使用して、より大きなラベルなしデータセットに注釈を付けることができます。

ベースモデルのトレーニングデータが微調整に与える影響

70,000 時間のトレーニングを経て、OpenAI の行動クローニング モデルは他のモデルでは実行できないさまざまなタスクを達成できるようになりました。

モデルは、木を切り倒して木材を集める方法、木材から棒を作る方法、棒からテーブルを作る方法を学びました。このプロセス全体を完了するには、比較的熟練したプレイヤーで約 50 秒かかります。

このモデルはテーブルとして使えるだけでなく、泳いだり、狩りをしたり、食べたりすることもできます。

ジャンプするときに足の下にレンガや木のブロックを置き、ジャンプしながら柱を建てることができる、クールな「走って、ジャンプして、建てる」操作もあります。これはハードコアプレイヤーにとって必須のコースです。

テーブルを作る(0ショット)

狩猟(0発)

「走る、跳ぶ、乗る」シンプルバージョン(0ショット)

モデルがより高度なタスクを実行できるようにするため、通常、データ セットはより細かい方向を区別できるように、より小さなスケールに微調整されます。

OpenAI は、VPT でトレーニングされたモデルが微調整後に下流のデータセットにどの程度適応できるかを示す研究を実施しました。

研究者らは、人々に「マインクラフト」を10分間プレイし、基本的な材料を使って家を建てるよう勧めた。これにより、作業台の構築など、ゲーム初期のタスクを実行するモデルの能力が向上することを期待しています。

研究者たちは、データセットを微調整した後、モデルが初期のタスクをより上手に実行できるようになっただけでなく、木製の作業台や石の道具台の作り方をモデルが自ら理解していることも発見した。

研究者は、モデルが自ら簡単なシェルターを建設したり、村を探索したり、箱を略奪したりする様子を目にすることもある。

石のツルハシを作る全工程(以下に記載されている時間は、熟練したプレイヤーが同じ作業を実行するのにかかる時間です)

石のツルハシを作る

それでは、OpenAI の専門家がどのように微調整を行っているかを見てみましょう。

彼らが使用した方法は強化学習(RL)です。

ほとんどの RL 手法では、事前確率を確率的に探索することでこれらの課題に対処します。たとえば、モデルはエントロピー報酬を通じてランダムなアクションを実行するようにインセンティブを与えられることがよくあります。ランダムなアクションを実行するよりも人間の行動をシミュレートする方が役立つ可能性があるため、VPT モデルは RL のより優れた事前モデルになるはずです。

研究者らは、ダイヤモンドのツルハシを集めるといった難しいタスクにモデルを設定した。これは「Minecraft」では前例のない機能であり、ネイティブの人間とコンピューターのインターフェースを使用すると、タスク全体を実行するのがはるかに困難になる。

ダイヤモンドのツルハシを作成するには、長くて複雑な一連のサブタスクが必要です。タスクを扱いやすくするために、研究者はシーケンス内の各項目に対してエージェントに報酬を与えました。

彼らは、ランダム初期化 (標準的な RL アプローチ) からトレーニングされた RL ポリシーは、ほとんど報酬を受け取らず、丸太を収集することを学習せず、棒を収集することはほとんどないことを発見しました。

対照的に、VPT モデルを微調整すると、ダイヤモンドのツルハシの作り方を学習できるだけでなく、すべてのアイテムを収集するという人間レベルの成功も達成できます。

Minecraft でダイヤモンドツールを作成できるコンピュータ モデルが実証されたのはこれが初めてです。

<<:  ヘルスケアにおける AI: 注目すべき 3 つのトレンド

>>:  ネイチャー誌が量子コンピューティングの大きな進歩を発表:史上初の量子集積回路が実現

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

RLHF にはもう人間は必要ありません! Googleチームの研究により、AIによる注釈が人間のレベルに達したことが証明される

たとえば、RLHF の「人間」が入れ替わった場合、それは実現可能でしょうか? Google チームの...

AIがいかにして将来の採用担当者のスキルを生み出すか

AI が採用業務を自動化し続けるにつれて、採用担当者のスキルが変化するという共通認識が広まりつつあり...

...

エンジニアリングパフォーマンスを分析してデータ駆動型チームを構築

Gigster の副社長 Cory Hymel 氏は、2024 年にさらなる適応力と成功を実現するた...

マイクロソフトは、対話してマルチモーダルコンテンツを生成できる AI モデル CoDi をリリースしました。

マイクロソフトは 7 月 11 日にプレスリリースを発行し、Combinable Diffusion...

5分でトップ10の機械学習アルゴリズムを学ぶ

[[317656]]機械学習は業界にとって革新的で重要な分野です。機械学習プログラムに選択するアルゴ...

クラウドコンピューティング、ビッグデータ、AI の関係と違いを 1 つの記事で理解する

クラウドコンピューティング、ビッグデータ、人工知能という言葉は誰もが聞いたことがあると思いますが、こ...

...

モノのインターネット – インド国防軍にとっての可能性

世界がインダストリー4.0へと向かうにつれ、モノのインターネットへの世界的な支出は2022年までに1...

Raspberry Pi を搭載した MIT のヤドカリ型ロボットは「何でもできる」

[[392157]]ロボットは通常、設計された特定のタスクを非常にうまく実行する特殊なツールですが、...

顔認識技術の応用の安全管理に関する規定(試行)コメント:1万人以上の顔情報の保管は中国サイバースペース管理局に登録する必要がある

8月8日、IT Homeは中国サイバースペース事務局から、顔認識技術の応用を標準化するため、「中華人...

...

人工知能について知っておくべきことすべて

人工知能は今日最も話題になっている技術の一つです。しかし、それは正確には何でしょうか?なぜ気にする必...

AI+ビデオ分析: ユビキタスセキュリティリスクのリアルタイム監視

[[352986]] 2020 年の多くの運用上の課題を踏まえて、公益事業会社は、運用する物理的およ...

星が輝くとき - WOT グローバル テクノロジー イノベーション カンファレンス 2021 が間もなく開催されます

【51CTO.comオリジナル記事】​​​ 100年前、シュテファン・ツヴァイクは彼の有名な著作「星...