ディープマインドの創業者はAIの弟子を育て、「訓練」ではなく「教育」によってAIに宝探しを教えた

ディープマインドの創業者はAIの弟子を育て、「訓練」ではなく「教育」によってAIに宝探しを教えた

最近、DeepMind は強化学習の分野で新しいことを行いました。

簡単に言えば、DeepMind の研究者は、人間は「訓練」よりも「指導」を通じて知識やスキルを習得すると考えています。

つまり、この新しいエージェントは、人工データを使用した事前トレーニングを必要とせずに、人間のデモンストレーションを 1 回観察するだけで、新しい動作をすばやく学習できます。

今後トラブルに巻き込まれたら、主人に言わないでください。

文化移転は、エージェントが互いの経験情報を高い忠実度と再現性でリアルタイムに取得して使用できるようにする、ドメイン全体にわたる社会的スキルです。

人間社会では、このスキル蓄積のプロセスが累積的な文化的進化を促進し、世代を超えて人間のスキル、ツール、知識を拡大します。

人類は何千年もの間、航海ルートから数学、社会規範から芸術作品に至るまで、豊富な文化的知識を発見し、進化させ、蓄積してきました。

文化の伝達は、経験情報をある人から別の人へ効率的に伝達することと定義され、人間の能力が指数関数的に蓄積されるプロセスです。

シンドバッドが七つの海を航海するといった大きなことから、オフィスの同僚がプリンターの使い方を教えてくれるといった小さなことまで。これらの明示的または暗黙的な経験的スキルは、今日の AI が「トレーニング」される方法で伝達されるのではなく、社会的学習を通じて「教えられる」ものです。

AIがこの「ティーチング」方式で知識を獲得できれば、人間とコンピュータのインタラクションであれ、AI自身の知能拡張であれ、効率は大幅に向上するでしょう。

この目的のために、DeepMind は深層強化学習技術を使用して、人工知能エージェントにおけるゼロショット、高再現率の文化移転の方法を開発しました。

トレーニング後、人工知能エージェントは専門家が示したガイド知識を推測し、思い出すことができます。この知識の転送はリアルタイムで行われ、これまでになかった多数のタスクに一般化できます。

AI文化の教育

DeepMind の研究チームは、手順的に生成された 3D の世界で AI をトレーニングおよびテストします。

この 3D の世界には、障害物でいっぱいの複雑な地形に埋め込まれたカラフルな球形のターゲットが含まれています。エージェントは、シナリオごとに場所がランダムに変化するゴールに到達するために、正しい順序で移動する必要があります。

順序を推測できないため、純粋に探索的な戦略では大きなペナルティが発生します。研究チームは、文化的に伝えられた情報の源として、常に正しい順序でターゲットに到達できる「エキスパートロボット」のスクリプトを生成しました。

複雑な世界において、探索タスクは、ジャンプやしゃがみの動作、垂直の障害物の回避の明確なデモンストレーションを提供することを目指しています。

すべての探索において、人間の移動パターンは常に目標指向的で最適に近いものでした (スコアのペナルティは発生しませんでした)。しかし、スクリプト化されたロボットとは明らかに異なり、最初の数秒間は方向を決めるのに時間がかかり、必ずしもまったく同じ経路を 2 回たどるわけではありませんでした。

エージェント (青) はエキスパート (赤) に続いて世界のゴールを見つけ、さまざまな地形や障害物を越えます。エージェントはエキスパートが去った後もタスクを完了し続けます。

エージェントとしての専門家

人類のための専門家

ビデオ内の軌跡は、人間の観察者が追跡するための便宜のためだけのものであり、エージェントには見えないことに注意することが重要です。

方法の実装と結果

DeepMind の研究チームは、消去法を使用して、文化移転を行うために必要な最小限のデータ量でトレーニング コンポーネント テーブルを決定しました。この「スターター キット」は、研究者によって MEDAL-ADR と名付けられました。

これらのトレーニング コンポーネントには、「記憶の保存」(M)、「専門家のドロップアウト」(ED)、「専門家への注意のバイアス」(AL)、「自動ドメインのランダム化」(ADR) が含まれます。

エージェントの構造

トレーニングアーキテクチャ

世界をもっとよく認識するために、DeepMind はエージェントに円形の LiDAR センサーを設置しました。

エージェントは、体から全方向に光線を放射することで、障害物までの距離を計測できます。

トレーニング中、エージェントは特定の時点で出現する社会的学習行動を通じて進歩していきます。

8億6000万歩のトレーニング:初期調査

15億9千万歩のトレーニング:模倣

トレーニング 18.2億歩: 記憶

トレーニング26.7億歩:独立

一般化: ワールド空間

ワールド空間パラメータは、地形のサイズと凹凸、および障害物の密度によって決まります。

空間の普遍性を定量化するために、DeepMind は障害物の密度と世界のサイズの直積をとってゲーム マップを生成します。

障害物の複雑さ: 1.0、地形の複雑さ: 1.0

一般化: ゲーム空間

ゲーム空間は、世界内のオブジェクトの数と、それらの間の正しいナビゲーション パスに含まれる交差点の数によって定義されます。

空間一般化を定量化するために、DeepMind は「N ターゲット、M クロス」ゲームのルール内でエージェントのタスクを生成します。

ターゲット球: 5、パス交差点: 4

一般化: エキスパートスペース

専門家の空間は、世界中で専門家が行う行動の速度と分布によって定義されます。

エキスパートは、スクリプト化されたロボットや、よりリアルで多様な動きのパターンを持つ人間のプレイヤーになることができます。

空間的な一般化可能性を定量化するために、DeepMind は動作速度と動作ノイズの直積を使用して、熟練ロボットの動作に匹敵する動作を生成しました。

騒音: 0.5、最高速度: 13.0

ノイズ: 0.0、最大速度: 17.0

ノイズがない場合、ロボットはまっすぐに目標に向かって進みますが、ノイズを追加すると、明らかに「ためらい」が見られることがわかります。ただし、専門家が速度を速く設定しすぎると、エージェントは後で完全に追いつくことができなくなります。

繰り返しテストを行った結果、DeepMind が開発したエージェントは、最も先進的な手法である ME-AL を含む一連の困難なタスクにおいて、対照群を上回るパフォーマンスを発揮しました。

さらに、文化の移転は知識の移転において予想以上にうまく一般化しており、AI エージェントは専門家が去った後もずっと後にデモンストレーションを思い出すことができます。

研究チームは人工知能エージェントの「脳」を観察し、驚くほど解釈可能な社会的情報と目標状態の符号化を担う「ニューロン」を発見した。

要約すると、DeepMind が開発したプロセスでは、トレーニング パイプラインで人工データを使用せずに、十分に柔軟で、高い再現性を持ち、文化をリアルタイムで転送するインテリジェント エージェントをトレーニングできます。これにより、文化的進化が汎用人工知能を開発するためのアルゴリズムとなる道が開かれます。

開発チーム

Lei Zhang 氏は、このプロジェクトのために DeepMind が新たに結成した Cultural General Intelligence Team のメンバーです。

彼はトロント大学で電気工学の博士号を取得しており、トロント大学で学士号と修士号も取得しています。

深層強化学習、一般モデル、畳み込みニューラルネットワーク、リカレントニューラルネットワーク、分散トレーニング、特徴検出アルゴリズムなどの分野で実績を積んでいます。

彼はルービックキューブを解くロボットハンドを開発したOpenAIチームのメンバーであり、現在はDeepMindの研究科学者です。​

<<:  ザッカーバーグは涙ながらに300人のチームを解散させた! Meta、Google、その他の大手企業によるMetaverse OSをめぐる戦いが正式に始まったのでしょうか?

>>:  Fudan DISC、クロスビジュアル言語モダリティ事前トレーニングモデルMVPTRを発表

ブログ    
ブログ    
ブログ    

推薦する

機械学習でサンプルが不均衡な場合はどうすればよいでしょうか?

銀行が新規顧客が債務不履行になるかどうかを判断する際、債務不履行にならない顧客と債務不履行になる顧客...

生成AIが自動車のソフトウェア化を推進する

自動車メーカーが直面する次の大きな課題はソフトウェア化、つまりハードウェアではなくソフトウェア ソリ...

AI 主導のパーソナライズ学習: テクノロジーが教育にもたらす革命

かつてはSFの世界の話のように思われていた人工知能(AI)という言葉は、今や現実のものとなり、私たち...

二次編集やUnreal Engine 5へのインポートをサポートし、Stable Diffusionは3D生成機能に進化

全体像を捉えるモデルに関して言えば、Stability AI が 2022 年にリリースした Sta...

AIロボットが大規模に導入されると、私たちはより良くなるのでしょうか?

人工知能の波が大きな変化を引き起こすには、4年という時間は十分あります。 2016年に北京の大学の講...

...

マスク氏が突然ツイッター買収を希望、上場廃止に2700億ドルで入札。ツイッターとテスラの株価は下落

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

この戦略は不安定なGANを安定させるのに役立ちます

敵対的生成ネットワーク (GAN) は、非常に幅広い応用が期待できる非常に強力なタイプのニューラル ...

...

AIと機械理解の限界を打ち破り、オックスフォード大学のコンピューターサイエンス博士の143ページの論文は3Dオブジェクトの再構築とセグメント化を学ぶ

機械に人間のように三次元の現実世界を知覚する能力を与えることは、人工知能の分野における基本的かつ長年...

2 ステップで 25 フレームの高品質アニメーションを生成 (SVD の 8% として計算) | オンラインでプレイ可能

消費されるコンピューティング リソースは、従来の Stable Video Diffusion (S...

ロボティック・プロセス・オートメーション(RPA)がCIOにとって優先課題である理由

自動化技術は企業ビジネスの発展を促進しており、ロボティック・プロセス・オートメーション (RPA) ...

データマイニングの基本概念と最も一般的に使用されるアルゴリズムについての簡単な説明

現在、国民経済と生活のあらゆる分野でビッグデータの理論と応用が盛んに行われています。ビッグデータの基...

高度な機械学習ノート 1 | TensorFlow のインストールと開始方法

[[185581]]導入TensorFlow は、DistBelief に基づいて Google が...

機械学習の謎を解く: プログラムはどのようにして自分自身を作成するのか?

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...