ディープマインドの創業者はAIの弟子を育て、「訓練」ではなく「教育」によってAIに宝探しを教えた

最近、DeepMind は強化学習の分野で新しいことを行いました。

簡単に言えば、DeepMind の研究者は、人間は「訓練」よりも「指導」を通じて知識やスキルを習得すると考えています。

つまり、この新しいエージェントは、人工データを使用した事前トレーニングを必要とせずに、人間のデモンストレーションを 1 回観察するだけで、新しい動作をすばやく学習できます。

今後トラブルに巻き込まれたら、主人に言わないでください。

文化移転は、エージェントが互いの経験情報を高い忠実度と再現性でリアルタイムに取得して使用できるようにする、ドメイン全体にわたる社会的スキルです。

人間社会では、このスキル蓄積のプロセスが累積的な文化的進化を促進し、世代を超えて人間のスキル、ツール、知識を拡大します。

人類は何千年もの間、航海ルートから数学、社会規範から芸術作品に至るまで、豊富な文化的知識を発見し、進化させ、蓄積してきました。

文化の伝達は、経験情報をある人から別の人へ効率的に伝達することと定義され、人間の能力が指数関数的に蓄積されるプロセスです。

シンドバッドが七つの海を航海するといった大きなことから、オフィスの同僚がプリンターの使い方を教えてくれるといった小さなことまで。これらの明示的または暗黙的な経験的スキルは、今日の AI が「トレーニング」される方法で伝達されるのではなく、社会的学習を通じて「教えられる」ものです。

AIがこの「ティーチング」方式で知識を獲得できれば、人間とコンピュータのインタラクションであれ、AI自身の知能拡張であれ、効率は大幅に向上するでしょう。

この目的のために、DeepMind は深層強化学習技術を使用して、人工知能エージェントにおけるゼロショット、高再現率の文化移転の方法を開発しました。

トレーニング後、人工知能エージェントは専門家が示したガイド知識を推測し、思い出すことができます。この知識の転送はリアルタイムで行われ、これまでになかった多数のタスクに一般化できます。

AI文化の教育

DeepMind の研究チームは、手順的に生成された 3D の世界で AI をトレーニングおよびテストします。

この 3D の世界には、障害物でいっぱいの複雑な地形に埋め込まれたカラフルな球形のターゲットが含まれています。エージェントは、シナリオごとに場所がランダムに変化するゴールに到達するために、正しい順序で移動する必要があります。

順序を推測できないため、純粋に探索的な戦略では大きなペナルティが発生します。研究チームは、文化的に伝えられた情報の源として、常に正しい順序でターゲットに到達できる「エキスパートロボット」のスクリプトを生成しました。

複雑な世界において、探索タスクは、ジャンプやしゃがみの動作、垂直の障害物の回避の明確なデモンストレーションを提供することを目指しています。

すべての探索において、人間の移動パターンは常に目標指向的で最適に近いものでした (スコアのペナルティは発生しませんでした)。しかし、スクリプト化されたロボットとは明らかに異なり、最初の数秒間は方向を決めるのに時間がかかり、必ずしもまったく同じ経路を 2 回たどるわけではありませんでした。

エージェント (青) はエキスパート (赤) に続いて世界のゴールを見つけ、さまざまな地形や障害物を越えます。エージェントはエキスパートが去った後もタスクを完了し続けます。

エージェントとしての専門家

人類のための専門家

ビデオ内の軌跡は、人間の観察者が追跡するための便宜のためだけのものであり、エージェントには見えないことに注意することが重要です。

方法の実装と結果

DeepMind の研究チームは、消去法を使用して、文化移転を行うために必要な最小限のデータ量でトレーニングコンポーネントテーブルを決定しました。この「スターターキット」は、研究者によって MEDAL-ADR と名付けられました。

これらのトレーニングコンポーネントには、「記憶の保存」(M)、「専門家のドロップアウト」(ED)、「専門家への注意のバイアス」(AL)、「自動ドメインのランダム化」(ADR) が含まれます。

エージェントの構造

トレーニングアーキテクチャ

世界をもっとよく認識するために、DeepMind はエージェントに円形の LiDAR センサーを設置しました。

エージェントは、体から全方向に光線を放射することで、障害物までの距離を計測できます。

トレーニング中、エージェントは特定の時点で出現する社会的学習行動を通じて進歩していきます。

8億6000万歩のトレーニング：初期調査

15億9千万歩のトレーニング：模倣

トレーニング 18.2億歩: 記憶

トレーニング26.7億歩：独立

一般化: ワールド空間

ワールド空間パラメータは、地形のサイズと凹凸、および障害物の密度によって決まります。

空間の普遍性を定量化するために、DeepMind は障害物の密度と世界のサイズの直積をとってゲームマップを生成します。

障害物の複雑さ: 1.0、地形の複雑さ: 1.0

一般化: ゲーム空間

ゲーム空間は、世界内のオブジェクトの数と、それらの間の正しいナビゲーションパスに含まれる交差点の数によって定義されます。

空間一般化を定量化するために、DeepMind は「N ターゲット、M クロス」ゲームのルール内でエージェントのタスクを生成します。

ターゲット球: 5、パス交差点: 4

一般化: エキスパートスペース

専門家の空間は、世界中で専門家が行う行動の速度と分布によって定義されます。

エキスパートは、スクリプト化されたロボットや、よりリアルで多様な動きのパターンを持つ人間のプレイヤーになることができます。

空間的な一般化可能性を定量化するために、DeepMind は動作速度と動作ノイズの直積を使用して、熟練ロボットの動作に匹敵する動作を生成しました。

騒音: 0.5、最高速度: 13.0

ノイズ: 0.0、最大速度: 17.0

ノイズがない場合、ロボットはまっすぐに目標に向かって進みますが、ノイズを追加すると、明らかに「ためらい」が見られることがわかります。ただし、専門家が速度を速く設定しすぎると、エージェントは後で完全に追いつくことができなくなります。

繰り返しテストを行った結果、DeepMind が開発したエージェントは、最も先進的な手法である ME-AL を含む一連の困難なタスクにおいて、対照群を上回るパフォーマンスを発揮しました。

さらに、文化の移転は知識の移転において予想以上にうまく一般化しており、AI エージェントは専門家が去った後もずっと後にデモンストレーションを思い出すことができます。

研究チームは人工知能エージェントの「脳」を観察し、驚くほど解釈可能な社会的情報と目標状態の符号化を担う「ニューロン」を発見した。

要約すると、DeepMind が開発したプロセスでは、トレーニングパイプラインで人工データを使用せずに、十分に柔軟で、高い再現性を持ち、文化をリアルタイムで転送するインテリジェントエージェントをトレーニングできます。これにより、文化的進化が汎用人工知能を開発するためのアルゴリズムとなる道が開かれます。