ディープマインドの創業者はAIの弟子を育て、「訓練」ではなく「教育」によってAIに宝探しを教えた

ディープマインドの創業者はAIの弟子を育て、「訓練」ではなく「教育」によってAIに宝探しを教えた

最近、DeepMind は強化学習の分野で新しいことを行いました。

簡単に言えば、DeepMind の研究者は、人間は「訓練」よりも「指導」を通じて知識やスキルを習得すると考えています。

つまり、この新しいエージェントは、人工データを使用した事前トレーニングを必要とせずに、人間のデモンストレーションを 1 回観察するだけで、新しい動作をすばやく学習できます。

今後トラブルに巻き込まれたら、主人に言わないでください。

文化移転は、エージェントが互いの経験情報を高い忠実度と再現性でリアルタイムに取得して使用できるようにする、ドメイン全体にわたる社会的スキルです。

人間社会では、このスキル蓄積のプロセスが累積的な文化的進化を促進し、世代を超えて人間のスキル、ツール、知識を拡大します。

人類は何千年もの間、航海ルートから数学、社会規範から芸術作品に至るまで、豊富な文化的知識を発見し、進化させ、蓄積してきました。

文化の伝達は、経験情報をある人から別の人へ効率的に伝達することと定義され、人間の能力が指数関数的に蓄積されるプロセスです。

シンドバッドが七つの海を航海するといった大きなことから、オフィスの同僚がプリンターの使い方を教えてくれるといった小さなことまで。これらの明示的または暗黙的な経験的スキルは、今日の AI が「トレーニング」される方法で伝達されるのではなく、社会的学習を通じて「教えられる」ものです。

AIがこの「ティーチング」方式で知識を獲得できれば、人間とコンピュータのインタラクションであれ、AI自身の知能拡張であれ、効率は大幅に向上するでしょう。

この目的のために、DeepMind は深層強化学習技術を使用して、人工知能エージェントにおけるゼロショット、高再現率の文化移転の方法を開発しました。

トレーニング後、人工知能エージェントは専門家が示したガイド知識を推測し、思い出すことができます。この知識の転送はリアルタイムで行われ、これまでになかった多数のタスクに一般化できます。

AI文化の教育

DeepMind の研究チームは、手順的に生成された 3D の世界で AI をトレーニングおよびテストします。

この 3D の世界には、障害物でいっぱいの複雑な地形に埋め込まれたカラフルな球形のターゲットが含まれています。エージェントは、シナリオごとに場所がランダムに変化するゴールに到達するために、正しい順序で移動する必要があります。

順序を推測できないため、純粋に探索的な戦略では大きなペナルティが発生します。研究チームは、文化的に伝えられた情報の源として、常に正しい順序でターゲットに到達できる「エキスパートロボット」のスクリプトを生成しました。

複雑な世界において、探索タスクは、ジャンプやしゃがみの動作、垂直の障害物の回避の明確なデモンストレーションを提供することを目指しています。

すべての探索において、人間の移動パターンは常に目標指向的で最適に近いものでした (スコアのペナルティは発生しませんでした)。しかし、スクリプト化されたロボットとは明らかに異なり、最初の数秒間は方向を決めるのに時間がかかり、必ずしもまったく同じ経路を 2 回たどるわけではありませんでした。

エージェント (青) はエキスパート (赤) に続いて世界のゴールを見つけ、さまざまな地形や障害物を越えます。エージェントはエキスパートが去った後もタスクを完了し続けます。

エージェントとしての専門家

人類のための専門家

ビデオ内の軌跡は、人間の観察者が追跡するための便宜のためだけのものであり、エージェントには見えないことに注意することが重要です。

方法の実装と結果

DeepMind の研究チームは、消去法を使用して、文化移転を行うために必要な最小限のデータ量でトレーニング コンポーネント テーブルを決定しました。この「スターター キット」は、研究者によって MEDAL-ADR と名付けられました。

これらのトレーニング コンポーネントには、「記憶の保存」(M)、「専門家のドロップアウト」(ED)、「専門家への注意のバイアス」(AL)、「自動ドメインのランダム化」(ADR) が含まれます。

エージェントの構造

トレーニングアーキテクチャ

世界をもっとよく認識するために、DeepMind はエージェントに円形の LiDAR センサーを設置しました。

エージェントは、体から全方向に光線を放射することで、障害物までの距離を計測できます。

トレーニング中、エージェントは特定の時点で出現する社会的学習行動を通じて進歩していきます。

8億6000万歩のトレーニング:初期調査

15億9千万歩のトレーニング:模倣

トレーニング 18.2億歩: 記憶

トレーニング26.7億歩:独立

一般化: ワールド空間

ワールド空間パラメータは、地形のサイズと凹凸、および障害物の密度によって決まります。

空間の普遍性を定量化するために、DeepMind は障害物の密度と世界のサイズの直積をとってゲーム マップを生成します。

障害物の複雑さ: 1.0、地形の複雑さ: 1.0

一般化: ゲーム空間

ゲーム空間は、世界内のオブジェクトの数と、それらの間の正しいナビゲーション パスに含まれる交差点の数によって定義されます。

空間一般化を定量化するために、DeepMind は「N ターゲット、M クロス」ゲームのルール内でエージェントのタスクを生成します。

ターゲット球: 5、パス交差点: 4

一般化: エキスパートスペース

専門家の空間は、世界中で専門家が行う行動の速度と分布によって定義されます。

エキスパートは、スクリプト化されたロボットや、よりリアルで多様な動きのパターンを持つ人間のプレイヤーになることができます。

空間的な一般化可能性を定量化するために、DeepMind は動作速度と動作ノイズの直積を使用して、熟練ロボットの動作に匹敵する動作を生成しました。

騒音: 0.5、最高速度: 13.0

ノイズ: 0.0、最大速度: 17.0

ノイズがない場合、ロボットはまっすぐに目標に向かって進みますが、ノイズを追加すると、明らかに「ためらい」が見られることがわかります。ただし、専門家が速度を速く設定しすぎると、エージェントは後で完全に追いつくことができなくなります。

繰り返しテストを行った結果、DeepMind が開発したエージェントは、最も先進的な手法である ME-AL を含む一連の困難なタスクにおいて、対照群を上回るパフォーマンスを発揮しました。

さらに、文化の移転は知識の移転において予想以上にうまく一般化しており、AI エージェントは専門家が去った後もずっと後にデモンストレーションを思い出すことができます。

研究チームは人工知能エージェントの「脳」を観察し、驚くほど解釈可能な社会的情報と目標状態の符号化を担う「ニューロン」を発見した。

要約すると、DeepMind が開発したプロセスでは、トレーニング パイプラインで人工データを使用せずに、十分に柔軟で、高い再現性を持ち、文化をリアルタイムで転送するインテリジェント エージェントをトレーニングできます。これにより、文化的進化が汎用人工知能を開発するためのアルゴリズムとなる道が開かれます。

開発チーム

Lei Zhang 氏は、このプロジェクトのために DeepMind が新たに結成した Cultural General Intelligence Team のメンバーです。

彼はトロント大学で電気工学の博士号を取得しており、トロント大学で学士号と修士号も取得しています。

深層強化学習、一般モデル、畳み込みニューラルネットワーク、リカレントニューラルネットワーク、分散トレーニング、特徴検出アルゴリズムなどの分野で実績を積んでいます。

彼はルービックキューブを解くロボットハンドを開発したOpenAIチームのメンバーであり、現在はDeepMindの研究科学者です。​

<<:  ザッカーバーグは涙ながらに300人のチームを解散させた! Meta、Google、その他の大手企業によるMetaverse OSをめぐる戦いが正式に始まったのでしょうか?

>>:  Fudan DISC、クロスビジュアル言語モダリティ事前トレーニングモデルMVPTRを発表

ブログ    
ブログ    

推薦する

...

コミック版:ディープラーニングって何?

Google はどのようにしてわずか数秒で Web ページ全体をさまざまな言語に翻訳するのか、ある...

自動車業界における人工知能の5つの主要な応用

[51CTO.com からのオリジナル記事] 自動車業界における人工知能の応用を考えるとき、最初に思...

人工知能の解釈については、この記事を読んでください

人工知能のより一般的な定義、そしてこの分野における初期の定義は、1956 年のダートマス会議で MI...

...

程偉:スマート交通に投資し、世界クラスのモデル都市を構築する

「滴滴出行がユーザーとドライバーをつなぐ旅行プラットフォームになるだけでなく、人、車、道路、信号、そ...

ライフル銃で動くロボット犬の発明者が恐怖を巻き起こす:プログラミング制御は恐れる必要はない

[[429985]]先週、米国陸軍協会(AUSA)の会議がワシントンで開催されました。アメリカのロボ...

顔認識: 顔の主要な特徴の認識

[[398462]]最後の顔認識画像の前処理では、前処理ステップを追加し、環境やその他の要因からの干...

スマートパッケージング:製造業の最新トレンド

[[352971]]画像ソース: https://pixabay.com/images/id-151...

マスク氏、ロボット「オプティマスプライム」が服を畳む動画を公開、動きはゆっくりだが自然

テスラのイーロン・マスク最高経営責任者(CEO)は現地時間1月16日、ソーシャルメディアXに同社の人...

脳コンピューターインターフェースから量子コンピューティングまで: 今後 10 年間のトップ 10 のテクノロジートレンド

21 世紀の最初の 10 年が過ぎましたが、この 10 年間で私たちは多くの新しいテクノロジーによっ...

アンドロイドが電気羊に乗れるようになりました!世界初の四足ロボット羊:妹は座ると少し震える

「アンドロイドは電気羊の夢を見るか?」このジョークは半世紀以上にわたって、SFの世界からテクノロジー...

バンク・オブ・アメリカ証券:ChatGPT iOSクライアントのダウンロード数は6月に38%減少

7月6日、バンク・オブ・アメリカ証券の最新調査レポートによると、人工知能はテクノロジー業界で最もホッ...

AI キャリアに移行する IT プロフェッショナルのための 8 つのヒント

IT プロフェッショナルは、IT 職から AI 技術職にどのように移行するのでしょうか? 専門家によ...

人工知能がエンタープライズ ソフトウェアを変える 10 の方法

人工知能の応用は、予想外の場所に現れるかもしれません。人工知能ソフトウェアの市場にいる場合、自社製品...