最近、DeepMind は強化学習の分野で新しいことを行いました。 簡単に言えば、DeepMind の研究者は、人間は「訓練」よりも「指導」を通じて知識やスキルを習得すると考えています。 つまり、この新しいエージェントは、人工データを使用した事前トレーニングを必要とせずに、人間のデモンストレーションを 1 回観察するだけで、新しい動作をすばやく学習できます。 今後トラブルに巻き込まれたら、主人に言わないでください。文化移転は、エージェントが互いの経験情報を高い忠実度と再現性でリアルタイムに取得して使用できるようにする、ドメイン全体にわたる社会的スキルです。 人間社会では、このスキル蓄積のプロセスが累積的な文化的進化を促進し、世代を超えて人間のスキル、ツール、知識を拡大します。 人類は何千年もの間、航海ルートから数学、社会規範から芸術作品に至るまで、豊富な文化的知識を発見し、進化させ、蓄積してきました。 文化の伝達は、経験情報をある人から別の人へ効率的に伝達することと定義され、人間の能力が指数関数的に蓄積されるプロセスです。 シンドバッドが七つの海を航海するといった大きなことから、オフィスの同僚がプリンターの使い方を教えてくれるといった小さなことまで。これらの明示的または暗黙的な経験的スキルは、今日の AI が「トレーニング」される方法で伝達されるのではなく、社会的学習を通じて「教えられる」ものです。 AIがこの「ティーチング」方式で知識を獲得できれば、人間とコンピュータのインタラクションであれ、AI自身の知能拡張であれ、効率は大幅に向上するでしょう。 この目的のために、DeepMind は深層強化学習技術を使用して、人工知能エージェントにおけるゼロショット、高再現率の文化移転の方法を開発しました。 トレーニング後、人工知能エージェントは専門家が示したガイド知識を推測し、思い出すことができます。この知識の転送はリアルタイムで行われ、これまでになかった多数のタスクに一般化できます。 AI文化の教育DeepMind の研究チームは、手順的に生成された 3D の世界で AI をトレーニングおよびテストします。 この 3D の世界には、障害物でいっぱいの複雑な地形に埋め込まれたカラフルな球形のターゲットが含まれています。エージェントは、シナリオごとに場所がランダムに変化するゴールに到達するために、正しい順序で移動する必要があります。 順序を推測できないため、純粋に探索的な戦略では大きなペナルティが発生します。研究チームは、文化的に伝えられた情報の源として、常に正しい順序でターゲットに到達できる「エキスパートロボット」のスクリプトを生成しました。 複雑な世界において、探索タスクは、ジャンプやしゃがみの動作、垂直の障害物の回避の明確なデモンストレーションを提供することを目指しています。 すべての探索において、人間の移動パターンは常に目標指向的で最適に近いものでした (スコアのペナルティは発生しませんでした)。しかし、スクリプト化されたロボットとは明らかに異なり、最初の数秒間は方向を決めるのに時間がかかり、必ずしもまったく同じ経路を 2 回たどるわけではありませんでした。 エージェント (青) はエキスパート (赤) に続いて世界のゴールを見つけ、さまざまな地形や障害物を越えます。エージェントはエキスパートが去った後もタスクを完了し続けます。 エージェントとしての専門家 人類のための専門家 ビデオ内の軌跡は、人間の観察者が追跡するための便宜のためだけのものであり、エージェントには見えないことに注意することが重要です。 方法の実装と結果DeepMind の研究チームは、消去法を使用して、文化移転を行うために必要な最小限のデータ量でトレーニング コンポーネント テーブルを決定しました。この「スターター キット」は、研究者によって MEDAL-ADR と名付けられました。 これらのトレーニング コンポーネントには、「記憶の保存」(M)、「専門家のドロップアウト」(ED)、「専門家への注意のバイアス」(AL)、「自動ドメインのランダム化」(ADR) が含まれます。 エージェントの構造 トレーニングアーキテクチャ 世界をもっとよく認識するために、DeepMind はエージェントに円形の LiDAR センサーを設置しました。 エージェントは、体から全方向に光線を放射することで、障害物までの距離を計測できます。 トレーニング中、エージェントは特定の時点で出現する社会的学習行動を通じて進歩していきます。 8億6000万歩のトレーニング:初期調査 15億9千万歩のトレーニング:模倣 トレーニング 18.2億歩: 記憶 トレーニング26.7億歩:独立 一般化: ワールド空間ワールド空間パラメータは、地形のサイズと凹凸、および障害物の密度によって決まります。 空間の普遍性を定量化するために、DeepMind は障害物の密度と世界のサイズの直積をとってゲーム マップを生成します。 障害物の複雑さ: 1.0、地形の複雑さ: 1.0 一般化: ゲーム空間ゲーム空間は、世界内のオブジェクトの数と、それらの間の正しいナビゲーション パスに含まれる交差点の数によって定義されます。 空間一般化を定量化するために、DeepMind は「N ターゲット、M クロス」ゲームのルール内でエージェントのタスクを生成します。 ターゲット球: 5、パス交差点: 4 一般化: エキスパートスペース専門家の空間は、世界中で専門家が行う行動の速度と分布によって定義されます。 エキスパートは、スクリプト化されたロボットや、よりリアルで多様な動きのパターンを持つ人間のプレイヤーになることができます。 空間的な一般化可能性を定量化するために、DeepMind は動作速度と動作ノイズの直積を使用して、熟練ロボットの動作に匹敵する動作を生成しました。 騒音: 0.5、最高速度: 13.0 ノイズ: 0.0、最大速度: 17.0 ノイズがない場合、ロボットはまっすぐに目標に向かって進みますが、ノイズを追加すると、明らかに「ためらい」が見られることがわかります。ただし、専門家が速度を速く設定しすぎると、エージェントは後で完全に追いつくことができなくなります。 繰り返しテストを行った結果、DeepMind が開発したエージェントは、最も先進的な手法である ME-AL を含む一連の困難なタスクにおいて、対照群を上回るパフォーマンスを発揮しました。 さらに、文化の移転は知識の移転において予想以上にうまく一般化しており、AI エージェントは専門家が去った後もずっと後にデモンストレーションを思い出すことができます。 研究チームは人工知能エージェントの「脳」を観察し、驚くほど解釈可能な社会的情報と目標状態の符号化を担う「ニューロン」を発見した。 要約すると、DeepMind が開発したプロセスでは、トレーニング パイプラインで人工データを使用せずに、十分に柔軟で、高い再現性を持ち、文化をリアルタイムで転送するインテリジェント エージェントをトレーニングできます。これにより、文化的進化が汎用人工知能を開発するためのアルゴリズムとなる道が開かれます。 開発チームLei Zhang 氏は、このプロジェクトのために DeepMind が新たに結成した Cultural General Intelligence Team のメンバーです。 彼はトロント大学で電気工学の博士号を取得しており、トロント大学で学士号と修士号も取得しています。 深層強化学習、一般モデル、畳み込みニューラルネットワーク、リカレントニューラルネットワーク、分散トレーニング、特徴検出アルゴリズムなどの分野で実績を積んでいます。 彼はルービックキューブを解くロボットハンドを開発したOpenAIチームのメンバーであり、現在はDeepMindの研究科学者です。 |
<<: ザッカーバーグは涙ながらに300人のチームを解散させた! Meta、Google、その他の大手企業によるMetaverse OSをめぐる戦いが正式に始まったのでしょうか?
>>: Fudan DISC、クロスビジュアル言語モダリティ事前トレーニングモデルMVPTRを発表
銀行が新規顧客が債務不履行になるかどうかを判断する際、債務不履行にならない顧客と債務不履行になる顧客...
自動車メーカーが直面する次の大きな課題はソフトウェア化、つまりハードウェアではなくソフトウェア ソリ...
かつてはSFの世界の話のように思われていた人工知能(AI)という言葉は、今や現実のものとなり、私たち...
全体像を捉えるモデルに関して言えば、Stability AI が 2022 年にリリースした Sta...
人工知能の波が大きな変化を引き起こすには、4年という時間は十分あります。 2016年に北京の大学の講...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
敵対的生成ネットワーク (GAN) は、非常に幅広い応用が期待できる非常に強力なタイプのニューラル ...
機械に人間のように三次元の現実世界を知覚する能力を与えることは、人工知能の分野における基本的かつ長年...
消費されるコンピューティング リソースは、従来の Stable Video Diffusion (S...
自動化技術は企業ビジネスの発展を促進しており、ロボティック・プロセス・オートメーション (RPA) ...
現在、国民経済と生活のあらゆる分野でビッグデータの理論と応用が盛んに行われています。ビッグデータの基...
[[185581]]導入TensorFlow は、DistBelief に基づいて Google が...
この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...