ICLR 2021 調査ではゲームスキル パッケージについて調査?順序付けられた記憶決定ネットワークは、次のことを達成するのを助けます

ICLR 2021 調査ではゲームスキル パッケージについて調査?順序付けられた記憶決定ネットワークは、次のことを達成するのを助けます

[[394114]]

木を切る、狩りをする、家を建てるなどの長いゲームビデオを機械に見せるとします。モデルは、この構造化されていないビデオからこれらの意味のあるスキルパッケージを自動的に検出できますか?

現実の世界では、人間は複雑なタスクを複数のサブタスクに効果的に分解する能力に特に優れています。この能力は、人間が学習プロセスを加速し、新しい環境に直面したときに優れた一般化能力を獲得するのに役立ちます。

従来の方法は主に確率的グラフィカル モデルを中心に展開されます。これらの研究では、サブタスク構造を潜在変数としてモデル化し、学習した事後分布からサブタスクのアイデンティティを抽出します。 ICLR 2021の論文で、MIT-IBMラボのGan Chuangチームは、モントリオール大学と共同で、「模倣学習でサブタスク構造が自動的に出現するように、よりスマートなニューラルネットワークを設計することは可能か?」という質問をしました。具体的には、研究者らは、サブタスク構造が各ステップの表現に反映されるように、再帰的決定ネットワークを設計しました。

この研究では、研究者らは順序付き記憶決定ネットワーク (OMPN) を提案しました。このモデルは、通常の動作のクローン作成を通じてサブタスクの階層を検出し、非構造化デモンストレーションからサブタスクの境界を回復できます。 Craft と Dial の実験では、サブタスク階層が、人間による追加の注釈なしでモデルから自然に進化することが示されています。

  • 論文アドレス: https://openreview.net/pdf?id=vcopnwZ7bC
  • プロジェクトアドレス: https://github.com/Ordered-Memory-RL/

メモリはサブタスクをどのように表現しますか?

研究者たちは説明のためにグリッドワールドの例を挙げている。この例には、エージェントが拾うことができるさまざまな原材料 (草など) があり、エージェントがこれらの原材料を使用できるようにするための工場も含まれています。エージェントが橋の建設タスクを完了したいとします。このタスクはツリー状の多層構造に分解できます。その中でも、ルートタスクは「原材料の採取」と「橋の建設」に分けられます。 「材料を拾う」は、さらに「草を拾う」と「木を拾う」に分けられます。

上記の構造を実装するには、エージェントのメモリを各ステップでどのように「更新」すればよいでしょうか?下の図では、メモリは異なるレベルのサブタスクに対応するさまざまなレベルに分割されています。 't=1' の場合、モデルはルート タスク「橋を建設する」のみから開始し、それを「原材料を拾う」に「拡張」し、さらに「木材を拾う」に「拡張」します。ここでの「展開」(青い矢印)は、メモリの最下位レベルからアクションが生成される「計画演算子」として理解できます。 「t<3」では「材料を拾う」がコピーされますが、「木材を拾う」が完了すると、つまり「t=3」になると、サブタスクが「更新」されます。ここでの「更新」は、各サブタスクの内部更新とみなすことができ、「更新」された「原材料の採取」は「拡張」されて次のサブタスク「草の採取」を得ることができます。同様に、「橋を建設する」は、「t=5」(「資材を拾う」が完了)で「更新」されるまでコピーされ、その後「橋を作る」と「工場に行く」に「拡張」されます。

このプロセスでは、「拡張の高さ」、つまり各瞬間に「拡張」が発生するメモリの位置を定義できます。研究者らはまた、「拡張高さ」の変化を観察することでサブタスクの境界を決定できることも発見した。たとえば、「t=2」から「t=3」までは、展開位置が最下位レベルから中位レベルになり、低レベルのサブタスクが完了したことを示します。 「t=4」から「t=5」にかけて、拡張位置は最低レベルから最高レベルに移動し、低レベルと中レベルのサブタスクの両方が完了したことを示します。したがって、目標は、合理的なネットワーク設計を通じて、モデルを上記のメモリ更新ルールに収束させることです。具体的には以下が含まれます:

  • モデルは現在の基礎となるサブタスクが完了したと判断した場合、高レベルの拡張位置を出力し、高レベルのサブタスクから拡張する必要があります。
  • モデルが現在の基礎となるサブタスクが完了していないと判断した場合、長期的な依存関係を実現するために、低レベルの拡張位置を出力し、高レベルのタスクをコピーする必要があります。

ネットワーク設計のデータフロー効果は次のとおりです。

行動クローニングからのタスク分解

主な実験結果は、正しいサブタスク構造が実際に行動のクローニングを通じてモデルに反映され、このプロセスでは追加のタスク境界ラベル付けが行われないことを示しています。次の例では、エージェントの軌道と展開位置の変化が視覚化されています。学習後、モデルは各サブタスクの終了時に拡張の高さを増やすことを学習します。各サブタスクの進行中、拡張の高さは低く保たれており、これは前述の直感と一致しています。

Craft タスクでは、モデルは「ベッドを構築する」ために 4 つのサブタスクを完了する必要があります。

ダイヤルタスクでは、モデルはロボットアームを制御して 4 つの数字を連続して押す必要があります。

キッチンタスクでは、モデルは 4 つの家電製品を継続的に操作する必要があります。

<<:  ドローンは農業にも活用されており、植物保護ドローンは侵入の防止と制御に非常に効果的です。

>>:  人工知能が人の感情を認識できるなんてすごいですね。信じられません。

ブログ    
ブログ    
ブログ    

推薦する

OpenAI、開発者向けGPTチャットボットAPIのメジャーアップデートを発表、価格を値下げ

6月14日、OpenAIは大規模言語モデルAPI(GPT-4およびgpt-3.5-turboを含む)...

72歳の男性がコーラを飲みながら脳で麻雀をする:これはすべて脳コンピューターインターフェース技術のおかげです

浙江省メディアの報道によると、現在浙江大学医学部第二付属病院で治療を受けている72歳の張さんは、意識...

快手は快易のビッグモデルの助けを借りてコメントエリアでのインテリジェントな返信を実現する「AI小快」をテスト中

快手は10月26日、「AI小快」アカウントの内部テストを正式に開始し、ショートビデオコメントエリアで...

人工知能の分野でどのように計画するか? マイクロソフトはこうする

[51CTO.com からのオリジナル記事] 人工知能は勢いを増しており、多くの大手企業が独自の計画...

人工知能はすべての人のキャリアを置き換えるわけではないが、新たな雇用機会も生み出すだろう

非常に憂鬱な格言があります。「今年は過去 10 年間で最悪の年だが、今後 10 年間では最高の年だ」...

このトレンドは止められない!すべてのデータ サイエンティストが知っておくべき 5 つのグラフ アルゴリズム

すべてがつながっている世界では、ユーザーは独立した個人ではなく、何らかの形で互いにつながっています。...

MarketsandMarkets: AI ロボット市場は 2026 年までに 353 億ドルに達する

MarketsandMarketsが発表した最新の市場調査レポートによると、人工知能ロボット市場は2...

OpenAIはMicrosoftに対し、Bingチャットボットのリリースを急がないよう警告したと報じられている

6月14日のニュース:最近、人工知能の新興企業OpenAIとMicrosoftが人工知能の分野で協力...

ChatGPT/GPT-4/ラマトロッコ問題コンテスト!小型モデルの方が道徳心が高い?

「モデルには道徳的に推論する能力がありますか?」この質問は、モデルによって生成されるコンテンツ ポ...

生成 AI は現在の DevOps および SRE 作業システムをどのようにサポートしますか?

こんにちは、ルガです。今日は、人工知能エコシステムの中核技術である「生成型人工知能」を意味する GA...

5GとエッジAI: トラフィック管理問題の解決

通勤方法は時代とともに変化してきたかもしれませんが、交通管理の方法は変わっていません。 INRIX世...

デジタル経済は新たな時代へ:インターネットが主導権を握り、ビッグデータと人工知能が注目の的

[[208505]]強固な経済基盤がなければ、豊かな国と強い国民は実現できません。中国共産党第19回...

...

AIに関する哲学的考察 - 認知不変性とAI

米国国防高等研究計画局(DARPA)はかつて、第3波AIの概念を提唱しました。その議論では、第3波A...