ICLR 2021 調査ではゲームスキルパッケージについて調査?順序付けられた記憶決定ネットワークは、次のことを達成するのを助けます

[[394114]]

木を切る、狩りをする、家を建てるなどの長いゲームビデオを機械に見せるとします。モデルは、この構造化されていないビデオからこれらの意味のあるスキルパッケージを自動的に検出できますか?

現実の世界では、人間は複雑なタスクを複数のサブタスクに効果的に分解する能力に特に優れています。この能力は、人間が学習プロセスを加速し、新しい環境に直面したときに優れた一般化能力を獲得するのに役立ちます。

従来の方法は主に確率的グラフィカルモデルを中心に展開されます。これらの研究では、サブタスク構造を潜在変数としてモデル化し、学習した事後分布からサブタスクのアイデンティティを抽出します。 ICLR 2021の論文で、MIT-IBMラボのGan Chuangチームは、モントリオール大学と共同で、「模倣学習でサブタスク構造が自動的に出現するように、よりスマートなニューラルネットワークを設計することは可能か？」という質問をしました。具体的には、研究者らは、サブタスク構造が各ステップの表現に反映されるように、再帰的決定ネットワークを設計しました。

この研究では、研究者らは順序付き記憶決定ネットワーク (OMPN) を提案しました。このモデルは、通常の動作のクローン作成を通じてサブタスクの階層を検出し、非構造化デモンストレーションからサブタスクの境界を回復できます。 Craft と Dial の実験では、サブタスク階層が、人間による追加の注釈なしでモデルから自然に進化することが示されています。

論文アドレス: https://openreview.net/pdf?id=vcopnwZ7bC
プロジェクトアドレス: https://github.com/Ordered-Memory-RL/

メモリはサブタスクをどのように表現しますか?

研究者たちは説明のためにグリッドワールドの例を挙げている。この例には、エージェントが拾うことができるさまざまな原材料 (草など) があり、エージェントがこれらの原材料を使用できるようにするための工場も含まれています。エージェントが橋の建設タスクを完了したいとします。このタスクはツリー状の多層構造に分解できます。その中でも、ルートタスクは「原材料の採取」と「橋の建設」に分けられます。「材料を拾う」は、さらに「草を拾う」と「木を拾う」に分けられます。

上記の構造を実装するには、エージェントのメモリを各ステップでどのように「更新」すればよいでしょうか?下の図では、メモリは異なるレベルのサブタスクに対応するさまざまなレベルに分割されています。 't=1' の場合、モデルはルートタスク「橋を建設する」のみから開始し、それを「原材料を拾う」に「拡張」し、さらに「木材を拾う」に「拡張」します。ここでの「展開」（青い矢印）は、メモリの最下位レベルからアクションが生成される「計画演算子」として理解できます。「t<3」では「材料を拾う」がコピーされますが、「木材を拾う」が完了すると、つまり「t=3」になると、サブタスクが「更新」されます。ここでの「更新」は、各サブタスクの内部更新とみなすことができ、「更新」された「原材料の採取」は「拡張」されて次のサブタスク「草の採取」を得ることができます。同様に、「橋を建設する」は、「t=5」（「資材を拾う」が完了）で「更新」されるまでコピーされ、その後「橋を作る」と「工場に行く」に「拡張」されます。

このプロセスでは、「拡張の高さ」、つまり各瞬間に「拡張」が発生するメモリの位置を定義できます。研究者らはまた、「拡張高さ」の変化を観察することでサブタスクの境界を決定できることも発見した。たとえば、「t=2」から「t=3」までは、展開位置が最下位レベルから中位レベルになり、低レベルのサブタスクが完了したことを示します。「t=4」から「t=5」にかけて、拡張位置は最低レベルから最高レベルに移動し、低レベルと中レベルのサブタスクの両方が完了したことを示します。したがって、目標は、合理的なネットワーク設計を通じて、モデルを上記のメモリ更新ルールに収束させることです。具体的には以下が含まれます:

モデルは現在の基礎となるサブタスクが完了したと判断した場合、高レベルの拡張位置を出力し、高レベルのサブタスクから拡張する必要があります。
モデルが現在の基礎となるサブタスクが完了していないと判断した場合、長期的な依存関係を実現するために、低レベルの拡張位置を出力し、高レベルのタスクをコピーする必要があります。

ネットワーク設計のデータフロー効果は次のとおりです。

行動クローニングからのタスク分解

主な実験結果は、正しいサブタスク構造が実際に行動のクローニングを通じてモデルに反映され、このプロセスでは追加のタスク境界ラベル付けが行われないことを示しています。次の例では、エージェントの軌道と展開位置の変化が視覚化されています。学習後、モデルは各サブタスクの終了時に拡張の高さを増やすことを学習します。各サブタスクの進行中、拡張の高さは低く保たれており、これは前述の直感と一致しています。

Craft タスクでは、モデルは「ベッドを構築する」ために 4 つのサブタスクを完了する必要があります。

ダイヤルタスクでは、モデルはロボットアームを制御して 4 つの数字を連続して押す必要があります。

キッチンタスクでは、モデルは 4 つの家電製品を継続的に操作する必要があります。

<<: ドローンは農業にも活用されており、植物保護ドローンは侵入の防止と制御に非常に効果的です。

>>: 人工知能が人の感情を認識できるなんてすごいですね。信じられません。