スタンフォード大学の中国人博士、フェイフェイ・リー氏は、スライドモデルを提案し、NVIDIAと共同で汎用人工知能を研究した。

[[409525]]

機械学習は、インテリジェントエージェントの学習効率と一般化能力を大幅に向上させることができます。

しかし、実際のアプリケーションでは、ロボットの設計は、その設計を完了するために多くのトレーニングと専門知識を必要とするため、他の問題よりも難しいことがよくあります。

この問題に対処するため、Fei-Fei Li 氏のチームと NVIDIA は、一連の自動生成されたさまざまなタスクを通じて汎用的なスキルを発見する新しいスキルトレーニング方法である Skill Learning In Diversified Environments (SLIDE) を提案しました。

同じ環境で異なるスキルをトレーニングするこれまでの教師なしスキル発見作業とは異なり、この論文のアプローチでは、各スキルをトレーニング可能なタスクジェネレーターによって生成された固有のタスクと組み合わせます。

一般化されたスキルの出現を促すために、ペアになったタスクごとにスキルトレーニングを実行し、生成されるタスクの多様性を最大化します。生成されたタスクでは、多様性目標の証拠下限を推定するためにタスク識別子が定義されます。

ロボットのスキルは、タスクを自動的に生成することによって学習されます。各スキルは、タスクジェネレーターによってトレーニング可能な固有のタスクに一致します。これらのスキルは、対応するタスクに特化するように訓練されます。生成された多様なタスクを通じてさまざまなスキルを発見します。

私たちの方法におけるスキル発見の鍵は、スキル条件付きタスクをトレーニングしてさまざまなタスクを作成するための目的関数ジェネレーター g を設計することです。研究者は、より一般的なスキルを学習できるようにするには、タスクジェネレータ g をトレーニングする際に、スキル間の多様性とスキル内の多様性の両方を考慮し、適切にバランスをとる必要があると考えています。

スキル間の多様性により、各ミッションは、それとペアになっているスキルに対してよりユニークな課題を提示するようになります。内部スキルの多様性は、各タスクが提供できる環境の変化を測定します。

ロボット操作タスクの場合、開発者はロボットが特定の種類のオブジェクトに対してさまざまな種類のインタラクション（押す、つかむ、落とすなど）に優れていることを望んでいます。同時に、各スキルがシーンの変更やタスク初期化の汎用性に対応できる十分な機能を備えていることも期待しています。

最後に、解決不可能なタスクに関するスキルの学習を防ぐために、タスクの実現可能性を考慮する必要があります。

上の図は、SLIDE モデルによって検出されたタスクとスキルの例を示しており、2 つの関連するサンプル軌跡を表示することで、スキル間およびスキル内の多様性を示しています。各グレーの領域には同じスキルインデックスが含まれています。各列には、生成されたタスクの初期化とスキルの実行が表示されます。缶（赤）、箱（緑）、カトラリー（青）など、異なる色は異なるカテゴリーのアイテムの行き先を示します。

この論文の実験設計の主な目的は、以下の質問に答えることです。1) SLIDE は生成されたタスクを通じてさまざまなスキルを学習できるか? 2) SLIDE を通じて習得したスキルは、他の未知のタスクにも活用および一般化できますか? 3) SLIDE での設計の選択は、学習スキルとタスクのパフォーマンスにどのように影響しますか?

ロボットのスキルを学習し、未知のターゲットタスクに対する一般化能力を評価するために、2 つの卓上操作領域が設計されました。各ドメインは、同じ状態とアクション空間を共有するが、異なる環境設計と報酬関数を持つドメインを定義します。 2 つのタスク空間は、初期化、ダイナミクス、報酬関数を定義するために、複数の離散変数と離散変数によってパラメーター化されます。

まず、ターゲットタスクの概念なしに、パラメータ化されたタスクからタスクを手順的に生成することによって、スキル発見方法をトレーニングします。次に、同じドメインから学習したスキルを使用して、それぞれの未知のターゲットタスクを解決するための階層戦略をトレーニングします。

研究結果によると、既存の強化学習やスキル学習の方法と比較して、本論文で提案された方法によって学習されたスキルは、目標のないさまざまなタスクにおいてロボットのパフォーマンスを効果的に向上させることができることが示されています。

この記事の主な貢献は、さまざまな環境でスキルを学習するためのモデル SLIDE を提案し、一連の異なるタスクを自動的に生成することです。生成されたタスクの多様性を最大化することにより、SLIDE メソッドはさまざまなタスクを発見し、スキルポリシーによってロボットがさまざまな動作を学習できるようにします。

階層構造をトレーニングし、学習したスキルの強化学習アルゴリズムを低レベル戦略として使用することで、2つのデスクトップ操作領域で暗黙的なターゲットタスクの学習能力と効率を効果的に向上できます。

今後の作業で改善できる点がいくつかあります。まず、提案された方法は、一定数のスキルを学習するように設計されています。興味深い研究の方向性は、タスクに対してオープンエンドのスキル発見と柔軟な数のスキルを実現することです。

第二に、この論文では、それが対象タスクに有用であることを示唆しており、パラメータ化された報酬関数がタスク内で事前定義されていると想定していますが、将来の研究では、対応するタスクの内発的インセンティブに基づいて報酬関数を生成できる可能性があります。

最後に、この研究がロボット学習や類似のアプリケーションにプログラムによるコンテンツ生成を活用するためのさらなる取り組みを促進し、視覚ナビゲーションやヒューマノイドロボットなどのより幅広いアプリケーションに手法が提案されることを願っています。

論文の筆頭著者である Kuan Fang 氏は、スタンフォード大学の Vision and Learning Lab の博士課程の学生で、Silvio Savarese 教授と Fei-Fei Li 教授の指導を受けています。彼の主な研究分野は、コンピュータービジョン、ロボット工学、機械学習です。

彼は清華大学で学士号を取得し、Google Brain、Google X、Microsoft Research Asiaでインターンシップを経験しました。

論文の2番目の著者であるユーク・チュー氏は、テキサス大学オースティン校のコンピュータサイエンス学部の助教授であり、ロボット認識学習研究所の所長、そしてNVIDIA Researchの上級研究科学者です。

彼の主な研究方向は、現実世界で推論し、相互作用できるロボットや具現化されたエージェントのためのインテリジェントなアルゴリズムを構築することです。この研究は、ロボット工学、コンピュータービジョン、機械学習の交差点にあります。汎用ロボットの自律性を実現するための知覚と制御の方法とメカニズムに焦点を当てています。

本論文の指導教員は、2020年に米国工学アカデミーと米国医学アカデミーの会員に、2021年に米国芸術科学アカデミーの会員に選出されたFei-Fei Liです。彼女の仕事には、認知に着想を得た AI、機械学習、ディープラーニング、コンピュータービジョン、AI + ヘルスケア、特にヘルスケア提供のためのアンビエントインテリジェンスシステムが含まれます。

彼女は認知神経科学と計算神経科学の分野でも研究を行っています。彼女は、重要な大規模データセットとベンチマーク作業である ImageNet と ImageNet Challenge を発明しました。

<<: マスク氏が示唆：脳の寄生虫が人間を超人的なAIを作らせる

>>: Facebook AI が、強力なフルスタックビデオライブラリである PyTorchVideo をオープンソース化し、モバイルフォンで SOTA モデルを 8 倍高速に実行できるようにしました。