MetaがCMUと提携して最も強力な「汎用ロボットエージェント」を開発するのに2年かかりました。

MetaがCMUと提携して最も強力な「汎用ロボットエージェント」を開発するのに2年かかりました。

爆発的な人気を博している大規模モデルは、「汎用ロボットエージェント」に関する研究を再構築しています。

少し前に、Google DeepMind は RT-2 プロジェクトを立ち上げました。これは 7 か月かけて構築されました。数学的推論を実行したり、有名人を認識したりすることができ、インターネットで人気を博しました。

Google に加えて、Meta と CMU の研究者も 2 年をかけて、史上最強の汎用ロボット エージェント「RoboAgent」を開発しました。

違いは、RoboAgent は 7500 の軌跡のみでトレーニングされていることです。

具体的には、RoboAgent は、パンを焼く、アイテムを拾う、お茶を出す、キッチンを掃除するなど、38 のタスクで 12 の異なる複雑なスキルを達成しました。

さらに、その機能は 100 の未知のシナリオに一般化できます。

彼女は、応接室の女性としても、台所の料理人としても、両方の能力を備えていると言えるでしょう。


興味深いことに、どんなに干渉しても、RoboAgent はタスクを完了することができます。

RoboAgent は他に何ができますか?

パンを焼く、お茶を出す、テーブルを拭く

まず、RoboAgent は引き出しをスムーズに開閉できます。

開封時にヨーグルトが倒れそうになりましたが、動作のつながりに基本的に遅れはなく、押す・引く動作がスムーズに完了しました。

RoboAgent は引き出しだけでなく、電子レンジのドアも簡単に開けたり閉めたりできます。

しかし、ロボットは人間のようにハンドルをつかむのではなく、ハンドルとドアの隙間に身を潜め、力ずくで電子レンジのドアを開閉していた。

同様に、ボトルや瓶の蓋についても、RoboAgent は遅延なく正確に開閉できます。

しかし、キッチンには蓋付きの調味料瓶の他に、料理酒や老干し麻など蓋を外す必要のある瓶もいくつかあります。

幸いなことに、RoboAgent はさまざまなピッキングおよび配置タスクを基本的に問題なく実行できます。

動画では、RoboAgent が引き出しから何かを取り出したり、ティーバッグをカップに入れたり、電子レンジをオンにしてボウルを入れたりしています。実証されているのは、RoboAgent がお茶を淹れたり食べ物を温めたりする作業に含まれる一連の動作を理解できることです。

上記の 9 つのアクションを整理して組み合わせることで、基本的にキッチンでの一連の作業をカバーできます。

例えば、パンを焼く準備、キッチンの掃除、スープを出す、お茶を入れる、食器を収納するなどです。

ベーキングの準備をするとき、最初にすることは引き出しを開けて、中に入っているバターを見つけることです。見つけたら、バターをまな板の上に置き、最後に引き出しを閉じます。

RoboAgent の一連のアクションの論理的な順序は、現実のシナリオに非常に近いようです。

しかし、RoboAgent はまだ人間ほど柔軟ではありません。言うまでもなく、人間は両手を持っており、片手でバターを持ち、もう片方の手で引き出しを閉めることができます。人間は片手だけでもバターを持ち、もう一方の手で引き出しを押し戻すことができます。 RoboAgent は、まずバターを置いてから引き出しを閉じることしかできません。

それほど柔軟性があるようには見えません。

キッチンを掃除する際、RoboAgent は次の 4 つの手順に従います。

まず引き出しを閉じ、次に電子レンジを閉じます。そして横からタオルを取り出し、最後にまな板を拭きます。

スープを出すときは、RoboAgent はまず電子レンジを開け、電子レンジの中に入っているボウルを取り出します。次にボウルをテーブルの上に置き、最後に電子レンジをオフにします。

しかし、ここでの RoboAgent のパフォーマンスはそれほど安心できるものではありません。

デモ動画のボウルが空だったのは良かったとしか言えません。もし RoboAgent に実際に食べ物が入ったボウルを拾うように頼んだら、おそらく拾った瞬間に食べ物があちこちにこぼれてしまうでしょう。

しかし、RoboAgent は紅茶を作るのがとても上手です。

まず、お茶の缶の蓋を外し、そこからティーバッグを取り出し、ティーバッグを正確にカップに落とし、最後に蓋を持ち上げて缶に戻します。

しかし、完璧なお茶を淹れるには、まだ一歩、お湯を注ぐという作業が残っています。それとも、ロボエージェントは私たちにお茶の香りのする空気を飲むように誘っているのでしょうか?

上記のRoboAgentのパフォーマンスを見ると、ほとんどのタスクはスムーズに完了できるものの、片手だけではやはり不便すぎるようです。

Meta と CMU が RoboAgent にもう少し手助けを与えて、同時に複数の処理を実行し、効率を大幅に向上させてくれることを願っています。

「ユニバーサルロボットエージェント」の開発には2年かかった

Meta 氏と CMU の研究者は、RoboAgent が真に汎用的なロボット エージェントになることを期待しています。

過去2年間、彼らは継続的にプロジェクトを推進してきました。 RoboAgent は多方向の研究の集合体であり、将来のさらなる研究方向への出発点でもあります。

「汎用ロボットエージェント」の開発において、研究者は最近の多くの汎用ロボット学習プロジェクトから深いインスピレーションを受けています。

現在、汎用ロボット知能化への道のりで解決すべき大きな課題が 2 つあります。

まず、原因と結果のジレンマがあります。

何十年もの間、さまざまな環境で任意の物体を操作できるロボットを持つことは達成不可能な目標でした。これは、そのようなエージェントをトレーニングするためのデータセットが不足していることが一因ですが、そのようなデータを生成できる汎用エージェントが不足していることも一因です。

第二に、悪循環を断ち切ります。

この悪循環から抜け出すために、研究は効果的なパラダイムの開発に重点を置いています。

現実的なデータ予算内でさまざまなスキルを習得し、さまざまな未知の状況に一般化できる汎用エージェントを提供できます。

論文アドレス: https://robopen.github.io/media/roboagent.pdf

紹介によれば、RoboAgent は次のモジュール式かつ補償可能な要素に基づいて構築されています。

- ロボペン:

長期間中断なく稼働できる汎用ハードウェアを使用して構築された分散型ロボット インフラストラクチャ。

- ロボハイブ:

シミュレーションと実際の操作にわたるロボット学習のための統合フレームワーク。

- RoboSet:さまざまなシナリオにおける日常的なオブジェクトの幅広いスキルを表す高品質のデータセット。

- MT-ACT:

効率的な言語条件付きマルチタスクオフライン模倣学習フレームワーク。既存のロボット経験に基づいて多様なセマンティック拡張コレクションを作成することでオフライン データセットを拡張し、効率的なアクション表現を備えた新しいポリシー アーキテクチャを採用して、データ バジェット内で高性能なポリシーを回復します。

アクションブロック、新しいアーキテクチャ MT-ACT

一般的な操作ポリシーを学習するには、ロボットはさまざまなスキルや環境の変化など、豊富で多様な経験にさらされる必要があります。

ただし、このような大規模なデータセットを収集するための運用コストと実際的な課題により、データセットの全体的なサイズが制限されます。

研究者たちは、限られたデータ予算で効果的なマルチタスクエージェントを学習できるパラダイムを開発することで、これらの制限に対処することを目指しています。

下の図に示すように、Meta と CMU チームは、Multi-Task Action Chunking Transformer (MT-ACT) を提案しました。

この方法は 2 つの段階から構成されます。

フェーズ 1: セマンティック拡張

RoboAgent は、RoboSet (MT-ACT) データセットのセマンティック拡張を作成することにより、既存の基本モデルからワールド プライアを注入します。

結果として得られるデータセットは、人間/ロボットのコストを増やすことなく、ロボットの経験を世界の事前情報と掛け合わせるために使用できます。

次に研究者らは SAM を使用して対象オブジェクトをセグメント化し、形状、色、テクスチャのバリエーションを持つさまざまなオブジェクトにセマンティクスを強化しました。

フェーズ2: 効率的なポリシー表現

生成されたデータセットはマルチモーダルであり、多種多様なスキル、タスク、シナリオが含まれています。

私たちは、アクション チャンキングをマルチタスク設定に適応させ、高度にマルチモーダルなデータセットを取り込み、データ バジェットの少ない設定で過剰適合を回避できる、新しい効率的なポリシー表現である MT-ACT を開発しました。

以下は MT-ACT 戦略の構成要素です。

RoboSet データセット

この研究の目的は、データ効率の高いロボット学習パラダイムを確立することであり、研究者たちはそのために、事前に収集された小規模だが多様なデータセットに限定しました。

行動の多様性を捉えるために、研究者らはさまざまなキッチンのシナリオでさまざまなタスクにさまざまなスキルを適用しました。

このプロジェクトでは、データセット RoboSet (MT-ACT) は、人間の遠隔操作者によって収集された 7500 の軌跡で構成されています。

データセットには、複数のタスクとシナリオにまたがる 12 のスキルが含まれています。

下の図は、データセット内のスキルの分布を示しています。

一般的なピックアンドプレース スキルがデータセットの 40% を占めていますが、ワイピング、キャップ、関節式オブジェクト (開く、閉じる) を使用するスキルなど、豊富な接触スキルも含まれています。

研究者たちは、さまざまな日常的な物を含むキッチンシーンの 4 つの異なるインスタンスに関するデータセット全体を収集しました。

さらに、チームは各シーンインスタンスをオブジェクトのさまざまなバリエーションと交換し、各スキルが複数のターゲットオブジェクトとシーンインスタンスにアクセスできるようにしました。

データ拡張

収集されたデータセットはシーンとオブジェクトの多様性の需要を満たすことができないため、研究者は、各軌跡での操作動作を維持しながら、オフラインでさまざまなバリエーションのシーンを追加することでデータセットを拡張します。

セグメンテーションとローカル修復モデルの最近の進歩に基づいて、インターネット データから現実世界のセマンティック事前分布を抽出し、構造化された方法でシーンを変更します。

MT-ACTアーキテクチャ

MT-ACT のポリシー アーキテクチャは、マルチモーダルおよびマルチタスク ロボット データセットを処理するのに十分な容量を備えた Transformer モデルとして設計されています。

マルチモーダルデータを取得するために、研究者らは以前の研究に倣い、アクションシーケンスを潜在スタイル埋め込み z にエンコードする CVAE を追加しました。

マルチタスク データ モデルを構築するために、この研究では、特定のタスクの説明の埋め込みを学習する事前トレーニング済みの言語エンコーダーを使用しました

複合エラーの問題を軽減するために、H ステップごとの将来の各タイム ステップでアクションが予測され、特定のタイム ステップで予測された重複アクションの時間的平滑化によって実行されます。

さらに、シーンの変化に対する堅牢性を向上させるために、研究者は MT-ACT 戦略に 4 つのカメラ角度から作業スペースの 4 つの異なるビューを提供しました。

Transformer エンコーダーは、現在のタイム ステップ、ロボットの現在のジョイント ポーズ、CVAE からのスタイル埋め込み z、および言語埋め込み T を入力として受け取ります。

次に、FiLM ベースの調整方法を使用して、イメージ トークンが確実に言語指示に焦点を合わせていることを確認します。これにより、シーン内に複数のタスクがある場合でも、MT-ACT ポリシーがタスクについて混乱することはありません。

エンコードされたトークンは、固定位置埋め込みを使用して Transformer ポリシー デコーダーに入り、最終的に次のアクション ブロック (H アクション) を出力します。

実行時に、研究者は現在のタイムステップで予測されるすべての重複アクションを平均化し(H > 1 の場合、アクション ブロックは重複します)、結果として得られる平均化されたアクションを実行します。

少量のデータだが、Google RT-1を上回る

MT-ACT 戦略は現実世界でどのように機能するのでしょうか?

研究者らは、提案されたフレームワークのサンプル効率とさまざまなシナリオにおけるエージェントの汎用性を実験的に評価しました。

以下では、MT-ACT 戦略を一般的に使用される模倣学習アーキテクチャと比較します。

研究者らは、L1 一般化の結果のみをプロットしました。これは、他のほとんどの模倣学習アルゴリズムで使用される標準設定だからです。

図からわかるように、サブ軌道ではなく次のステップの動作のみをシミュレートするすべての方法は、パフォーマンスが低下します。

これらの方法のうち、アクションクラスタリングベースの方法 (BeT) は、マルチタスク設定ではパフォーマンスがはるかに悪いと研究者らは発見しました。

さらに、この研究はデータが少ない環境で実施されたため、大量のデータを必要とする RT1 などの方法は、この環境ではうまく機能しません。

対照的に、アクション検査を使用してサブ軌道をモデル化する MT-ACT ポリシーは、すべてのベースライン メソッドを大幅に上回ります。

図 7 (右下) は、複数の一般化レベル (L1、L2、L3) にわたるすべての方法の結果を示しています。

さらに、研究者らは各活動の一般化結果を個別に報告した。図 8 からわかるように、各セマンティック拡張方法は、各アクティビティのパフォーマンスにプラスの影響を与えます。

最後に、研究者らは、アクション表現ブロックのサイズ、可塑性、堅牢性など、さまざまな設計を使用してアーキテクチャを研究しました。

<<: 

>>:  ヒット曲予測の成功率は97%?このリストは「偽造品と戦う」ためにあります

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

...

交換されますか? GPT4コードインタープリター完全自動

こんにちは、みんな。今日は、GPT-4 コード インタープリターがデータ分析、科学研究の描画、機械学...

顔認識がコミュニティに登場: 「顔スキャン」の背後にあるプライバシーとセキュリティの問題

李静さん(仮名)は、団地内の自分のアパートのドアを開けることができなくなった。ドアには「顔認識」装置...

第1回世界情報会議は6月29日〜30日に天津で開催される。

【51CTO北京ニュース】2017年6月6日、北京で第1回世界インテリジェンス大会の記者会見が開催...

強いAIと弱いAIの議論:人工知能の意識に関する興味深い理論

[[344692]]最近、私のお気に入りの新進思想家の一人と高性能 AI と低性能 AI について議...

...

ザッカーバーグは涙ながらに300人のチームを解散させた! Meta、Google、その他の大手企業によるMetaverse OSをめぐる戦いが正式に始まったのでしょうか?

Appleの春のカンファレンスまで残り4日となりました。カラフルなAR招待状が届きました。これはク...

...

EU諸国の4分の1がAIによるサイバーセキュリティ管理を望んでいる

予想外かもしれませんが、消費者のかなりの部分は、サイバーセキュリティを生身のサイバーセキュリティ専門...

...

人間の敵の99.8%を圧倒する星間AIがネイチャー誌に登場、その技術が初めて完全公開された

StarCraft 2 のプレイヤーのうち、AI にまだ負けていないのはわずか 0.2% です。これ...

アリババが自社開発のAIクラスターの詳細を発表:64基のGPU、数百万のカテゴリーのトレーニングを4倍高速化

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

ビッグデータと人工知能が戦略的な新興分野となる

最近、教育部は「教育部の高等大学教育の建設を加速し、人材育成能力を全面的に向上させることに関する意見...

...