MetaがCMUと提携して最も強力な「汎用ロボットエージェント」を開発するのに2年かかりました。

爆発的な人気を博している大規模モデルは、「汎用ロボットエージェント」に関する研究を再構築しています。

少し前に、Google DeepMind は RT-2 プロジェクトを立ち上げました。これは 7 か月かけて構築されました。数学的推論を実行したり、有名人を認識したりすることができ、インターネットで人気を博しました。

Google に加えて、Meta と CMU の研究者も 2 年をかけて、史上最強の汎用ロボットエージェント「RoboAgent」を開発しました。

違いは、RoboAgent は 7500 の軌跡のみでトレーニングされていることです。

具体的には、RoboAgent は、パンを焼く、アイテムを拾う、お茶を出す、キッチンを掃除するなど、38 のタスクで 12 の異なる複雑なスキルを達成しました。

さらに、その機能は 100 の未知のシナリオに一般化できます。

彼女は、応接室の女性としても、台所の料理人としても、両方の能力を備えていると言えるでしょう。

興味深いことに、どんなに干渉しても、RoboAgent はタスクを完了することができます。

RoboAgent は他に何ができますか?

パンを焼く、お茶を出す、テーブルを拭く

まず、RoboAgent は引き出しをスムーズに開閉できます。

開封時にヨーグルトが倒れそうになりましたが、動作のつながりに基本的に遅れはなく、押す・引く動作がスムーズに完了しました。

RoboAgent は引き出しだけでなく、電子レンジのドアも簡単に開けたり閉めたりできます。

しかし、ロボットは人間のようにハンドルをつかむのではなく、ハンドルとドアの隙間に身を潜め、力ずくで電子レンジのドアを開閉していた。

同様に、ボトルや瓶の蓋についても、RoboAgent は遅延なく正確に開閉できます。

しかし、キッチンには蓋付きの調味料瓶の他に、料理酒や老干し麻など蓋を外す必要のある瓶もいくつかあります。

幸いなことに、RoboAgent はさまざまなピッキングおよび配置タスクを基本的に問題なく実行できます。

動画では、RoboAgent が引き出しから何かを取り出したり、ティーバッグをカップに入れたり、電子レンジをオンにしてボウルを入れたりしています。実証されているのは、RoboAgent がお茶を淹れたり食べ物を温めたりする作業に含まれる一連の動作を理解できることです。

上記の 9 つのアクションを整理して組み合わせることで、基本的にキッチンでの一連の作業をカバーできます。

例えば、パンを焼く準備、キッチンの掃除、スープを出す、お茶を入れる、食器を収納するなどです。

ベーキングの準備をするとき、最初にすることは引き出しを開けて、中に入っているバターを見つけることです。見つけたら、バターをまな板の上に置き、最後に引き出しを閉じます。

RoboAgent の一連のアクションの論理的な順序は、現実のシナリオに非常に近いようです。

しかし、RoboAgent はまだ人間ほど柔軟ではありません。言うまでもなく、人間は両手を持っており、片手でバターを持ち、もう片方の手で引き出しを閉めることができます。人間は片手だけでもバターを持ち、もう一方の手で引き出しを押し戻すことができます。 RoboAgent は、まずバターを置いてから引き出しを閉じることしかできません。

それほど柔軟性があるようには見えません。

キッチンを掃除する際、RoboAgent は次の 4 つの手順に従います。

まず引き出しを閉じ、次に電子レンジを閉じます。そして横からタオルを取り出し、最後にまな板を拭きます。

スープを出すときは、RoboAgent はまず電子レンジを開け、電子レンジの中に入っているボウルを取り出します。次にボウルをテーブルの上に置き、最後に電子レンジをオフにします。

しかし、ここでの RoboAgent のパフォーマンスはそれほど安心できるものではありません。

デモ動画のボウルが空だったのは良かったとしか言えません。もし RoboAgent に実際に食べ物が入ったボウルを拾うように頼んだら、おそらく拾った瞬間に食べ物があちこちにこぼれてしまうでしょう。

しかし、RoboAgent は紅茶を作るのがとても上手です。

まず、お茶の缶の蓋を外し、そこからティーバッグを取り出し、ティーバッグを正確にカップに落とし、最後に蓋を持ち上げて缶に戻します。

しかし、完璧なお茶を淹れるには、まだ一歩、お湯を注ぐという作業が残っています。それとも、ロボエージェントは私たちにお茶の香りのする空気を飲むように誘っているのでしょうか?

上記のRoboAgentのパフォーマンスを見ると、ほとんどのタスクはスムーズに完了できるものの、片手だけではやはり不便すぎるようです。

Meta と CMU が RoboAgent にもう少し手助けを与えて、同時に複数の処理を実行し、効率を大幅に向上させてくれることを願っています。

「ユニバーサルロボットエージェント」の開発には2年かかった

Meta 氏と CMU の研究者は、RoboAgent が真に汎用的なロボットエージェントになることを期待しています。

過去2年間、彼らは継続的にプロジェクトを推進してきました。 RoboAgent は多方向の研究の集合体であり、将来のさらなる研究方向への出発点でもあります。

「汎用ロボットエージェント」の開発において、研究者は最近の多くの汎用ロボット学習プロジェクトから深いインスピレーションを受けています。

現在、汎用ロボット知能化への道のりで解決すべき大きな課題が 2 つあります。

まず、原因と結果のジレンマがあります。

何十年もの間、さまざまな環境で任意の物体を操作できるロボットを持つことは達成不可能な目標でした。これは、そのようなエージェントをトレーニングするためのデータセットが不足していることが一因ですが、そのようなデータを生成できる汎用エージェントが不足していることも一因です。

第二に、悪循環を断ち切ります。

この悪循環から抜け出すために、研究は効果的なパラダイムの開発に重点を置いています。

現実的なデータ予算内でさまざまなスキルを習得し、さまざまな未知の状況に一般化できる汎用エージェントを提供できます。

論文アドレス: https://robopen.github.io/media/roboagent.pdf

紹介によれば、RoboAgent は次のモジュール式かつ補償可能な要素に基づいて構築されています。

- ロボペン:

長期間中断なく稼働できる汎用ハードウェアを使用して構築された分散型ロボットインフラストラクチャ。

- ロボハイブ:

シミュレーションと実際の操作にわたるロボット学習のための統合フレームワーク。

- RoboSet:さまざまなシナリオにおける日常的なオブジェクトの幅広いスキルを表す高品質のデータセット。

- MT-ACT:

効率的な言語条件付きマルチタスクオフライン模倣学習フレームワーク。既存のロボット経験に基づいて多様なセマンティック拡張コレクションを作成することでオフラインデータセットを拡張し、効率的なアクション表現を備えた新しいポリシーアーキテクチャを採用して、データバジェット内で高性能なポリシーを回復します。

アクションブロック、新しいアーキテクチャ MT-ACT

一般的な操作ポリシーを学習するには、ロボットはさまざまなスキルや環境の変化など、豊富で多様な経験にさらされる必要があります。

ただし、このような大規模なデータセットを収集するための運用コストと実際的な課題により、データセットの全体的なサイズが制限されます。

研究者たちは、限られたデータ予算で効果的なマルチタスクエージェントを学習できるパラダイムを開発することで、これらの制限に対処することを目指しています。

下の図に示すように、Meta と CMU チームは、Multi-Task Action Chunking Transformer (MT-ACT) を提案しました。

この方法は 2 つの段階から構成されます。

フェーズ 1: セマンティック拡張

RoboAgent は、RoboSet (MT-ACT) データセットのセマンティック拡張を作成することにより、既存の基本モデルからワールドプライアを注入します。

結果として得られるデータセットは、人間/ロボットのコストを増やすことなく、ロボットの経験を世界の事前情報と掛け合わせるために使用できます。

次に研究者らは SAM を使用して対象オブジェクトをセグメント化し、形状、色、テクスチャのバリエーションを持つさまざまなオブジェクトにセマンティクスを強化しました。

フェーズ2: 効率的なポリシー表現

生成されたデータセットはマルチモーダルであり、多種多様なスキル、タスク、シナリオが含まれています。

私たちは、アクションチャンキングをマルチタスク設定に適応させ、高度にマルチモーダルなデータセットを取り込み、データバジェットの少ない設定で過剰適合を回避できる、新しい効率的なポリシー表現である MT-ACT を開発しました。

以下は MT-ACT 戦略の構成要素です。

RoboSet データセット

この研究の目的は、データ効率の高いロボット学習パラダイムを確立することであり、研究者たちはそのために、事前に収集された小規模だが多様なデータセットに限定しました。

行動の多様性を捉えるために、研究者らはさまざまなキッチンのシナリオでさまざまなタスクにさまざまなスキルを適用しました。

このプロジェクトでは、データセット RoboSet (MT-ACT) は、人間の遠隔操作者によって収集された 7500 の軌跡で構成されています。

データセットには、複数のタスクとシナリオにまたがる 12 のスキルが含まれています。

下の図は、データセット内のスキルの分布を示しています。

一般的なピックアンドプレーススキルがデータセットの 40% を占めていますが、ワイピング、キャップ、関節式オブジェクト (開く、閉じる) を使用するスキルなど、豊富な接触スキルも含まれています。

研究者たちは、さまざまな日常的な物を含むキッチンシーンの 4 つの異なるインスタンスに関するデータセット全体を収集しました。

さらに、チームは各シーンインスタンスをオブジェクトのさまざまなバリエーションと交換し、各スキルが複数のターゲットオブジェクトとシーンインスタンスにアクセスできるようにしました。

データ拡張

収集されたデータセットはシーンとオブジェクトの多様性の需要を満たすことができないため、研究者は、各軌跡での操作動作を維持しながら、オフラインでさまざまなバリエーションのシーンを追加することでデータセットを拡張します。

セグメンテーションとローカル修復モデルの最近の進歩に基づいて、インターネットデータから現実世界のセマンティック事前分布を抽出し、構造化された方法でシーンを変更します。

MT-ACTアーキテクチャ

MT-ACT のポリシーアーキテクチャは、マルチモーダルおよびマルチタスクロボットデータセットを処理するのに十分な容量を備えた Transformer モデルとして設計されています。

マルチモーダルデータを取得するために、研究者らは以前の研究に倣い、アクションシーケンスを潜在スタイル埋め込み z にエンコードする CVAE を追加しました。

マルチタスクデータモデルを構築するために、この研究では、特定のタスクの説明の埋め込みを学習する事前トレーニング済みの言語エンコーダーを使用しました。

複合エラーの問題を軽減するために、H ステップごとの将来の各タイムステップでアクションが予測され、特定のタイムステップで予測された重複アクションの時間的平滑化によって実行されます。

さらに、シーンの変化に対する堅牢性を向上させるために、研究者は MT-ACT 戦略に 4 つのカメラ角度から作業スペースの 4 つの異なるビューを提供しました。

Transformer エンコーダーは、現在のタイムステップ、ロボットの現在のジョイントポーズ、CVAE からのスタイル埋め込み z、および言語埋め込み T を入力として受け取ります。

次に、FiLM ベースの調整方法を使用して、イメージトークンが確実に言語指示に焦点を合わせていることを確認します。これにより、シーン内に複数のタスクがある場合でも、MT-ACT ポリシーがタスクについて混乱することはありません。

エンコードされたトークンは、固定位置埋め込みを使用して Transformer ポリシーデコーダーに入り、最終的に次のアクションブロック (H アクション) を出力します。

実行時に、研究者は現在のタイムステップで予測されるすべての重複アクションを平均化し（H > 1 の場合、アクションブロックは重複します）、結果として得られる平均化されたアクションを実行します。

少量のデータだが、Google RT-1を上回る

MT-ACT 戦略は現実世界でどのように機能するのでしょうか?

研究者らは、提案されたフレームワークのサンプル効率とさまざまなシナリオにおけるエージェントの汎用性を実験的に評価しました。

以下では、MT-ACT 戦略を一般的に使用される模倣学習アーキテクチャと比較します。

研究者らは、L1 一般化の結果のみをプロットしました。これは、他のほとんどの模倣学習アルゴリズムで使用される標準設定だからです。

図からわかるように、サブ軌道ではなく次のステップの動作のみをシミュレートするすべての方法は、パフォーマンスが低下します。

これらの方法のうち、アクションクラスタリングベースの方法 (BeT) は、マルチタスク設定ではパフォーマンスがはるかに悪いと研究者らは発見しました。

さらに、この研究はデータが少ない環境で実施されたため、大量のデータを必要とする RT1 などの方法は、この環境ではうまく機能しません。

対照的に、アクション検査を使用してサブ軌道をモデル化する MT-ACT ポリシーは、すべてのベースラインメソッドを大幅に上回ります。

図 7 (右下) は、複数の一般化レベル (L1、L2、L3) にわたるすべての方法の結果を示しています。

さらに、研究者らは各活動の一般化結果を個別に報告した。図 8 からわかるように、各セマンティック拡張方法は、各アクティビティのパフォーマンスにプラスの影響を与えます。

最後に、研究者らは、アクション表現ブロックのサイズ、可塑性、堅牢性など、さまざまな設計を使用してアーキテクチャを研究しました。

<<:

>>: ヒット曲予測の成功率は97%？このリストは「偽造品と戦う」ためにあります

MetaがCMUと提携して最も強力な「汎用ロボットエージェント」を開発するのに2年かかりました。

パンを焼く、お茶を出す、テーブルを拭く

「ユニバーサルロボットエージェント」の開発には2年かかった

アクションブロック、新しいアーキテクチャ MT-ACT

RoboSet データセット

データ拡張

MT-ACTアーキテクチャ

少量のデータだが、Google RT-1を上回る

ネット全体が「被験者3」を真似し、メッシ、アイアンマン、二次元の女の子が即勝利

AIが体内時計を検出、精密医療が最大の「受益者」になる可能性

シンプルでスマートなアプローチ: Python による顔認識

スマートシティにおける低リスクの AI 応用分野 3 つ

AI開発に最適なプログラミング言語トップ5

大規模モデルのニューロンを分解します！クロードチームの最新の研究が人気を集め、ネットユーザー：ブラックボックスを開けよう

Google は、DQN と同等で、より優れた一般化パフォーマンスを備えた 2 つの新しい強化学習アルゴリズムを実装しました。

謎の企業が米国で初めて「脳コンピューターインターフェース」の人体実験を承認された。頭蓋骨を開けずに2時間で埋め込むことができる。

推薦する

人工知能に対して、人間がかけがえのない存在となるような利点は何でしょうか?

スケーリングトランスフォーマーでスパース性を使用するだけで十分です。将来的にはGPT-3をラップトップでホストできるようになるかもしれない

科学技術史上最も爆発的な組み合わせ「メタバース + ブレイン・コンピューター・インターフェース」、私たちはそこからどれくらい遠いのでしょうか?

「アルゴリズムとデータ構造」時間と空間の複雑さ

ディープラーニング入門: オートエンコーダから変分オートエンコーダまで

NLP がヘルスケアにおける AI の価値を実現する方法

あなたの顔を「動かした」のは誰？顔認識技術の背後にあるプライバシー保護

この記事では人工知能とは何かを徹底的に解説します！

自動運転のセキュリティ確保 - 主流のミドルウェア設計について

ICML 2023 優秀論文賞発表！北京大学の卒業生が作品で賞を受賞、3人の中国人作家が作品に参加、DeepMindとAppleも選出

中国語の音声の事前トレーニング済みモデルが見つかりませんか? Wav2vec 2.0 と HuBERT の中国語版が登場

機械学習研究の10年