CMU、清華大学、MITが世界初のエージェント無限フローをリリース。ロボット「007」は残業して勉強が止まらない！具現化された知能は革命を起こしている

世界初の生成型ロボットエージェントがリリースされました！

長い間、大規模なインターネットデータでトレーニングできる言語モデルや視覚モデルと比較して、ロボット戦略モデルのトレーニングには動的な物理的相互作用情報を含むデータが必要であり、このデータの不足は常に具現化インテリジェンスの開発における最大のボトルネックとなってきました。

最近、CMU、清華大学、MIT、UMassなどの研究機関の研究者が新しいRoboGenエージェントを提案しました。

大規模言語モデルや生成モデルに含まれる大規模な知識と、リアルなシミュレーション世界が提供する物理情報を組み合わせることで、さまざまなタスク、シナリオ、ティーチングデータを「無限に」生成し、24時間365日ロボットの完全自動トレーニングが可能になります。

現在、ネットワークからの高品質なリアルトークンが急速に不足しています。 AIをトレーニングするためのデータは世界中でほぼ不足しています。

ディープラーニングの父であるヒントン氏は、「テクノロジー企業は、今後18カ月で新しいモデルをトレーニングするために、現在のGPT-4の100倍の計算能力を使用するだろう」と語った。モデルのパラメータは大きく、必要な計算能力も膨大ですが、データはどこにあるのでしょうか?

モデルに対する渇望に直面した場合、AI 合成がその答えとなります。

論文アドレス: https://arxiv.org/abs/2311.01455

プロジェクトホームページ: https://robogen-ai.github.io/

オープンソースアドレス: https://github.com/Genesis-Embodied-AI

具体的には、MIT-IBM主任科学者のガン・チュアン氏が率いる研究チームが、生成AIと微分可能物理シミュレーションのサポートを受けて、「提案-生成-学習」サイクルを提案し、エージェントが質問を設定し、ロボット自体をトレーニングできるようにしました。

まず、エージェントはこのスキルを開発すべきだと提案しました。

次に、対応する環境、構成、スキル学習ガイダンスを生成して、シミュレーション環境を作成します。

最後に、エージェントは提案された高レベルのタスクをサブタスクに分解し、最適な学習方法を選択して、戦略を学習し、提案されたスキルを習得します。

注目すべきは、プロセス全体では人間の監督はほとんど必要なく、タスクの数は実際には無限であるということです。

Nvidia の上級科学者 Jim Fan 氏もこの重要な研究を転送しました。

現在、ロボットは一連の爆発操作を学習しています。

ロッカーにアイテムを入れるには:

電子レンジでスープボウルを温めるには:

レバーを引いてコーヒーを淹れます:

そしてバックフリップなど:

多様なスキル習得の鍵となるシミュレーション環境

ロボット研究において、長い間難しい問題がありました。それは、ロボットが工場以外の環境で動作し、人間に代わって幅広いタスクを実行できるように、ロボットに複数のスキルを与えるにはどうすればよいか、ということです。

近年、私たちはロボットに流体操作、物体の投げつけ、サッカーのプレー、パルクールなどのさまざまな複雑なスキルを教えてきました。しかし、これらのスキルは独立しており、視野が狭いため、手動で設計されたタスクの説明とトレーニングの監督が必要です。

現実世界のデータ収集は費用がかかり、手間がかかるため、これらのスキルは適切なドメインランダム化によるシミュレーションでトレーニングされ、その後現実世界に展開されます。

現実世界での探索やデータ収集と比較して、シミュレートされた環境には、低レベルの状態への特権アクセスと無制限の探索機会の提供、超並列コンピューティングのサポートとデータ収集の大幅な高速化、ロボットによる閉ループ戦略とエラー回復機能の開発など、多くの利点があります。

ただし、シミュレーション環境を構築するには、一連の面倒なタスク (タスクの設計、関連性があり意味的に意味のあるアセットの選択、適切なシーンのレイアウトと構成の生成、報酬関数や損失関数などのトレーニング監督の策定) が必要です。シミュレートされた世界であっても、ロボットのスキル学習のスケーラビリティは大幅に制限されています。

そのため、研究者らは、シミュレーションによるロボットのスキル学習の進歩と、基本モデルおよび生成モデルの最近の進歩を組み合わせた「生成シミュレーション」パラダイムを提案しています。

最先端のベースモデルの生成機能を活用することで、生成シミュレーションは、シミュレーションでさまざまなロボットスキルを学習するために必要なすべての段階の情報を生成できます。

最新のベースモデルにエンコードされた包括的な知識のおかげで、このようにして生成されたシーンとタスクのデータは、現実世界のシーンの分布と非常に似たものになります。

さらに、これらのモデルは、ドメイン固有のポリシー学習方法でシームレスに処理できる分解された低レベルのサブタスクをさらに提供できるため、さまざまなスキルとシナリオのクローズドループのデモンストレーションが可能になります。

RoboGenプロセス

RoboGen は、ロボットが 24 時間 365 日さまざまなスキルを学習できるようにする完全に自動化されたプロセスです。4 つのステージで構成されています。

1. タスクの提案

2. シーン生成

3. 研修監督世代

4. 生成された情報をスキル学習に使用します。

RoboGen は、最新のベースモデルに組み込まれた常識と生成機能を活用して、タスク、シナリオ、トレーニング監督を自動的に生成し、ロボットが複数のスキルを大規模に学習できるようにします。

タスクの提案

この段階で、RoboGen は高レベルのタスクを提案し、対応する環境を生成し、高レベルの目標を低レベルのサブタスクに分解し、サブスキルを順番に学習することができます。

まず、RoboGen はロボットが学習するための意味のある、多様な高レベルのタスクを生成します。

研究者たちは、特定のロボットタイプとプールからランダムにサンプリングされたオブジェクトを使用してシステムを初期化しました。提供されたロボットとサンプルオブジェクトの情報は、LLM に入力されます。

このサンプリングプロセスにより、生成されるタスクの多様性が確保されます。

たとえば、四足歩行ロボットなどの脚付きロボットはさまざまな運動技能を習得することができ、ロボットアームマニピュレータは、ペアにすると、さまざまなサンプリング対象物を使用してさまざまな操作タスクを実行できる可能性があります。

研究者らは、現在のプロセスでクエリを実行するために GPT-4 を使用しました。次に、物体の操作に関連する機械やタスクの文脈で、RoboGen の詳細を説明します。

初期化に使用されるオブジェクトは、オーブン、電子レンジ、ウォーターディスペンサー、ラップトップ、食器洗い機など、家庭のシーンでよく見られる関節式および非関節式のオブジェクトを含む、定義済みのリストからサンプリングされます。

GPT-4 は大規模なインターネットデータセットでトレーニングされているため、これらのオブジェクトのアフォーダンス、それらとの対話方法、およびそれらを関連付けることができる意味のあるタスクについて豊富な理解を持っています。

たとえば、サンプリングされた多関節オブジェクトが電子レンジであるとします。ここで、ジョイント 0 はドアを接続する回転ジョイントであり、ジョイント 1 はタイマーノブを制御する別の回転ジョイントです。GPT-4 は、「ロボットアームがボウルのスープを電子レンジに入れ、ドアを閉じて、電子レンジのタイマーを適切な加熱時間 a に設定します。」というタスクを返します。

生成されたタスクに必要なその他のオブジェクトは、スープ A の入ったボウルと、タスクに関連付けられたジョイントとリンク (ジョイント 0 (電子レンジのドアを開ける)、ジョイント 1 (タイマーを設定する)、リンク 0 (ドア)、リンク 1 (タイマーノブ) など) です。

関節オブジェクトの場合、PartNetMobility は唯一の高品質な関節オブジェクトデータセットであり、すでにさまざまな関節アセットをカバーしているため、サンプルアセットに基づいてタスクが生成されます。

さまざまなサンプリングされたオブジェクトと例を繰り返し照会することで、さまざまな操作およびモーションタスクを生成できます。

シーン生成

タスクが与えられると、対応するシミュレーションシナリオを生成し続け、タスクを完了するためのスキルを学習できます。

図に示すように、タスクの説明に従ってシーンのコンポーネントと構成が生成され、オブジェクトアセットが取得または生成され、シミュレーションシーンが入力されます。

シーンのコンポーネントと構成は、シーンに取り込む関連アセットのクエリ、その物理パラメータ (サイズなど)、構成 (初期のジョイント角度など)、アセットの全体的な空間構成などの要素で構成されます。

研究者らは、前のステップで生成されたタスクに必要なオブジェクトアセットに加えて、生成されたシーンの複雑さと多様性を高めながら実際のシーンのオブジェクト分布に似せるために、GPT-4 にタスクに意味的に関連するオブジェクトの追加クエリを返させました。

たとえば、「キャビネットを開けて、おもちゃを入れて、閉める」というタスクの場合、生成されるシーンには、リビングルームのクッション、デスクランプ、本、オフィスチェアも含まれます。

教師あり世代のトレーニング

関連するスキルを習得するには、スキル学習を監督する必要があります。

RoboGen はまず GPT-4 にクエリを実行して、長いタスクをより短い規模のサブタスクに計画および分解します。

重要な前提は、タスクが十分に短いサブタスクに分解されると、各サブタスクは強化学習、動作計画、軌道最適化などの既存のアルゴリズムによって確実に解決できるということです。

分解後、RoboGen は GPT-4 を照会し、各サブタスクを解決するための適切なアルゴリズムを選択します。

RoboGen は、強化学習、進化戦略、勾配ベースの軌道最適化、動作計画によるアクション初期化など、さまざまな種類の学習アルゴリズムを統合しています。

それぞれ異なるタスクに適しています。たとえば、勾配ベースの軌道最適化は、生地を目的の形状に成形するなど、柔らかい物体が関わるきめ細かい操作タスクの学習に適しています。

アクションの初期化とモーションプランニングを組み合わせると、衝突のないパスでターゲットオブジェクトに近づくなどのタスクを解決する際の信頼性が向上します。

強化学習と進化戦略は、足を使った移動など接触が多く、他のシーンコンポーネントとの継続的なインタラクションを伴うタスクや、オーブンのノブを回すなど、目的のアクションを個別のエンドエフェクタのポーズで単純にパラメータ化できない場合に適しています。

つまり、GPT-4 は生成されたサブタスクに基づいて、オンラインで使用するアルゴリズムを選択します。

次に、ロボットがスキルを学習するためのシミュレーションシナリオを構築できます。

ロボットが金庫を開ける方法を学ぶ

たとえば、RoboGen を使用すると、ロボットは電気スタンドの方向を調整するなど、非常に繊細な作業を学習できるようになります。

興味深いことに、このシーンでは、コンピューターのモニターのような壊れやすい物体が地面に落ちています。

これはロボットの環境認識能力を試す素晴らしいテストだと言えるでしょう。

この目的のために、RoboGen はシーン構成、タスク分解、監視を含む非常に詳細な操作コードを生成します。

さらに、ロボットは、金庫からアイテムを取り出すなど、完了までに多くの手順を必要とするタスクを実行するようにトレーニングされます。

これには、ドアを開ける、アイテムを取る、置く、ドアを閉めるなどの操作が含まれ、その過程で家具との衝突を避けるようにする必要があります。

RoboGen によって提供されるコードは次のとおりです。

あるいは、ボストン・ダイナミクスのヒューマノイドロボットが円を描いて回転するといった、限られた空間で起こり得るシナリオもあります。

コードは次のとおりです。

実験結果

- タスクの多様性

表 1 に示すように、RoboGen は、これまでのすべてのベースラインと比較して、最も低い Self-BLEU と埋め込み類似性を達成しています。言い換えれば、RoboGen によって生成されたタスクの多様性は、手動で作成されたスキル学習ベンチマークやデータセットの多様性よりも高いのです。

- シナリオの有効性

図 4 に示すように、サイズ検証を削除すると、BLIP-2 スコアが急激に低下します。これは、Objaverse と PartNetMobility のオブジェクトサイズと現実世界の実際のサイズとの間に大きな差があるためです。さらに、被験者検証なしの BLIP-2 スコアも低く、分散が大きくなります。

対照的に、RoboGen の検証ステップでは、オブジェクト選択の有効性を大幅に向上させることができます。

- 研修指導の有効性

図 3 に示すように、RoboGen によって生成されたトレーニング指示 (タスク分解と報酬関数) に基づいて、ロボットが 4 つの長距離タスクで学習したスキルを示します。

結果は、ロボットが対応するタスクを完了するためのスキルを正常に学習したことを示しています。つまり、自動的に生成されたトレーニング手順により、有意義で有用なスキルを効果的に導き出すことができます。

- スキルの学習

表 2 の結果は、学習アルゴリズムの選択を許可することがタスクのパフォーマンスの向上に有益であることを示しています。 RL のみを使用すると、ほとんどのタスクでスキル学習が失敗します。

- システム

図 1 に示すように、RoboGen は、剛体/関節オブジェクトの操作、移動、軟体ボディの操作など、スキル学習のためのさまざまなタスクを生成できます。

図 3 は、RoboGen が合理的な分解方法で長距離操作スキルを提供できることをさらに示しています。

著者について

Yufei Wang は、カーネギーメロン大学ロボット工学研究所の博士課程 3 年目の学生です。指導教官は、Zackory Erickson 教授と David Held 教授です。彼女の研究対象はロボット学習です。

彼はこれまで、2020年12月にCMUでDavid Held教授の指導の下でコンピューターサイエンスの修士号を取得し、2019年7月に北京大学元北学院でBin Dong教授の指導の下でデータサイエンスの学士号を取得しました。

Zhou Xian は、カーネギーメロン大学ロボット工学研究所の博士課程の学生で、Katerina Fragkiadaki が指導しています。彼の研究対象はロボット工学、コンピュータービジョン、世界モデル学習です。

CMU に入学する前は、シンガポールの南洋理工大学で Pham Quang Cuong 氏と I-Ming Chen 氏の指導の下、学士号を取得しました。彼は、Meta AI、Akshara Rai、MIT-IBM AI Lab でインターンをしており、Chuang Gan 氏をメンターとして指導を受けています。

現在、彼の研究は、スケーラブルなロボット学習のための統合ニューラルポリシーとシミュレーションインフラストラクチャの構築に重点を置いています。

なお、共著者は清華大学姚クラスの陳鋒氏です。

チームリーダーのガン・チュアン氏は現在IBMの主任科学者であり、マサチューセッツ大学の助教授でもあり、院士のヤオ・チジ氏の弟子でもある。博士課程在学中に、清華大学特別賞、Microsoft Scholar、Baidu Scholarを受賞。彼の研究は、Amazon Research Award、Sony Faculty Award、Cisco Faculty Award、Microsoft Accelerate Foundation Models Research Program などからも資金提供を受けています。

<<: Apple M3全シリーズのランニングスコアを公開！ 16コアのMaxが24コアのM2 Ultraを上回り、IntelとAMDの主力CPUと並ぶ

>>: ビッグモデル実装の最後の一歩: ビッグモデル評価の 111 ページに及ぶ包括的なレビュー