GPT-4 はロボットの手にペンを回したりルービックキューブで遊んだりすることを教えます。 RL コミュニティは衝撃を受ける: LLM 設計の報酬は人間を超えることができるのか?

GPT-4 は実際にロボットにペンを回転させる方法を教えました。

写真

NVIDIA、ペンシルバニア大学、カリフォルニア工科大学、テキサス大学オースティン校などの専門家が、超人的なロボットの器用さを実現するために設計された報酬機能を備えたオープンエージェント、Eureka を提案しました。

写真

論文リンク: https://arxiv.org/pdf/2310.12931.pdf

プロジェクトリンク: https://eureka-research.github.io/

コードリンク: https://github.com/eureka-research/Eureka

NVIDIA の上級科学者であり、著者の一人でもある Jim Fan 氏は、次のようにコメントしています。「これは、物理シミュレーター API の分野におけるボイジャー宇宙探査機のようなものです。」

写真

これまで、LLM とロボットの応用事例としては、ロボットが高度なタスクを計画するのを支援するために大規模なモデルを使用することがよくありました。たとえば、LLM がロボットに、象を冷蔵庫に入れるには、冷蔵庫を開け、象を入れ、冷蔵庫のドアを閉めるという 3 つの手順が必要であることを伝えます。

しかし、冷蔵庫を開ける、象を置く、冷蔵庫のドアを閉めるという 3 つの特定の低レベルのアクションを完了するようにロボットを制御するには、ロボットは他の方法に頼って制御する必要があります。

写真

しかし、Nvidia などの研究機関の研究者が開発した Eureka システムにより、GPT-4 はロボットに基本的な動作を完了させる方法を直接教えることができるようになりました。

具体的には、GPT-4 の優れたゼロサンプル生成、コード生成、コンテキスト学習機能を最大限に活用した、GPT-4 を活用した報酬設計アルゴリズムです。生成された報酬は、強化学習を通じてロボットが複雑で特定のスキルを習得できるようにするために使用できます。

写真

タスク固有のヒントや事前定義された報酬テンプレートがなくても、Eureka によって生成される報酬関数の品質は、すでに人間の専門家によって設計された報酬を上回っています。

これからは、LLM+ ロボットに新しい遊び方が加わります。

いつものように、コードはオープンソースです。

写真

RLコミュニティの皆さん、立ち上がれ！

AI の学者たちはこう叫んだ。「RL コミュニティ全体が Eureka の論文に畏敬の念と衝撃を受けるはずだ。」

写真

彼らの方法を何度も繰り返すと、RL は人間の介入なしにさまざまなタスクで超人的な成功を達成します。

数年前、RL は業界に AGI を実現するという野心を与えたように見えましたが、その後の出来事により、RL は付け足し程度の地位に追いやられ、LLM は常にパズルの欠けているピースとなってしまいました。

現在、自己改善に基づく正のフィードバックループが実現し、人間を超えるトレーニングデータと能力が得られるようになる可能性が高まっています。

ジム・ファン氏はまた、ユーレカはロボット以外にも、アニメーションやゲームなど多くのシナリオに応用できると述べた。

写真

アニメーション、つまり仮想世界でのキャラクターの制御は、労働集約的な作業です。スタジオでは、アーティストに各フレームを手作業で描画させたり、俳優にモーションキャプチャを行わせたりします。それでも、アクションは静的なデータであり、動的に変化する環境に対応することはできません。

Eureka は汎用性が高く、物理的にリアルで応答性の高いアニメーションを素早くスケーリングする方法を提供します。これはアーティストの副操縦士となり、自然言語インターフェースを通じて新しい器用なスキルを生み出すことができます。さらに、ゲームでは一時的な報酬関数を使用してコントローラーを微調整することで、動作を動的に生成することもできます。

写真

『エルデンリング』のボス戦において、女神マレニアの象徴的なアクション「水鳥の舞」は、数え切れないほどの日々の手作業を必要としました。

コーディングと運動制御のギャップを埋める

Eureka は、高レベルの推論 (コーディング) と低レベルの運動制御の間のギャップを埋めます。

これは「ハイブリッド勾配アーキテクチャ」です。ブラックボックスの純粋な推論 LLM がホワイトボックスの学習可能なニューラルネットワークをガイドします。

外側のループは GPT-4 を実行して報酬関数を最適化し (勾配フリー)、内側のループは強化学習を実行してロボットコントローラーをトレーニングします (勾配ベース)。

写真

研究者たちは、現実を 1,000 倍高速化する GPU 高速化物理シミュレーターである IsaacGym のおかげで、Eureka をスケールアップすることができました。

10 台のロボットが実行した 29 のベンチマークタスク全体で、Eureka はタスクの 83% で人間が作成した専門家の成果を上回る成果を達成し、平均 52% の改善を達成しました。

ユーレカの報酬と戦略

研究者たちは、Eureka によって設計された報酬と、これらの報酬を使用して各環境向けにトレーニングされたポリシーを紹介します。

Eureka は、Isaac Gym (Isaac) と Bidexterous Manipulation (Dexterity) という 2 つのオープンソースベンチマークで、10 台のロボットと 29 個の独立したタスクに対する報酬を設計します。

写真

最も驚いたのは、ユーリカが実際にペンを回すことを学んだことです。ご存知のとおり、CGI アーティストにとっても、フレームごとにアニメーション化するのは難しいことです。

写真

グリッドの中央のビデオでは、回転軸が手のひらに対して垂直になり、ペンが手のひらと平行に回転している様子が示されています (典型的なペンの回転動作)。さらに、研究者たちは、さまざまな軸を中心にペンを回転させる他のいくつかのバリエーションを訓練しました。

さらに、Eureka は、報酬関数をガイドおよび調整するために人間のオペレーターからの自然言語フィードバックを組み込んだ新しい形式のコンテキスト RLHF を実装します。

さらに、この RLHF は、ロボット工学エンジニアが複雑な動作を設計する際に強力な副操縦機能も提供できます。

ロボット学習において、大規模言語モデルは、ピッキングや配置などの高レベルの計画や中レベルのアクションの生成に優れていますが (VIMA、RT-1 など)、LLM は複雑な高頻度のモーション制御に欠けています。

Eureka は常にコーディングを通じて報酬機能を実装します。これは、LLM が器用なスキルを学習するための重要なエントリポイントです。

ユーレカコンポーネント

Eureka は、状況に応じて報酬関数を進化させることで、人間レベルの報酬設計を実現します。

3 つの主要コンポーネントがあります。

写真

シミュレータ環境コードは、初期の「シード」報酬関数をすばやく開始するためのコンテキストとして機能します。
GPU 上の超並列 RL では、多数の候補報酬を迅速に評価できます。
報酬反射は、状況に応じて標的を絞った報酬変異を生み出すことができます。

元の環境をLLMコンテキストとして使用する

まず、元の IsaacGym 環境コードをコンテキストとして使用することで、Eureka はタスク固有のプロンプトエンジニアリングなしで、使用可能な報酬プログラムを生成できます。

これにより、Eureka は、最初の試行ですべての環境の報酬関数を簡単に生成できる、オープンエンドの汎用報酬デザイナーになります。

写真

次に、Eureka は各進化ステップで多数の候補報酬を生成し、それらは完全な RL トレーニングサイクルを使用して評価されます。

通常、このプロセスは非常に遅く、数日または数週間かかることもあります。

NVIDIA の GPU ネイティブロボットトレーニングプラットフォーム IsaacGym (https://developer.nvidia.com/isaac-gym) を使用すると、この規模を急速に拡張でき、シミュレーション時間を 1,000 倍に増やすことができます。

これで、RL 内部ループは数分で完了できるようになりました。

ユーレカ報酬の反映

Eureka は、RL トレーニングの自動テキスト要約である報酬反映に依存しています。

GPT-4 の優れたコンテキストコード修復機能により、Eureka はターゲットを絞った報酬の変異を実行できます。

写真

実験

研究者らは、さまざまなロボットの形態とタスクで Eureka を徹底的に評価し、報酬機能の生成、新しいタスクの解決、さまざまな形式の人間の入力の統合能力をテストしました。

研究者の環境は、10 種類のロボットと、IsaacGym シミュレータを使用して実行される 29 のタスクで構成されていました。

まず、研究者らは、四足歩行ロボット、二足歩行ロボット、クアッドローター、協働ロボットアームから器用な手まで、幅広いロボット形態を網羅する、IsaacGym (Isaac) の 9 つのオリジナル環境を組み込みました。

研究者らは、ロボットのフォームファクターを網羅するだけでなく、Dexterity ベンチマークの 20 のタスクすべてを含めることで、評価の深さを確保しました。

器用さは、物体の受け渡しからカップの 180 度回転まで、さまざまな複雑な具体的な操作スキルを解決するために一対の影の手を必要とする 20 の複雑な両手タスクで構成されています。

評価結果

写真

Eurekaは超人的なレベルの報酬関数を生成できる

29 のタスク全体で、Eureka によって生成された報酬は、タスクの 83% で人間の専門家によって作成された報酬を上回り、平均正規化改善率は 52% でした。

特に、Eureka は高次元の Dexterity 環境でより大きな成果を達成します。

写真

Eureka 進化報酬探索により、時間の経過とともに報酬を継続的に改善できます。

Eureka は、大規模な報酬検索と詳細な報酬反映フィードバックを組み合わせて、徐々により良い報酬を生み出し、最終的には人間のパフォーマンスを上回ります。

Eurekaによって生み出された独創性報酬

写真

研究者らは、すべてのアイザック課題におけるユーレカ報酬と人間の報酬の相関関係を計算することで、ユーレカ報酬の新規性を評価しました。

上の図に示すように、Eureka は主に弱相関の報酬関数を生成し、人間の報酬関数よりも優れています。

さらに研究者たちは、課題が難しくなるほど、ユーレカ報酬の関連性が低くなることを観察した。場合によっては、Eureka の報酬は人間の報酬と負の相関関係にあるにもかかわらず、人間の報酬よりも大幅に優れたパフォーマンスを発揮します。

コースを通じてペンを上手に回す方法を学ぶ

写真

ペン回転タスクでは、影の手でペンを連続的に回転させて、事前に定義された回転パターンを実現し、できるだけ多くのサイクルを完了する必要がありました。

写真

研究者たちはこの課題に次のように取り組みました。

（１）ユーレカにペンをランダムなターゲット構成にリダイレクトするための報酬関数を生成するように指示し、

（２）ユーレカ報酬を使用してこの事前トレーニング済みポリシーを微調整し、望ましいペンシーケンス回転構成を実現します。

図に示すように、Eureka は戦略を非常に迅速に微調整し、多くの連続サイクルで正常に回転しました。対照的に、事前にトレーニングされたポリシーや最初から学習されたポリシーは、1 つのエポックも完了できません。

写真

ヒューマノイドロボットに安定して走ることを教えるための 5 つのクエリ!

Eureka は人間のフィードバックに基づいて調整できますか?

これまでのところ、Eureka は環境からのフィードバックを通じて完全に自動的に実行できます。

微妙な人間の好みを捉えるために、Eureka は自然言語フィードバックを使用して報酬設計を共同でガイドすることもできます。

これにより、勾配のない設定での新しい RLHF が実現します。

写真

人間からのフィードバックを備えた Eureka は、わずか 5 回のクエリでヒューマノイドロボットに安定した走行方法を教えました。

写真

RLHF 以前は、ヒューマノイドロボットはこのように動作していました。

写真

参考文献:

出典: ユーレカリサーチ

<<: 海外の科学者が「AI漢方」を開発：舌診断システムの精度は最大94％

>>: Meta Princeton は LLM コンテキストの究極のソリューションを提案します。モデルを自律エージェントにして、コンテキストノードツリーを自ら読み取る

ブログ

可視性プラットフォームがセキュリティオペレーションセンター (SOC) にとって重要な理由は何ですか?

GPT-4 はロボットの手にペンを回したりルービックキューブで遊んだりすることを教えます。 RL コミュニティは衝撃を受ける: LLM 設計の報酬は人間を超えることができるのか?

RLコミュニティの皆さん、立ち上がれ！

コーディングと運動制御のギャップを埋める

ユーレカの報酬と戦略

ユーレカコンポーネント

元の環境をLLMコンテキストとして使用する

ユーレカ報酬の反映

実験

評価結果

Eurekaは超人的なレベルの報酬関数を生成できる

Eureka 進化報酬探索により、時間の経過とともに報酬を継続的に改善できます。

Eurekaによって生み出された独創性報酬

コースを通じてペンを上手に回す方法を学ぶ

ヒューマノイドロボットに安定して走ることを教えるための 5 つのクエリ!

可視性プラットフォームがセキュリティオペレーションセンター (SOC) にとって重要な理由は何ですか?

機械学習がデータセンター管理をどう変えるか

VRシルキーパノラマはもうすぐそこ？ Googleの360°NeRFは人々に未来を垣間見せる

最も偽のGANモデル！ Facebook、史上最強の移行機能を備えたIC-GANをリリース

Daguan Data: NLP の概要と自動テキスト分類アルゴリズムの詳細な説明

推薦する

ベースラインモデルから始めます。最初はモデルが醜く見えるかもしれませんが、心配しないでください。

人工知能の役割がクローズアップ！ロボットが増えると雇用に影響が出るでしょうか?

人工知能産業の将来は、パンデミックの最中に過大評価されているのでしょうか?

人工知能はプログラムを記述するためにコードを「盗む」ほど賢いが、プログラマーは職を失うことを心配する必要はない

運転教習業界にも「AI」の波が吹き荒れる、普及規模に注目

DeepMindは「Transformerは事前学習データを超えて一般化できない」と指摘しているが、疑問視する人もいる。

コンピュータビジョンの10年: ディープラーニングは変化をもたらすが、特定の課題においては依然として古典的な要素が優勢である

人工知能は私たちの言語を理解するのでしょうか?思っていたよりも強力だ

Laiye Technology、RPA専用に設計されたAI機能プラットフォーム「UiBot Mage」をリリース

テンセントの馬化騰、センスタイムの唐暁ら6人の大物が人工知能の過去、現在、未来を深く解釈する

ディープラーニングでは音声認識の問題を解決できない

マイクロソフトがML.NET 3.0をリリース、ディープラーニング機能を拡張