GPT-4により、ロボットはペンを回したりクルミを転がしたりすることを学習した。

学習に関しては、GPT-4 は優れた生徒です。大量の人間のデータを消化することで、さまざまな知識を習得し、会話中に数学者のテレンス・タオにインスピレーションを与えることさえできます。

同時に、本の知識を教えるだけでなく、ロボットにペンを回すことも教える優れた教師にもなりました。

「ユーレカ」と呼ばれるこのロボットは、NVIDIA、ペンシルベニア大学、カリフォルニア工科大学、テキサス大学オースティン校による研究の成果である。この研究では、大規模言語モデルと強化学習の研究成果を組み合わせ、GPT-4を使用して報酬関数を改善し、強化学習を使用してロボットコントローラーをトレーニングします。

GPT-4 のコード記述能力の助けを借りて、Eureka は優れた報酬関数設計機能を備えており、自律的に生成された報酬は 83% のタスクで人間の専門家の報酬よりも優れています。この能力により、ロボットはペンを回したり、引き出しやキャビネットを開けたり、ボールを投げたり、キャッチしたり、ドリブルしたり、はさみを操作したりするなど、以前は困難だった多くのタスクを実行できるようになります。ただし、現時点ではすべて仮想環境で実行されます。

さらに、Eureka は、人間のオペレーターからの自然言語フィードバックを組み込んで報酬関数をガイドおよび調整できる、新しいコンテキスト内 RLHF を実装します。ロボットエンジニアに強力な補助機能を提供し、複雑な動作の設計を支援します。 Nvidiaの上級AI科学者であり、論文の著者の一人であるジム・ファン氏は、この研究を「物理シミュレータAPI分野のボイジャー」に例えた。

この研究は完全にオープンソースであることは特筆に値します。オープンソースのアドレスは次のとおりです。

論文リンク: https://arxiv.org/pdf/2310.12931.pdf
プロジェクトリンク: https://eureka-research.github.io/
コードリンク: https://github.com/eureka-research/Eureka

論文概要

大規模言語モデル (LLM) は、ロボットタスク (Google の SayCan、RT-2 ロボットなど) の高レベルの意味計画では優れたパフォーマンスを発揮していますが、ペン回しなどの複雑な低レベルの操作タスクの学習に使用できるかどうかは未解決の問題です。既存の試みでは、タスクプロンプトを作成するために広範なドメイン専門知識が必要であり、単純なスキルを習得するだけで、人間レベルの器用さには程遠いものとなっています。

Google の RT-2 ロボット。

一方、強化学習 (RL) は柔軟性やその他の多くの分野 (ルービックキューブを解くことができる OpenAI のロボットハンドなど) で素晴らしい成果を上げていますが、望ましい動作を正確にコード化して学習信号を提供する報酬関数を人間の設計者が慎重に構築する必要があります。現実世界の強化学習タスクの多くは、学習に使用するのが難しいまばらな報酬のみを提供するため、段階的な学習信号を提供するには実際には報酬の形成が必要です。報酬関数は重要であるにもかかわらず、設計が非常に難しいことで知られています。最近の調査によると、調査対象となった強化学習の研究者や実践者の 92% が報酬を設計する際に手作業で試行錯誤していると答え、89% が設計した報酬が最適ではなく、意図しない動作につながったと答えています。

報酬設計が非常に重要であることを考えると、GPT-4 などの最先端のエンコーディング LLM を活用して、一般的な報酬プログラミングアルゴリズムを開発することは可能かどうかという疑問が湧きます。これらの LLM は、コード作成、ゼロショット生成、コンテキスト内学習に優れており、プログラムされたエージェントのパフォーマンスを大幅に向上させました。理想的には、このような報酬設計アルゴリズムは、人間レベルの報酬生成機能を備え、幅広いタスクに拡張可能で、人間の監督なしで面倒な試行錯誤のプロセスを自動化し、安全性と一貫性を確保するために人間の監督と互換性がある必要があります。

この論文では、LLM 駆動型の報酬設計アルゴリズム EUREKA (正式名称: Evolution-driven Universal REward Kit for Agent) を提案します。このアルゴリズムは以下を実現します。

1. 報酬設計により、10 種類のロボットモダリティ (四足歩行ロボット、クアドローター、二足歩行ロボット、マニピュレーター、および複数の器用な手、図 1 を参照) を含む 29 種類のオープンソース RL 環境で人間レベルのパフォーマンスが達成されました。タスク固有のキューや報酬テンプレートがない場合でも、EUREKA の自律的に生成された報酬は、タスクの 83% で人間の専門家の報酬を上回り、平均 52% の正規化改善を達成しました。

2. これまで手動の報酬エンジニアリングでは実現不可能だった器用な操作タスクを解決しました。ペン回転問題を考えてみましょう。この問題では、5 本の指を持つ手を使って、あらかじめ設定された回転構成で、できるだけ多くのサイクルでペンを素早く回転させる必要があるとします。研究者たちは、EUREKA とカリキュラム学習を組み合わせることで、擬人化された「Shadow Hand」上での高速ペン回転操作を初めて実証しました (図 1 の下部を参照)。

3. 人間によるフィードバックによる強化学習 (RLHF) のための新しい勾配フリーのコンテキスト学習法を提供します。これにより、さまざまな形式の人間による入力に基づいて、より効率的で人間に合わせた報酬関数を生成できます。この論文は、EUREKA が既存の人間の報酬機能から恩恵を受け、それを改善できることを示しています。同様に、研究者らは、EUREKA が人間のテキストフィードバックを活用して報酬関数の設計を支援し、微妙な人間の好みを捉えるのに役立つことを実証しました。

LLM を使用して報酬設計を支援した以前の L2R 作業とは異なり、EUREKA にはタスク固有のプロンプトや報酬テンプレートがまったくなく、例もほとんどありません。実験では、自由形式で表現力豊かな報酬プログラムを生成および改良する能力により、EUREKA は L2R を大幅に上回るパフォーマンスを発揮しました。

EUREKA の汎用性は、環境をコンテキストとして使用すること、進化的検索、報酬の反映という 3 つの主要なアルゴリズム設計の選択によって実現されています。

まず、環境ソースコードをコンテキストとして取得することで、EUREKA はゼロショットでバックボーンエンコード LLM (GPT-4) から実行可能な報酬関数を生成できます。 EUREKA は進化的検索を実行し、報酬候補のバッチを繰り返し提案し、LLM コンテキストウィンドウ内で最も有望なものを絞り込むことで、報酬の品質を大幅に向上させます。このコンテキスト内の改善は、報酬の反映、つまりポリシートレーニング統計に基づいた報酬の品質のテキスト要約を通じて実現され、自動的かつターゲットを絞った報酬編集が可能になります。

図 3 は、EUREKA ゼロショット報酬と最適化プロセス中に蓄積された改善の例を示しています。 EUREKA が報酬検索を最大限まで拡張できるようにするため、EUREKA は IsaacGym で GPU アクセラレーション分散強化学習を使用して中間報酬を評価します。これにより、ポリシー学習速度が最大 3 桁向上し、EUREKA は計算量の増加に応じて自然に拡張できる幅広いアルゴリズムになります。

図2に示すように。私たちは、LLM ベースの報酬設計に関するさらなる研究を促進するために、すべての手がかり、環境、生成された報酬関数をオープンソース化することを約束します。

方法の紹介

EUREKA は報酬アルゴリズムを独自に記述できます。どのように実装されているか見てみましょう。

EUREKA は、3 つのアルゴリズムコンポーネントで構成されています。1) 環境をコンテキストとして使用して、実行可能な報酬のゼロショット生成をサポートする。2) 報酬候補を反復的に提案および改良するための進化的検索。3) きめ細かな報酬の改善をサポートする報酬反映。

環境は文脈である

この記事では、元の環境コードをコンテキストとして直接提供することを推奨します。 EUREKA は最小限の指示で、ゼロショットでさまざまな環境で報酬を生成できます。 EUREKA 出力の例を図 3 に示します。 EUREKA は、提供された環境コード内の既存の観測変数 (指先の位置など) を巧みに組み合わせて、環境固有のキューエンジニアリングや報酬テンプレートを使用せずに、効率的な報酬コードを生成します。

ただし、生成された報酬は必ずしも最初の試行で実行可能であるとは限らず、実行可能である場合でも最適ではない可能性があります。これにより、単一サンプルの報酬生成の非最適性を効果的に克服する方法という疑問が生じます。

進化的探索

次に、この論文では、進化的探索がどのようにして上記の次善の解決策などの問題を解決できるかを紹介します。これらは、各反復で、EUREKA が LLM のいくつかの独立した出力をサンプリングするように実装されています (アルゴリズム 1 の 5 行目)。各世代は独立しており、同一に分布しているため、反復におけるすべての報酬関数のエラーの確率は、サンプル数が増加するにつれて指数関数的に減少します。

報酬の反映

より洗練されたターゲットを絞った報酬分析を提供するために、ポリシートレーニングのダイナミクスをテキストで要約する自動フィードバックを構築することを提案します。具体的には、EUREKA 報酬関数には報酬プログラム内の個別のコンポーネント (図 3 の報酬コンポーネントなど) が必要であることを考慮して、トレーニング全体を通して中間ポリシーチェックポイントですべての報酬コンポーネントのスカラー値を追跡します。

この報酬反映プロセスの構築は簡単ですが、報酬最適化アルゴリズムの依存性があるため重要です。つまり、報酬関数が効果的かどうかは、RL アルゴリズムの特定の選択によって左右され、ハイパーパラメータの違いにより、同じオプティマイザーでも同じ報酬が大きく異なる動作をする可能性があります。 RL アルゴリズムが個々の報酬コンポーネントを最適化する方法を詳細に記述することにより、報酬リフレクションは、EUREKA がよりターゲットを絞った報酬編集を生成し、固定 RL アルゴリズムとより効果的に相乗効果を発揮する報酬関数を合成することを可能にします。

実験

実験部分では、報酬関数を生成する能力、新しいタスクを解決する能力、さまざまな人間の入力を統合する能力など、Eureka の包括的な評価を実施します。

実験環境には 10 種類のロボットと 29 のタスクが含まれており、そのうち 29 のタスクは IsaacGym シミュレーターによって実装されています。実験では、四足歩行ロボット、二足歩行ロボット、クアッドローター、マニピュレーターからロボットの器用な手まで、さまざまなロボット形式を網羅する IsaacGym (Isaac) の 9 つのオリジナル環境が使用されました。さらに、この論文では、Dexterity ベンチマークから 20 のタスクを組み込むことで、評価の深さを確保しています。

Eureka は超人的なレベルの報酬関数を生成できます。 29 のタスク全体で、Eureka によって与えられた報酬関数は、タスクの 83% で専門家によって書かれた報酬よりも優れたパフォーマンスを発揮し、平均で 52% の改善が見られました。特に、Eureka は高次元 Dexterity ベンチマーク環境で大きな成果を達成しています。

Eureka は報酬検索を進化させ、時間の経過とともに報酬が継続的に向上するようにします。 Eureka は、大規模な報酬検索と詳細な報酬反映フィードバックを組み合わせて、徐々により良い報酬を生み出し、最終的には人間のレベルを超えます。

Eureka は新しい報酬も生み出します。すべての Isaac タスクにおける Eureka 報酬と人間の報酬の相関を計算することで、Eureka 報酬の新規性を評価します。図に示すように、Eureka は主に相関の弱い報酬関数を生成し、人間の報酬関数よりも優れています。さらに、タスクが難しくなるほど、Eureka 報酬の関連性が低くなることがわかります。場合によっては、Eureka の報酬は人間の報酬と負の相関関係にあるにもかかわらず、人間の報酬よりも大幅に優れたパフォーマンスを発揮します。

ロボットの器用な手でペンを連続的に回転できるようにするには、動作プログラムにできるだけ多くのサイクルを持たせる必要があります。私たちは、（1）Eurekaにペンをランダムなターゲット構成にリダイレクトするための報酬関数を生成するように誘導し、次に（2）Eurekaの報酬を使用してこの事前トレーニング済みのポリシーを微調整し、目的のペンシーケンス回転構成を達成することで、このタスクに対処します。図に示すように、Eureka は戦略を非常に迅速に微調整し、連続して多くのサイクルを正常にローテーションしました。対照的に、事前トレーニングされたポリシーも、最初から学習されたポリシーも、単一のエポックのローテーションを完了することはできません。

また、人間の報酬関数の初期化から始めることが Eureka にとって有益であるかどうかも調査します。図に示すように、Eureka は人間の報酬の質に関係なく、人間の報酬から改善し、利益を得ます。

Eureka は RLHF も実装しており、人間のフィードバックを組み込んで報酬を変更することで、エージェントがより安全で人間に近い行動を完了するように徐々に誘導します。この例では、Eureka が、以前の自動報酬反映に代わる人間からのフィードバックを使用して、ヒューマノイドロボットに直立走行を教える方法を示しています。

ヒューマノイドロボットはEurekaを通じて走行の歩き方を学習します。

詳細については、原文論文を参照してください。

<<:

>>: