ロボットはペンを回したりクルミを転がしたりすることを学びました。 GPT-4では、タスクが複雑になるほどパフォーマンスが向上します

ロボットはペンを回したりクルミを転がしたりすることを学びました。 GPT-4では、タスクが複雑になるほどパフォーマンスが向上します

ビッグデータダイジェスト制作

親愛なる友人たち、人工知能(AI)がチェス、囲碁、Dotaを征服した後、ペン回しのスキルもAIロボットによって学習されました。

非常にスムーズにペンを回転させることができる上記のロボットは、NVIDIA、ペンシルバニア大学、カリフォルニア工科大学、テキサス大学オースティン校の研究プロジェクトである Eureka と呼ばれるインテリジェント エージェントのおかげで実現しました。

ユーレカの指示により、ロボットは引き出しやキャビネットを開けたり、ボールを投げたりキャッチしたり、はさみを使ったりすることもできる。 Nvidia によれば、Eureka には 10 種類あり、29 種類のタスクを実行できるとのことです。

以前は、ペンの回転機能だけを、人間の専門家による手動プログラミングだけで、これほどスムーズに実現することはできなかったことを知っておく必要があります。

ロボットプレートクルミ

Eureka はロボットをトレーニングするための報酬アルゴリズムを独自に作成することができ、そのコーディング能力は強力です。独自に作成した報酬プログラムは、タスクの 83% で人間の専門家を上回り、ロボットのパフォーマンスを平均 52% 向上させることができます。

Eureka は、人間のフィードバックから勾配のない学習を行う新しい方法を開発しました。人間が提供する報酬やテキスト フィードバックを簡単に吸収して、独自の報酬生成メカニズムをさらに改善することができます。

具体的には、Eureka は OpenAI の GPT-4 を活用して、ロボットの試行錯誤学習のための報酬プログラムを作成します。つまり、このシステムは人間特有のタスクの手がかりや事前に設定された報酬パターンに依存しません。

Eureka は、 Isaac Gym の GPU アクセラレーション シミュレーションを使用することで、多数の候補報酬の長所と短所を迅速に評価し、より効率的なトレーニングを実現できます。次に、Eureka はトレーニング結果の主要な統計情報の要約を生成し、LLM (言語モデル) をガイドして報酬関数の生成を改善します。このようにして、AI エージェントはロボットへの指示を独自に改善することができます。

ユーレカフレームワーク

研究者らはまた、タスクが複雑になるほど、GPT-4 の指示がいわゆる「報酬エンジニア」による人間の指示よりも優れていることも発見した。この研究に参加した研究者たちはユーレカを「超人的な報酬エンジニア」とさえ呼んだ。

Eureka は、高レベルの推論 (エンコード) と低レベルの運動制御の間のギャップをうまく埋めます。これはいわゆる「ハイブリッド勾配アーキテクチャ」を使用します。純粋な推論ブラックボックス LLM (言語モデル) が学習可能なニューラル ネットワークをガイドします。このアーキテクチャでは、外側のループは GPT-4 を実行して報酬関数を最適化し (勾配フリー)、内側のループは強化学習を実行してロボットのコントローラーをトレーニングします (勾配ベース)。

—NVIDIA のシニア研究科学者、リンシー・「ジム」・ファン

Eureka は人間からのフィードバックを取り入れて、開発者の期待に沿うように報酬をより適切に調整することができます。 Nvidiaはこのプロセスを「インコンテキストRLHF」(人間のフィードバックからのコンテキスト学習)と呼んでいます。

Nvidia の研究チームが Eureka の AI アルゴリズム ライブラリをオープンソース化したことは注目に値します。これにより、個人や機関は、Nvidia Isaac Gym を通じてこれらのアルゴリズムを探索および実験できるようになります。 Isaac Gym は、Open USD フレームワークに基づいて 3D ツールとアプリケーションを作成するための開発フレームワークである Nvidia Omniverse プラットフォーム上に構築されています。

  • 論文リンク: https://arxiv.org/pdf/2310.12931.pdf
  • プロジェクトリンク: https://eureka-research.github.io/
  • コードリンク: https://github.com/eureka-research/Eureka

どのように評価しますか?

強化学習は過去 10 年間で大きな成功を収めてきましたが、依然として課題が残っていることを認めなければなりません。これまでにも同様の技術を導入する試みはありましたが、Eureka は、言語モデル (LLM) を使用して報酬設計を支援する L2R (Learning to Reward) と比較して、特定のタスクプロンプトが不要になるという点で際立っています。 Eureka が L2R よりも優れているのは、自由に表現できる報酬アルゴリズムを作成し、環境ソース コードを背景情報として活用できることです。

Nvidia の研究チームは、人間の報酬関数から始めることで何らかの利点が得られるかどうかを調べる調査を実施しました。この実験の目的は、元の人間の報酬関数を、最初の Eureka 反復の出力に正常に置き換えることができるかどうかを確認することです。

テストでは、NVIDIA の研究チームは、同じ強化学習アルゴリズムと同じハイパーパラメータを使用して、各タスクのコンテキストですべての最終報酬関数を最適化しました。これらのタスク固有のハイパーパラメータが適切に調整され、手作りの報酬の有効性が確保されているかどうかをテストするために、研究者らは、以前の研究に基づいて、変更を加えずに適切に調整された近似ポリシー最適化 (PPO) 実装を使用しました。研究者らは、各報酬について 5 回の独立した PPO トレーニング実行を実行し、ポリシー チェックポイントによって達成された最大タスク メトリック値の平均を報酬パフォーマンスの尺度として報告しました。

結果は、人間の設計者は一般的に関連する状態変数をよく理解しているが、効果的な報酬を設計する能力が欠けている可能性があることを示しています。

Nvidia のこの画期的な研究は、強化学習と報酬設計における新たな境地を切り開きます。彼らの一般的な報酬設計アルゴリズムである Eureka は、大規模な言語モデルとコンテキスト進化検索の力を活用して、タスク固有のプロンプトや人間の介入を必要とせずに、幅広いロボットタスクにわたって人間レベルの報酬を生成し、AI と機械学習に対する私たちの理解を大きく変えました。

<<:  杜暁曼自動機械学習プラットフォームの実践

>>: 

推薦する

...

...

自動運転車が「すべての人を助ける」ことができるようになるには、15の課題を乗り越える必要がある

[[251351]]自動運転車の将来は、交通手段に革命を起こすと予測されていた電動スクーターの歴史と...

複数の機械学習モデルインスタンスを素早く比較する

導入機械学習プロジェクトに取り組むとき、すべてのデータ サイエンティストが直面しなければならない質問...

...

人工知能の時代において、Web フロントエンドは何ができるのでしょうか?

私は最近、クローラーを使用してページのスナップショットを取得し、ページの互換性の包括的なテストを実施...

ヘッドライトから始めて、自動運転はどのようにして攻撃性を排除するのでしょうか?

これは、鞭で打たれるとどんどん速く回転するコマのような「高離職率」社会です。技術推論において非常に重...

コンピューティングパワーのコストが急激に上昇したため、AIスタートアップがGoogleやMicrosoftなどの大手に挑戦することが難しくなった。

2月20日のニュースによると、コンピューティングコストが急騰しているため、人工知能業界の新興企業は...

...

単一画像超解像におけるディープラーニングの応用: SRCNN、知覚損失、SRResNet

[[209375]]単一画像の超解像度では、品質の低下を最小限に抑えながら小さな画像のサイズを拡大...

顔を自由に編集! Adobe が新世代の GAN アーティファクトを発表: 最大 35 の顔属性の変更をサポート

画像合成における重要な問題は、画像内のエンタングルメント問題です。たとえば、人物の顔にあるすべてのひ...

中間レビュー: 2021 年に最も注目される AI スタートアップ 10 社

[[407377]] 2021年はまだ半分しか経っていませんが、人工知能に注力する人気のスタートアッ...

1000 以上の AI エージェントが復活、メタバースの OpenAI バージョンがリリースされる? ChatGPT+VR が「ウエストワールド」を 100% 復元

『ウエストワールド』のビデオゲーム版が現実になった。 YouTube ブロガーの Art from ...

コンピュータビジョンにおけるステレオビジョンと奥行き知覚の例

人工知能と画像処理の魅力的な世界では、これらの概念は、機械が人間の目と同じように私たちの周りの三次元...