チャット中に数学者テレンス・タオ氏にインスピレーションを与えたGPT-4は、最近、ロボットにペンを回す方法を教え始めました。 このプロジェクトは「エージェント・ユーレカ」と呼ばれ、Nvidia、ペンシルベニア大学、カリフォルニア工科大学、テキサス大学オースティン校が共同で開発しました。彼らの研究では、GPT-4 構造の機能と強化学習の利点が組み合わされており、Eureka は洗練された報酬関数を設計できるようになりました。 GPT-4 のプログラミング機能により、Eureka は強力な報酬関数設計スキルを獲得しました。これは、ほとんどのタスクにおいて、Eureka 独自の報酬制度が人間の専門家の報酬制度よりも優れていることを意味します。これにより、ペンを回す、引き出しを開ける、クルミを回す、さらにはボールを投げたりキャッチしたり、はさみを操作するなど、人間には難しいタスクを完了できるようになります。 写真 写真 現時点ではすべてシミュレーション環境で行われていますが、かなり印象的です。 このプロジェクトはオープンソース化されており、プロジェクトのアドレスと論文のアドレスは記事の最後にあります。 論文の要点を簡単に要約してください。 この論文では、大規模言語モデル (LLM) を使用して機械学習における報酬関数を設計および最適化する方法について説明します。適切な報酬関数を設計すると機械学習モデルのパフォーマンスが大幅に向上しますが、そのような関数を設計するのは非常に難しいため、これは重要なトピックです。 研究者たちはEUREKAと呼ばれる新しいアルゴリズムを提案した。 EUREKA は LLM を使用して報酬関数を生成および改善します。テストでは、EUREKA は 29 種類の強化学習環境で人間レベルのパフォーマンスを達成し、タスクの 83% で人間の専門家が設計した報酬関数を上回りました。 EUREKA は、ペンを素早く回転させる「シャドウ ハンド」操作のシミュレーションなど、これまで手動で設計された報酬関数では解決できなかった複雑な操作タスクも解決しました。 さらに、EUREKA は、人間のフィードバックに基づいて、より効果的で人間が望む報酬関数を生成する新しい方法を提供します。 EUREKA の作業方法は、主に次の 3 つのステップで構成されます。 1. 環境をコンテキストとして: EUREKA は、環境のソース コードをコンテキストとして使用して、実行可能な報酬関数を生成します。 2. 進化的探索: EUREKA は進化的探索を通じて報酬関数を繰り返し提案し、改善します。 3. 報酬の反映: EUREKA は、ポリシー トレーニングの統計に基づいて報酬の品質のテキスト要約を生成し、報酬機能の自動的かつターゲットを絞った改善を可能にします。 この研究は、報酬関数を自動的に生成および改善する新しい効率的な方法を提供し、多くの場合、人間の専門家を上回るため、強化学習と報酬関数設計の分野に広範囲にわたる影響を与える可能性があります。 プロジェクトアドレス: https://github.com/eureka-research/Eureka 論文リンク: https://arxiv.org/pdf/2310.12931.pdf |
<<: Google の Bard チャットボットがアップデートされ、リアルタイムで応答を生成できるようになりました
>>: FPGA と GPU を使用したニューラル ネットワークの作成
1. 検索セマンティックモデルの現状ERNIE: 知識統合による表現の強化は、中国語の NLP タス...
ヘルスケアにおける人工知能 (AI) の利点を裏付ける統計、調査、業界の誇大宣伝は数多くあります。人...
IDG Capital の投資家は、神経科学の専門家や最先端技術の起業家とともに、エネルギーと専門...
パート01 評価方法オーディオ品質の評価に関しては、オーディオの品質を完全に理解するために、主観的評...
欧州連合の人工知能法(AI法)は、政策立案者が画期的な規制のルールをうまく策定したことで、法律化に向...
人工知能(AI)と機械学習は、インテリジェントデータセンターにおいてますます重要な役割を果たしていま...
PaddlePaddleは、Baiduが2016年8月末に一般公開したディープラーニングプラットフォ...
機械翻訳というと、多くの人が戸惑うでしょう。10年以上も前には、英語の文章をKingsoft Pow...
[[282875]] 数十年前、日本は避けることの難しい一連の長期的経済課題に直面していました。 1...
昨年 12 月、CMU とプリンストンの 2 人の研究者が Mamba アーキテクチャをリリースし、...
参加者が50の文章を話している間に神経活動が収集されました。機械学習アルゴリズムは、収集されたデータ...
世界の潮流は力強く前進しています。科学研究と探究のペースを止めれば、井戸の中で空を眺め、満足して...