チャット中に数学者テレンス・タオ氏にインスピレーションを与えたGPT-4は、最近、ロボットにペンを回す方法を教え始めました。 このプロジェクトは「エージェント・ユーレカ」と呼ばれ、Nvidia、ペンシルベニア大学、カリフォルニア工科大学、テキサス大学オースティン校が共同で開発しました。彼らの研究では、GPT-4 構造の機能と強化学習の利点が組み合わされており、Eureka は洗練された報酬関数を設計できるようになりました。 GPT-4 のプログラミング機能により、Eureka は強力な報酬関数設計スキルを獲得しました。これは、ほとんどのタスクにおいて、Eureka 独自の報酬制度が人間の専門家の報酬制度よりも優れていることを意味します。これにより、ペンを回す、引き出しを開ける、クルミを回す、さらにはボールを投げたりキャッチしたり、はさみを操作するなど、人間には難しいタスクを完了できるようになります。 写真 写真 現時点ではすべてシミュレーション環境で行われていますが、かなり印象的です。 このプロジェクトはオープンソース化されており、プロジェクトのアドレスと論文のアドレスは記事の最後にあります。 論文の要点を簡単に要約してください。 この論文では、大規模言語モデル (LLM) を使用して機械学習における報酬関数を設計および最適化する方法について説明します。適切な報酬関数を設計すると機械学習モデルのパフォーマンスが大幅に向上しますが、そのような関数を設計するのは非常に難しいため、これは重要なトピックです。 研究者たちはEUREKAと呼ばれる新しいアルゴリズムを提案した。 EUREKA は LLM を使用して報酬関数を生成および改善します。テストでは、EUREKA は 29 種類の強化学習環境で人間レベルのパフォーマンスを達成し、タスクの 83% で人間の専門家が設計した報酬関数を上回りました。 EUREKA は、ペンを素早く回転させる「シャドウ ハンド」操作のシミュレーションなど、これまで手動で設計された報酬関数では解決できなかった複雑な操作タスクも解決しました。 さらに、EUREKA は、人間のフィードバックに基づいて、より効果的で人間が望む報酬関数を生成する新しい方法を提供します。 EUREKA の作業方法は、主に次の 3 つのステップで構成されます。 1. 環境をコンテキストとして: EUREKA は、環境のソース コードをコンテキストとして使用して、実行可能な報酬関数を生成します。 2. 進化的探索: EUREKA は進化的探索を通じて報酬関数を繰り返し提案し、改善します。 3. 報酬の反映: EUREKA は、ポリシー トレーニングの統計に基づいて報酬の品質のテキスト要約を生成し、報酬機能の自動的かつターゲットを絞った改善を可能にします。 この研究は、報酬関数を自動的に生成および改善する新しい効率的な方法を提供し、多くの場合、人間の専門家を上回るため、強化学習と報酬関数設計の分野に広範囲にわたる影響を与える可能性があります。 プロジェクトアドレス: https://github.com/eureka-research/Eureka 論文リンク: https://arxiv.org/pdf/2310.12931.pdf |
<<: Google の Bard チャットボットがアップデートされ、リアルタイムで応答を生成できるようになりました
>>: FPGA と GPU を使用したニューラル ネットワークの作成
9月1日、成都地下鉄全線で「スマート旅客サービスプラットフォーム」がオンラインで開始されました。この...
機械学習運用 (MLOps) とは、運用環境での機械学習モデルの展開、管理、監視を簡素化するために使...
機械学習は受け入れるのが難しいものです。事件があったらいいな、じゃあ行こうよ〜 Q: 機械学習とは何...
最近、アリババAIは常識QA分野の権威あるデータセットであるCommonsenseQAで新たな世界記...
[51CTO.com クイック翻訳] バージョン r1.5 のリリースにより、Google のオープ...
[51CTO.comからのオリジナル記事] 現在、私たちの周りではデジタル変革が起こっています。デジ...
最近、中国の国立国防科学技術大学、カリフォルニア大学ロサンゼルス校、ハーバード大学医学部の研究者らが...
機械にはハードウェアだけでなくソフトウェアもあります。ハードウェアには材料や電力の問題が必要ですが、...
過去 6 か月間にわたり、Meta のオープン ソース LLaMA アーキテクチャはテストされ、LL...