チャット中に数学者テレンス・タオ氏にインスピレーションを与えたGPT-4は、最近、ロボットにペンを回す方法を教え始めました。 このプロジェクトは「エージェント・ユーレカ」と呼ばれ、Nvidia、ペンシルベニア大学、カリフォルニア工科大学、テキサス大学オースティン校が共同で開発しました。彼らの研究では、GPT-4 構造の機能と強化学習の利点が組み合わされており、Eureka は洗練された報酬関数を設計できるようになりました。 GPT-4 のプログラミング機能により、Eureka は強力な報酬関数設計スキルを獲得しました。これは、ほとんどのタスクにおいて、Eureka 独自の報酬制度が人間の専門家の報酬制度よりも優れていることを意味します。これにより、ペンを回す、引き出しを開ける、クルミを回す、さらにはボールを投げたりキャッチしたり、はさみを操作するなど、人間には難しいタスクを完了できるようになります。 写真 写真 現時点ではすべてシミュレーション環境で行われていますが、かなり印象的です。 このプロジェクトはオープンソース化されており、プロジェクトのアドレスと論文のアドレスは記事の最後にあります。 論文の要点を簡単に要約してください。 この論文では、大規模言語モデル (LLM) を使用して機械学習における報酬関数を設計および最適化する方法について説明します。適切な報酬関数を設計すると機械学習モデルのパフォーマンスが大幅に向上しますが、そのような関数を設計するのは非常に難しいため、これは重要なトピックです。 研究者たちはEUREKAと呼ばれる新しいアルゴリズムを提案した。 EUREKA は LLM を使用して報酬関数を生成および改善します。テストでは、EUREKA は 29 種類の強化学習環境で人間レベルのパフォーマンスを達成し、タスクの 83% で人間の専門家が設計した報酬関数を上回りました。 EUREKA は、ペンを素早く回転させる「シャドウ ハンド」操作のシミュレーションなど、これまで手動で設計された報酬関数では解決できなかった複雑な操作タスクも解決しました。 さらに、EUREKA は、人間のフィードバックに基づいて、より効果的で人間が望む報酬関数を生成する新しい方法を提供します。 EUREKA の作業方法は、主に次の 3 つのステップで構成されます。 1. 環境をコンテキストとして: EUREKA は、環境のソース コードをコンテキストとして使用して、実行可能な報酬関数を生成します。 2. 進化的探索: EUREKA は進化的探索を通じて報酬関数を繰り返し提案し、改善します。 3. 報酬の反映: EUREKA は、ポリシー トレーニングの統計に基づいて報酬の品質のテキスト要約を生成し、報酬機能の自動的かつターゲットを絞った改善を可能にします。 この研究は、報酬関数を自動的に生成および改善する新しい効率的な方法を提供し、多くの場合、人間の専門家を上回るため、強化学習と報酬関数設計の分野に広範囲にわたる影響を与える可能性があります。 プロジェクトアドレス: https://github.com/eureka-research/Eureka 論文リンク: https://arxiv.org/pdf/2310.12931.pdf |
<<: Google の Bard チャットボットがアップデートされ、リアルタイムで応答を生成できるようになりました
>>: FPGA と GPU を使用したニューラル ネットワークの作成
類似の質問とは何ですか? また、なぜ類似の質問を書く必要があるのですか?類似質問はロボット教育を改善...
トップ10のアルゴリズムを発明したアルゴリズムの巨匠たち1. 1946年のモンテカルロ法[1946年...
カリフォルニア大学サンフランシスコ校の神経科学者チームは、ネイチャー誌に最近発表した研究で、脳の活動...
[[201526]]人間の行動に関する研究が最近、Nature の子会社である Nature Hum...
2020年銀川国際スマートシティ博覧会において、銀川市政府は百度に、同市初のインテリジェントコネク...
[[207418]]多くの検索専門家は、「機械学習を通じて最適な重みを取得し」、それを検索クエリに使...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
対話型音声応答 (IVR) システムにおける人工知能 (AI) の変革的役割と、それが IVR テス...
人工知能が今日の情報技術分野で最もホットな話題であることは疑いの余地がなく、情報産業を豊かにし、改善...
超AI制御により、機械が自動的に人間の胚のクローンを作成し、培養用の栄養プールに送り込み、人間のバッ...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
進化し続けるテクノロジーの世界における最新のトレンドやイノベーションを追い続ける中で、私たちが注目...
昨日の人工知能プロジェクトに関する 10 の提案 - 理論に続き、今日は人工知能プロジェクトの 10...