チャット中に数学者テレンス・タオ氏にインスピレーションを与えたGPT-4は、最近、ロボットにペンを回す方法を教え始めました。 このプロジェクトは「エージェント・ユーレカ」と呼ばれ、Nvidia、ペンシルベニア大学、カリフォルニア工科大学、テキサス大学オースティン校が共同で開発しました。彼らの研究では、GPT-4 構造の機能と強化学習の利点が組み合わされており、Eureka は洗練された報酬関数を設計できるようになりました。 GPT-4 のプログラミング機能により、Eureka は強力な報酬関数設計スキルを獲得しました。これは、ほとんどのタスクにおいて、Eureka 独自の報酬制度が人間の専門家の報酬制度よりも優れていることを意味します。これにより、ペンを回す、引き出しを開ける、クルミを回す、さらにはボールを投げたりキャッチしたり、はさみを操作するなど、人間には難しいタスクを完了できるようになります。 写真 写真 現時点ではすべてシミュレーション環境で行われていますが、かなり印象的です。 このプロジェクトはオープンソース化されており、プロジェクトのアドレスと論文のアドレスは記事の最後にあります。 論文の要点を簡単に要約してください。 この論文では、大規模言語モデル (LLM) を使用して機械学習における報酬関数を設計および最適化する方法について説明します。適切な報酬関数を設計すると機械学習モデルのパフォーマンスが大幅に向上しますが、そのような関数を設計するのは非常に難しいため、これは重要なトピックです。 研究者たちはEUREKAと呼ばれる新しいアルゴリズムを提案した。 EUREKA は LLM を使用して報酬関数を生成および改善します。テストでは、EUREKA は 29 種類の強化学習環境で人間レベルのパフォーマンスを達成し、タスクの 83% で人間の専門家が設計した報酬関数を上回りました。 EUREKA は、ペンを素早く回転させる「シャドウ ハンド」操作のシミュレーションなど、これまで手動で設計された報酬関数では解決できなかった複雑な操作タスクも解決しました。 さらに、EUREKA は、人間のフィードバックに基づいて、より効果的で人間が望む報酬関数を生成する新しい方法を提供します。 EUREKA の作業方法は、主に次の 3 つのステップで構成されます。 1. 環境をコンテキストとして: EUREKA は、環境のソース コードをコンテキストとして使用して、実行可能な報酬関数を生成します。 2. 進化的探索: EUREKA は進化的探索を通じて報酬関数を繰り返し提案し、改善します。 3. 報酬の反映: EUREKA は、ポリシー トレーニングの統計に基づいて報酬の品質のテキスト要約を生成し、報酬機能の自動的かつターゲットを絞った改善を可能にします。 この研究は、報酬関数を自動的に生成および改善する新しい効率的な方法を提供し、多くの場合、人間の専門家を上回るため、強化学習と報酬関数設計の分野に広範囲にわたる影響を与える可能性があります。 プロジェクトアドレス: https://github.com/eureka-research/Eureka 論文リンク: https://arxiv.org/pdf/2310.12931.pdf |
<<: Google の Bard チャットボットがアップデートされ、リアルタイムで応答を生成できるようになりました
>>: FPGA と GPU を使用したニューラル ネットワークの作成
C# アルゴリズムは、バイナリ ツリーの定義、既知のバイナリ ツリーの構築方法、および C# でバイ...
AI システムの開発にはコンピュータ コードが必要であり、コンピュータ プログラムを開発する際にはさ...
古代より、農業は人類の生存の基盤であり、国家経済の基盤となってきました。しかし、人口の急速な増加、耕...
[[417375]]あと一日で中国のバレンタインデーになります。遠く離れたアルタイルと明るいベガは、...
写真1 ▲WPS AI公式サイトのスクリーンショット7月6日、Kingsoft OfficeはWPS...
この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...
導入ノートパソコン、スマートフォン、センサーはすべて、モノのインターネット向けに大量のデータを生成し...
機械学習の分野で仕事を見つけるのはどれくらい難しいですか? NVIDIA の大規模モデル研究科学者の...
近年の退職者の急増は、労働力不足が現実であることを示している。セントルイス連邦準備銀行の調査によると...
1. 機械学習の概要1. 機械学習とは何ですか?機械は大量のデータを分析して学習します。たとえば、猫...
ドローンについては皆さんもよくご存知だと思います。近年、無人運用の需要が継続的に高まり、さまざまな最...
先月外出した時、交差点の交通警察や補助警察の数が大幅に増えていることに気づきました。疑問に思わずには...