ドーパミンが来る! Google が新しい強化学習フレームワーク Dopamine を発表

ドーパミンが来る! Google が新しい強化学習フレームワーク Dopamine を発表

Google は、TensorFlow をベースとし、柔軟性、安定性、再現性、高速ベンチマークを提供する最新の強化学習フレームワーク Dopamine を紹介するブログを公開しました。

GitHub リポジトリ: https://github.com/google/dopamine

過去数年間で、強化学習の研究は多くの面で大きな進歩を遂げました。これらの進歩により、エージェントは人間を超えたレベルでゲームをプレイできるようになり、注目すべき例としては、DeepMind の DQN による Atari ゲーム、AlphaGo、AlphaGoZero、Open AI Five のパフォーマンスが挙げられます。具体的には、DQN にリプレイ メモリを導入することでエージェントは過去の経験を活用できるようになり、大規模な分散トレーニングによりエージェントは学習プロセスを複数のワーカーに分散できるようになり、分散アプローチによりエージェントは期待値だけでなく分布全体をモデル化できるため、環境の完全な状況を把握できるようになります。この進歩は、アルゴリズムによってこれらの進歩が可能になり、ロボット工学などの他の分野でも使用できるため重要です。

通常、このような進歩を遂げるには、既存のアプローチの構造を破壊する設計の迅速な反復(多くの場合、明確な指示なし)が必要です。しかし、既存の強化学習フレームワークのほとんどは、研究者が RL 手法を効率的に反復できるようにする柔軟性と安定性の両方を備えていないため、新しい研究の方向性を模索しても、短期的には大きな利益が得られない可能性があります。さらに、既存のフレームワークの結果を再現するには時間がかかりすぎることが多く、科学的な再現性の問題につながる可能性があります。

Google は本日、強化学習の研究者や関連担当者に、柔軟で安定した再現性のあるツールを提供することを目的とした、TensorFlow をベースとした新しいフレームワークを発表しました。このフレームワークは、脳内の報酬動機行動の主要成分であるドーパミンにヒントを得たもので、神経科学と強化学習研究の密接なつながりを反映しており、大きな発見につながる可能性のある推測的研究をサポートするように設計されています。 Google は、フレームワークの使用方法を説明するために、関連する Colab (https://github.com/google/dopamine/blob/master/dopamine/colab/README.md) のセットもリリースしました。

使いやすさ

このフレームワークの設計では、明瞭性とシンプルさが 2 つの重要な考慮事項でした。 Google が提供するコードはコンパクト (Python ファイル約 15 個) で、ドキュメントも充実しています。その理由は、Google の研究者が、成熟した、よく理解されているベンチマークである Arcade Learning Environment (ALE) と、4 つの価値ベースのエージェント (DQN、C51、Rainbow エージェントの慎重に設計された簡易版、および Implicit Quantile Network エージェント (先月の ICML カンファレンスで発表されたばかり)) に焦点を当てたためです。 Google は、このシンプルさにより、研究者がエージェントの内部の仕組みを理解しやすくなり、新しいアイデアをすぐに試せるようになることを期待しています。

再現性

Google は強化学習研究における再現性を非常に重視しています。そのため、Google はコードに対して完全なテストを提供しており、これらのテストはドキュメントに記載されています。さらに、Google の実験フレームワークは、ALE を使用した標準化された経験的評価に関する Machado ら (2018) の推奨事項に従っています。

ベンチマーク

新しい研究者にとって、自分のアイデアを素早くベンチマークすることは非常に重要です。 Google は、ALE でサポートされている 60 のゲームを含む 4 つのエージェントの完全なトレーニング データを、Python ピクル ファイル (Google のフレームワークを使用してトレーニングされたエージェント用) と JSON データ ファイル (他のフレームワークを使用してトレーニングされたエージェントとの比較用) の形式で提供しています。 Google は、研究者が全 60 のゲームで提供されたすべてのエージェントのトレーニング実行をすばやく視覚化できる Web サイトも提供しています。下の写真は、Google のエージェント 4 人が Seaquest (ALE がサポートする Atari 2600 ゲームの 1 つ) のトレーニングをしているところです。

Google の 4 人のエージェントのトレーニングは Seaquest で実行されます。 x 軸は反復を表し、各反復は 100 万ゲーム フレーム (リアルタイム ゲームプレイで 4.5 時間) です。y 軸はゲームごとに得られる平均スコアです。網掛け部分は 5 回の独立した実行からの信頼区間を表します。

Google は、これらのエージェントを使用してトレーニングされたディープ ネットワーク、生の統計ログ、Tensorboard 視覚化用の TensorFlow イベント ファイルも提供しています。

関連アドレス: https://github.com/google/dopamine/tree/master/docs#downloads

Google は、このフレームワークの柔軟性と使いやすさが研究者による新しいアイデアの試行に役立つことを期待している。 Google は研究でこのフレームワークを使用し、多くのアイデアを非常に柔軟に迅速に反復できることを発見しました。 Google は、コミュニティがこのフレームワークを使用するのを楽しみにしています。

<<:  子どもたちがロボットに出会うと、彼らの社会的交流はどのように変化するのでしょうか?

>>:  視覚畳み込みニューラルネットワークモデルを習得し、画像認識技術の分野を探索します。

ブログ    
ブログ    

推薦する

なぜ人工知能は第四次産業革命と呼ばれるのでしょうか?

[[234940]]過去2年間、世界のIT大手は人工知能の分野で展開してきました。GoogleはD...

テンセントのロボットファミリーに新しいメンバーが加わりました。「新年の挨拶をして紅包をお願いする」ことができるロボット犬を見たことがありますか?

テンセントは3月2日、自社で完全に開発したソフトウェアとハ​​ードウェアを搭載した初のマルチモーダル...

真の次元削減攻撃、ソラ、ランウェイ、ピカの比較。衝撃的な効果の背後には、現実世界をシミュレートする物理エンジンがある。

昨日、OpenAI は初のテキスト生成ビデオ モデル Sora をリリースし、コミュニティに衝撃を与...

...

Evil GPT に新たなメンバーが加わりました: Dark Web には 3,000 を超えるサブスクリプションがあり、発行者の正体は依然として謎のままです。

著者: 徐潔成物事の表面と内部の性質の間には常に微妙な境界線があります。過去数か月間、私たちは人工知...

...

描いた場所に画像が動きます! Gen-2の新機能「マジックブラシ馬良」が大ヒット、ネットユーザー:緊急、緊急、緊急

動画生成AIはここまで進化したのか? !写真をスワイプするだけで、選択したターゲットが動きます。明ら...

海外AI界が騒然! Googleの黒人女性AI倫理研究者が「退職」し騒動を引き起こす

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

顔認識技術の応用リスクと法的規制

顔認識技術は、顔の特徴に基づいて人物を識別する高度な認識技術です。非感度、利便性、正確性から広く利用...

人工知能はメタバースのビジョンの実現に役立つでしょうか?

現在、メタバースの分野は、誇大宣伝と新規プロジェクトの立ち上げ数の点で急速に成長しており、業界の市場...

ChatGPT を使用すると、わずか 3 時間で高品質の論文を書くことができます。

1. 論文のテーマと研究の方向性を決定するディスカッションと詳細化: ChatGPT で論文のトピ...

李開復:将来、名ばかりの職業10種

[[244632]]今後 30 年間で、人工知能は、現在人間が理解していない多くの社会現象を引き起こ...

...

DeepMind Google 研究者の推奨: 拡散モデルの効率と生成品質の向上のヒント

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

2020 年の優れた産業用人工知能アプリケーション

人工知能技術は今、世界を変えつつあります。多くの業界はすでに、ビジネス プロセスを改善するために A...