AI ゲームの分野では、人工知能の進歩はボードゲームを通じて実証されることが多いです。ボードゲームは、制御された環境で人間と機械がどのように戦略を立て、実行するかを測定および評価できます。数十年にわたり、事前に計画を立てる能力は、チェス、チェッカー、将棋、囲碁などの完全情報ゲーム、およびポーカーやスコットランドヤードなどの不完全情報ゲームにおける AI の成功の鍵となってきました。 これらの理由から、Stratego は大規模な政策相互作用を研究するための挑戦的なベンチマークを提供します。ほとんどのボードゲームと同様に、ストラテゴは、比較的ゆっくりと、慎重に、論理的に決定を順番に下す能力をテストします。ゲームの構造が非常に複雑なため、AI研究コミュニティはほとんど進歩しておらず、人工知能エージェントはアマチュアの人間プレイヤーのレベルにしか到達できません。したがって、Stratego のような不完全な情報の下で、人間のデモンストレーション データなしで、エンドツーエンドの戦略を学習して最適な決定を下すエージェントをゼロから開発することは、AI 研究における大きな課題の 1 つとなっています。 論文アドレス: https://arxiv.org/pdf/2206.15378.pdf. DeepNash は本質的には、研究者が正規化ナッシュダイナミクス (R-NaD) と呼ぶ、構造化されたモデルフリーの強化学習アルゴリズムです。 DeepNash は R-NaD とディープ ニューラル ネットワーク アーキテクチャを組み合わせ、ナッシュ均衡に収束します。つまり、インセンティブ競争下でプレイすることを学習し、それを悪用しようとする競合他社に対して堅牢です。 研究者らは、学習アルゴリズムにいかなる検索方法も導入することなく、AIアルゴリズムが複雑なボードゲームで初めて人間の専門家のレベルに到達できたと述べ、また、AIがストラテゴのゲームで人間の専門家レベルを達成したのも初めてだった。 方法の概要DeepNash は、エンドツーエンドの学習戦略を使用して Stratego を実行し、ゲームの開始時にボード上に駒を戦略的に配置します (図 1a を参照)。ゲームプレイ段階では、研究者は統合されたディープ RL とゲーム理論のアプローチを使用します。エージェントは自己プレイを通じて近似的なナッシュ均衡を学習することを目指します。 この研究では、探索なしの直交パスを採用し、自己ゲームにおけるモデルフリー強化学習とゲーム理論アルゴリズムのアイデアである正規化ナッシュダイナミクス(RNaD)を組み合わせた新しい方法を提案します。 正規化ナッシュダイナミクスアルゴリズムDeepNash で使用される R-NaD 学習アルゴリズムは、収束を達成するための正規化の考え方に基づいています。R-NaD は、下の図 2b に示すように、3 つの主要なステップに依存しています。 DeepNashは、(1)コアトレーニングコンポーネントであるR-NaD、(2)モデルが極めて起こりそうもないアクションを取る残余確率を減らすための学習ポリシーの微調整、(3)低確率のアクションを除外してエラーを修正するためのテスト時の後処理の3つのコンポーネントで構成されています。 実験結果DeepNash は、いくつかの既存の Stratego コンピュータ プログラムと比較しても評価されました。Probe は 3 年前 (2007、2008、2010) に Computer Stratego World Championship で優勝しました。Master of the Flag は 2009 年に優勝しました。Demon of Ignorance は Stratego のオープン ソース実装です。Asmodeus、Celsius、Celsius1.1、PeternLewis、および Vixen は、2012 年にオーストラリア大学プログラミング コンテストに提出されたプログラムで、PeternLewis が優勝しました。
|
<<: あらゆるビジネスオペレーションに AI を効果的に適用する 10 の方法
>>: 私の世界では、ステーションBのUPホストが世界初の純粋なレッドストーンニューラルネットワークを構築し、チューリング賞を受賞したヤン・ルカンがいいねを転送しました。
シナプスはニューラルネットワークの「橋」です。人間の脳には 860 億個のニューロンがあり、あるニュ...
ChatGPTを運営するOpenAIのCEOサム・アルトマン氏は最近、議会公聴会で政府によるAIの規...
全能の GAN がまたひとつの丘を征服しました。近年、DeepMindが提案したBigGANなど、G...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
OpenAI 開発者関係の専門家 Logan Kilpatrick 氏は、ソーシャル メディアに「...
翻訳者 |ブガッティレビュー | Chonglouこの記事では、無料で使いやすい新しいクラウドIDE...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
オレンジ色の猫を想像してください。次に、その猫の毛が黒だけであることを想像してください。そして、万里...
[51CTO.com からのオリジナル記事] 現在の電子商取引業界は比較的成熟しており、さまざまな形...
コンピューター ビジョンは、写真やビデオなどのデジタル画像の側面に焦点を当てた人工知能のサブフィール...
間違ったストレージ AI プラットフォームを採用すると深刻な影響が生じる可能性があるため、製品の選択...
スマートな車両監視 近年、IoT テクノロジーによりテレマティクスはまったく新しいレベルに到達しまし...
[[378797]]画像ソース: unsplashマッキンゼー・グローバル・インスティテュートの調...
近年、顔認識技術は急速に発展し、入場時の顔スキャンや支払い時の顔スキャンに広く使用され、私たちの日常...