マイクロソフトの麻雀AI論文が発表され、初めて技術的な詳細が明らかに

マイクロソフトの麻雀AI論文が発表され、初めて技術的な詳細が明らかに

シーン説明: 昨年 8 月に Microsoft がリリースした「Que Shen AI」Suphx を覚えていますか?本日、研究チームは arXiv に最新の論文を公開し、Suphx の背後にある技術をさらに紹介しました。

2019年8月29日、マイクロソフトはSuphx(スーパーフェニックス)と呼ばれる「麻雀AI」をリリースしました。プロの麻雀競技プラットフォームで、Suphxの強さはトップクラスの人間プレイヤーの平均レベルを超えました。

Suphx はリリースされると、人工知能の分野だけでなく、視聴して議論するために集まった多くの麻雀愛好家からも幅広い注目を集めました。

麻雀の情報セットの数と平均サイズは、ブリッジ、テキサスホールデム、囲碁を上回ります。

このシステムは、プロの囲碁プレイヤーを破ったアルファ碁よりも複雑で、「最強の日本麻雀人工知能」と称賛されている。

本日、システムの研究開発チームは、arXiv に「Suphx: 深層強化学習による麻雀の習得」と題した論文を公開し、Suphx の背後にあるテクノロジーについてさらに詳しく説明しています。

Suphx: 深層強化学習で麻雀をマスターする

論文アドレス: https://arxiv.org/pdf/2003.13590.pdf

Suphxはどんどん強くなってきています。彼はプレイヤーの99.99%を超えています。

以前紹介したように、Suphxシステムは深層強化学習を使用して5,000ゲームから経験を学習・吸収し、日本のプロ麻雀競技プラットフォーム「天鳳」で多くの麻雀プレイヤーを打ち負かし、プラットフォーム「徳上方」で最高位の10位を獲得しました。

SuphxのTianfengプラットフォームでのランクは他の麻雀AIよりもはるかに高い

こんなに強力な麻雀AIはどうやって作られたのでしょうか?マイクロソフトリサーチアジア、京都大学、中国科学技術大学、清華大学、南開大学の研究チームが最新版の論文で詳細な紹介を行った。

この論文から、Suphx はさらなる学習によってさらに改善できることもわかりました。 35万人以上のプレイヤーがいる天鵬プラットフォームにおいて、プレイヤーの99.99%以上を上回ったレベルであると公式に評価された。コンピュータープログラムが麻雀でトップクラスの人間のプレイヤーの大半を上回ったのはこれが初めてだ。

5つの主要モデルと強化学習によりQueshen AIが誕生

Suphx には、一連の畳み込みニューラル ネットワークが含まれており、discard モデル、Riichi モデル、chow モデル、Pong モデル、Kong モデルなど、さまざまなシナリオを処理する 5 つのモデルを学習します。

破棄モデル(上)と他の 4 つのモデルのアーキテクチャ(下)

これを基に、Suphx は別のルールベースのモデルを採用し、勝者を宣言して次のラウンドに進むかどうかを決定します。その際、勝利カードが他のプレイヤーが捨てたカードから判断できるか、壁から引いたカードから判断できるかをチェックします。

Suphx のトレーニングプロセスは 3 つのステップに分かれていると報告されています。

まず、5 つのモデルは、Tianfeng プラットフォームから収集されたトップクラスの人間プレイヤーのログを使用してトレーニングされます。

その後、CPU ベースの麻雀シミュレーターと GPU ベースの軌道生成推論エンジンを使用した自己プレイ強化学習を通じてシステムを微調整します。

最後に、オンライン ゲーム中に、ランタイム ポリシー チューニングを使用して現在のラウンドの結果を観察し、システムのパフォーマンスを向上させます。

Suphxの分散強化学習システム

麻雀ゲームでは対戦相手の情報が不明であるため、Suphx は強化学習の効果を高めるために預言者コーチング技術を試しました。セルフゲームトレーニングフェーズでは、非表示の情報を使用してモデルのトレーニング方向をガイドし、AI モデルの可視情報の理解を強化し、効果的な意思決定の根拠を見つけます。

評価: 5760 マッチ、10 記録

実験に先立ち、チームは 44 個の GPU (パラメータ サーバー用の 4 個の Nvidia Titan XP と、自動プレイ プレイヤー用の 40 個の K80 を含む) で 150 万回のハンドを使用して、各モデルを 2 日間トレーニングしました。

チームは 20 個の Nvidia Tesla K80 GPU で Suphx を評価しました。安定したランキングの分散を減らすために、100 万以上の麻雀ゲームのデータセットから 80 万の麻雀ゲームデータをランダムに選択し、そこから 1,000 回のサンプリングを実行しました。

評価の結果、Suphxは「天風」プラットフォーム上で人間のプレイヤーと5,760回以上の対局を行った後、10部門の記録を樹立した。このレベルに到達したプレイヤーはこれまでに180人程度しかいない。 Suphx の安定したランキングは 8.74 です (人間のプレイヤーの最高レベルは 7.4)。

強化学習エージェントの最終安定ランキング統計

継続的な最適化により、RL-2は最終的に優れたパフォーマンスを達成しました。

興味深いことに、研究者らは、Suphx の防御は「非常に強力」で、ハンドを譲る可能性が低い (10.06%) と述べ、カードを安全に保ち、ハーフデュースで勝つことを可能にする独自のプレイスタイルを開発したとしている。

AIプレイヤー(南)は保守的にプレイすることを選択する

バスケットの中の6本のポールはすでにテーブルの上にあるので諦める

さらに、論文の共著者らは、金融市場の予測や物流の最適化など、現実世界の問題のほとんどは麻雀と共通する特徴を持っていると書いている。たとえば、複雑な操作/報酬ルール、不完全情報の問題など。

著者は、Suphx で設計された、全体的な報酬予測、予言者のガイダンス、ポリシー調整などの麻雀テクノロジーは大きな可能性を秘めており、将来的には現実世界で広く使用され、現実的で複雑な実用的な問題の解決に役立つと考えています。

[[320921]]

これを見た後、試してみたくなりましたか?天鳳麻雀バトルプラットフォーム:https://tenhou.net/、一緒にゲームをしましょう!

<<:  産業インテリジェンスは「新しいインフラ」の下で非常に人気がありますが、まだ多くの問題があります

>>:  特徴エンジニアリングとは何ですか?なぜ自動化が必要なのでしょうか?

ブログ    
ブログ    
ブログ    

推薦する

2021年の中国の人工知能市場の現状と応用動向の分析人工知能は業界規模を5000億に押し上げ、幅広い応用産業を持っています

人工知能業界の主要上場企業:現在、国内の人工知能業界の上場企業は主に百度(BAIDU)、テンセント(...

世界をリセットし、すべてをつなげる5Gは人工知能にどんな機会と課題をもたらすのか

[[274397]] 5G時代は人工知能にどのような新たな機会をもたらすのでしょうか?人工知能と5G...

...

...

...

自動化されたAIで予期せぬ収益機会を発見

急速に変化する今日の市場で競争力を維持するために、企業は次の大きな成長機会や運用上の優位性を発見する...

私たちに必要なのは人工知能ではなく人工知能だ

一拍遅ければそれは「人工的な愚かさ」であり、一歩遅れればそれは「知的な人工性」であり、一歩速ければそ...

インベントリ | 知らないかもしれないディープラーニングの応用事例 8 つ

ディープラーニングは、多層人工ニューラル ネットワークを使用してコンピューター ビジョンから自然言語...

...

優れたオープンソース音声認識エンジン13選

自動音声認識 (ASR) は、人間とコンピュータの相互作用において重要な役割を果たし、転写、翻訳、デ...

「アルゴリズムの構成」は「ブラックボックス」を明らかにする:アルゴリズムは数学に関するものだが、人間に関するものである

アルゴリズムは私たちの生活の中でますます一般的なものになってきています。しかし、アルゴリズムに関する...

面接で使えるEslintのFix機能に隠されたアルゴリズムの質問

[[422353]] eslint が修正をサポートしていることはわかっています。--fix パラメ...

...