マイクロソフトの麻雀AI論文が発表され、初めて技術的な詳細が明らかに

マイクロソフトの麻雀AI論文が発表され、初めて技術的な詳細が明らかに

シーン説明: 昨年 8 月に Microsoft がリリースした「Que Shen AI」Suphx を覚えていますか?本日、研究チームは arXiv に最新の論文を公開し、Suphx の背後にある技術をさらに紹介しました。

2019年8月29日、マイクロソフトはSuphx(スーパーフェニックス)と呼ばれる「麻雀AI」をリリースしました。プロの麻雀競技プラットフォームで、Suphxの強さはトップクラスの人間プレイヤーの平均レベルを超えました。

Suphx はリリースされると、人工知能の分野だけでなく、視聴して議論するために集まった多くの麻雀愛好家からも幅広い注目を集めました。

麻雀の情報セットの数と平均サイズは、ブリッジ、テキサスホールデム、囲碁を上回ります。

このシステムは、プロの囲碁プレイヤーを破ったアルファ碁よりも複雑で、「最強の日本麻雀人工知能」と称賛されている。

本日、システムの研究開発チームは、arXiv に「Suphx: 深層強化学習による麻雀の習得」と題した論文を公開し、Suphx の背後にあるテクノロジーについてさらに詳しく説明しています。

Suphx: 深層強化学習で麻雀をマスターする

論文アドレス: https://arxiv.org/pdf/2003.13590.pdf

Suphxはどんどん強くなってきています。彼はプレイヤーの99.99%を超えています。

以前紹介したように、Suphxシステムは深層強化学習を使用して5,000ゲームから経験を学習・吸収し、日本のプロ麻雀競技プラットフォーム「天鳳」で多くの麻雀プレイヤーを打ち負かし、プラットフォーム「徳上方」で最高位の10位を獲得しました。

SuphxのTianfengプラットフォームでのランクは他の麻雀AIよりもはるかに高い

こんなに強力な麻雀AIはどうやって作られたのでしょうか?マイクロソフトリサーチアジア、京都大学、中国科学技術大学、清華大学、南開大学の研究チームが最新版の論文で詳細な紹介を行った。

この論文から、Suphx はさらなる学習によってさらに改善できることもわかりました。 35万人以上のプレイヤーがいる天鵬プラットフォームにおいて、プレイヤーの99.99%以上を上回ったレベルであると公式に評価された。コンピュータープログラムが麻雀でトップクラスの人間のプレイヤーの大半を上回ったのはこれが初めてだ。

5つの主要モデルと強化学習によりQueshen AIが誕生

Suphx には、一連の畳み込みニューラル ネットワークが含まれており、discard モデル、Riichi モデル、chow モデル、Pong モデル、Kong モデルなど、さまざまなシナリオを処理する 5 つのモデルを学習します。

破棄モデル(上)と他の 4 つのモデルのアーキテクチャ(下)

これを基に、Suphx は別のルールベースのモデルを採用し、勝者を宣言して次のラウンドに進むかどうかを決定します。その際、勝利カードが他のプレイヤーが捨てたカードから判断できるか、壁から引いたカードから判断できるかをチェックします。

Suphx のトレーニングプロセスは 3 つのステップに分かれていると報告されています。

まず、5 つのモデルは、Tianfeng プラットフォームから収集されたトップクラスの人間プレイヤーのログを使用してトレーニングされます。

その後、CPU ベースの麻雀シミュレーターと GPU ベースの軌道生成推論エンジンを使用した自己プレイ強化学習を通じてシステムを微調整します。

最後に、オンライン ゲーム中に、ランタイム ポリシー チューニングを使用して現在のラウンドの結果を観察し、システムのパフォーマンスを向上させます。

Suphxの分散強化学習システム

麻雀ゲームでは対戦相手の情報が不明であるため、Suphx は強化学習の効果を高めるために預言者コーチング技術を試しました。セルフゲームトレーニングフェーズでは、非表示の情報を使用してモデルのトレーニング方向をガイドし、AI モデルの可視情報の理解を強化し、効果的な意思決定の根拠を見つけます。

評価: 5760 マッチ、10 記録

実験に先立ち、チームは 44 個の GPU (パラメータ サーバー用の 4 個の Nvidia Titan XP と、自動プレイ プレイヤー用の 40 個の K80 を含む) で 150 万回のハンドを使用して、各モデルを 2 日間トレーニングしました。

チームは 20 個の Nvidia Tesla K80 GPU で Suphx を評価しました。安定したランキングの分散を減らすために、100 万以上の麻雀ゲームのデータセットから 80 万の麻雀ゲームデータをランダムに選択し、そこから 1,000 回のサンプリングを実行しました。

評価の結果、Suphxは「天風」プラットフォーム上で人間のプレイヤーと5,760回以上の対局を行った後、10部門の記録を樹立した。このレベルに到達したプレイヤーはこれまでに180人程度しかいない。 Suphx の安定したランキングは 8.74 です (人間のプレイヤーの最高レベルは 7.4)。

強化学習エージェントの最終安定ランキング統計

継続的な最適化により、RL-2は最終的に優れたパフォーマンスを達成しました。

興味深いことに、研究者らは、Suphx の防御は「非常に強力」で、ハンドを譲る可能性が低い (10.06%) と述べ、カードを安全に保ち、ハーフデュースで勝つことを可能にする独自のプレイスタイルを開発したとしている。

AIプレイヤー(南)は保守的にプレイすることを選択する

バスケットの中の6本のポールはすでにテーブルの上にあるので諦める

さらに、論文の共著者らは、金融市場の予測や物流の最適化など、現実世界の問題のほとんどは麻雀と共通する特徴を持っていると書いている。たとえば、複雑な操作/報酬ルール、不完全情報の問題など。

著者は、Suphx で設計された、全体的な報酬予測、予言者のガイダンス、ポリシー調整などの麻雀テクノロジーは大きな可能性を秘めており、将来的には現実世界で広く使用され、現実的で複雑な実用的な問題の解決に役立つと考えています。

[[320921]]

これを見た後、試してみたくなりましたか?天鳳麻雀バトルプラットフォーム:https://tenhou.net/、一緒にゲームをしましょう!

<<:  産業インテリジェンスは「新しいインフラ」の下で非常に人気がありますが、まだ多くの問題があります

>>:  特徴エンジニアリングとは何ですか?なぜ自動化が必要なのでしょうか?

ブログ    
ブログ    

推薦する

データ、アルゴリズム、処理は人工知能にとって不可欠である

[[276859]]人工知能プロジェクトにおいて、最も重要なのはデータ、アルゴリズム、プロセスのうち...

Google Cloud の共有: AI を活用して企業価値を生み出す方法

今月、Google Cloud は、顧客やパートナーと人工知能の最新の進歩について議論するエグゼクテ...

Apple: 画像モデルの事前トレーニングに言語モデルの自己回帰アプローチを使用する

1. 背景GPTなどの大規模モデルの登場後、言語モデルのTransformer +自己回帰モデリング...

...

ニューラルネットワークの層とノードの数を設定する方法

[51CTO.com クイック翻訳] 人工ニューラル ネットワークには、ネットワークのアーキテクチャ...

ディズニーは強化学習を利用して新しいロボットをスターウォーズ風に仕上げた

ディズニーの新しいロボットがデビュー!では早速、どんな感じか見てみましょう——大きく輝く目、揺れる頭...

AI 導入を迅速に進める 5 つの方法

重要な実現技術である AI の急速な成功により、より広範なデジタル変革とイノベーションの取り組みへの...

小井ロボットの華蔵エコシステムの出現は、大型モデルの商業化の始まりを示しています

10月26日、「人工知能分野での中国初の上場企業」であるXiaoi RobotがHuazang Un...

AI/MLを使用してテクノロジースタックを最適化し、ビジネス効率を向上させる方法

業界メディアとのインタビューで、レノボ グループのサービスおよびソリューション グループのシニア バ...

...

...

CCTV:AI修復により、生産ラインから出荷された国産車の最初のバッチを再現

IT Homeは7月4日、解放CA10トラックが1956年7月に生産ラインから出荷されたと報じた。こ...

ホットトピックのクイックレビュー:ドイツはシステムと技術の複数回の並行開発でAI戦略を強化

世界を見渡すと、各国の社会進歩、産業グレードアップ、国防建設などにおける科学技術の価値がますます明ら...

7兆のブルーオーシャンが呼んでいる、ケータリングロボットの商業利用を加速させるには?

「機械が人に代わる」という無人化とインテリジェント化の潮流は、伝統的な飲食業界のあらゆる分野に広が...