マイクロソフトの麻雀AI論文が発表され、初めて技術的な詳細が明らかに

マイクロソフトの麻雀AI論文が発表され、初めて技術的な詳細が明らかに

シーン説明: 昨年 8 月に Microsoft がリリースした「Que Shen AI」Suphx を覚えていますか?本日、研究チームは arXiv に最新の論文を公開し、Suphx の背後にある技術をさらに紹介しました。

2019年8月29日、マイクロソフトはSuphx(スーパーフェニックス)と呼ばれる「麻雀AI」をリリースしました。プロの麻雀競技プラットフォームで、Suphxの強さはトップクラスの人間プレイヤーの平均レベルを超えました。

Suphx はリリースされると、人工知能の分野だけでなく、視聴して議論するために集まった多くの麻雀愛好家からも幅広い注目を集めました。

麻雀の情報セットの数と平均サイズは、ブリッジ、テキサスホールデム、囲碁を上回ります。

このシステムは、プロの囲碁プレイヤーを破ったアルファ碁よりも複雑で、「最強の日本麻雀人工知能」と称賛されている。

本日、システムの研究開発チームは、arXiv に「Suphx: 深層強化学習による麻雀の習得」と題した論文を公開し、Suphx の背後にあるテクノロジーについてさらに詳しく説明しています。

Suphx: 深層強化学習で麻雀をマスターする

論文アドレス: https://arxiv.org/pdf/2003.13590.pdf

Suphxはどんどん強くなってきています。彼はプレイヤーの99.99%を超えています。

以前紹介したように、Suphxシステムは深層強化学習を使用して5,000ゲームから経験を学習・吸収し、日本のプロ麻雀競技プラットフォーム「天鳳」で多くの麻雀プレイヤーを打ち負かし、プラットフォーム「徳上方」で最高位の10位を獲得しました。

SuphxのTianfengプラットフォームでのランクは他の麻雀AIよりもはるかに高い

こんなに強力な麻雀AIはどうやって作られたのでしょうか?マイクロソフトリサーチアジア、京都大学、中国科学技術大学、清華大学、南開大学の研究チームが最新版の論文で詳細な紹介を行った。

この論文から、Suphx はさらなる学習によってさらに改善できることもわかりました。 35万人以上のプレイヤーがいる天鵬プラットフォームにおいて、プレイヤーの99.99%以上を上回ったレベルであると公式に評価された。コンピュータープログラムが麻雀でトップクラスの人間のプレイヤーの大半を上回ったのはこれが初めてだ。

5つの主要モデルと強化学習によりQueshen AIが誕生

Suphx には、一連の畳み込みニューラル ネットワークが含まれており、discard モデル、Riichi モデル、chow モデル、Pong モデル、Kong モデルなど、さまざまなシナリオを処理する 5 つのモデルを学習します。

破棄モデル(上)と他の 4 つのモデルのアーキテクチャ(下)

これを基に、Suphx は別のルールベースのモデルを採用し、勝者を宣言して次のラウンドに進むかどうかを決定します。その際、勝利カードが他のプレイヤーが捨てたカードから判断できるか、壁から引いたカードから判断できるかをチェックします。

Suphx のトレーニングプロセスは 3 つのステップに分かれていると報告されています。

まず、5 つのモデルは、Tianfeng プラットフォームから収集されたトップクラスの人間プレイヤーのログを使用してトレーニングされます。

その後、CPU ベースの麻雀シミュレーターと GPU ベースの軌道生成推論エンジンを使用した自己プレイ強化学習を通じてシステムを微調整します。

最後に、オンライン ゲーム中に、ランタイム ポリシー チューニングを使用して現在のラウンドの結果を観察し、システムのパフォーマンスを向上させます。

Suphxの分散強化学習システム

麻雀ゲームでは対戦相手の情報が不明であるため、Suphx は強化学習の効果を高めるために預言者コーチング技術を試しました。セルフゲームトレーニングフェーズでは、非表示の情報を使用してモデルのトレーニング方向をガイドし、AI モデルの可視情報の理解を強化し、効果的な意思決定の根拠を見つけます。

評価: 5760 マッチ、10 記録

実験に先立ち、チームは 44 個の GPU (パラメータ サーバー用の 4 個の Nvidia Titan XP と、自動プレイ プレイヤー用の 40 個の K80 を含む) で 150 万回のハンドを使用して、各モデルを 2 日間トレーニングしました。

チームは 20 個の Nvidia Tesla K80 GPU で Suphx を評価しました。安定したランキングの分散を減らすために、100 万以上の麻雀ゲームのデータセットから 80 万の麻雀ゲームデータをランダムに選択し、そこから 1,000 回のサンプリングを実行しました。

評価の結果、Suphxは「天風」プラットフォーム上で人間のプレイヤーと5,760回以上の対局を行った後、10部門の記録を樹立した。このレベルに到達したプレイヤーはこれまでに180人程度しかいない。 Suphx の安定したランキングは 8.74 です (人間のプレイヤーの最高レベルは 7.4)。

強化学習エージェントの最終安定ランキング統計

継続的な最適化により、RL-2は最終的に優れたパフォーマンスを達成しました。

興味深いことに、研究者らは、Suphx の防御は「非常に強力」で、ハンドを譲る可能性が低い (10.06%) と述べ、カードを安全に保ち、ハーフデュースで勝つことを可能にする独自のプレイスタイルを開発したとしている。

AIプレイヤー(南)は保守的にプレイすることを選択する

バスケットの中の6本のポールはすでにテーブルの上にあるので諦める

さらに、論文の共著者らは、金融市場の予測や物流の最適化など、現実世界の問題のほとんどは麻雀と共通する特徴を持っていると書いている。たとえば、複雑な操作/報酬ルール、不完全情報の問題など。

著者は、Suphx で設計された、全体的な報酬予測、予言者のガイダンス、ポリシー調整などの麻雀テクノロジーは大きな可能性を秘めており、将来的には現実世界で広く使用され、現実的で複雑な実用的な問題の解決に役立つと考えています。

[[320921]]

これを見た後、試してみたくなりましたか?天鳳麻雀バトルプラットフォーム:https://tenhou.net/、一緒にゲームをしましょう!

<<:  産業インテリジェンスは「新しいインフラ」の下で非常に人気がありますが、まだ多くの問題があります

>>:  特徴エンジニアリングとは何ですか?なぜ自動化が必要なのでしょうか?

ブログ    
ブログ    
ブログ    

推薦する

アマゾン ウェブ サービスが中国で新たな機械学習サービスを開始

[51CTO.com からのオリジナル記事]現在、ますます多くの企業が機械学習や人工知能に多額の資金...

Tech Neo 9月号:アルゴリズムに基づくIT運用・保守

51CTO.com+プラットフォームは、オリジナルの技術コンテンツの選択と絶妙なレイアウトを通じて、...

...

AI教育はライト兄弟の飛行実験のようなものです。夢は実現しますが、時間がかかるだけです。

ジェニファー・ターナーの代数学の授業はかつてとても眠くて、多くの生徒が眠気を催していた。現在、教育を...

Python とディープニューラルネットワークを使用して画像を認識する方法は?

[[219378]]見れば分かります。わずか 12 行の Python コードで、独自のマシン ビ...

...

ワールドカップはスコア予測にAIを使用。今回はスイスの銀行を信頼できるか?

ワールドカップが本格的に開幕し、大手データおよび人工知能技術組織もワールドカップの予想に参加している...

推論速度は22.3倍に向上。北京航空航天大学とバイトダンスはバイナリキーワード認識モデルを提案した。

近年、FSMN に代表される音声キーワードスポッティング (KWS) モデルは、さまざまなエッジ シ...

2021年に自動運転はどのように発展するのでしょうか?

EEtimesより翻訳2021年に自動運転車はどうなるでしょうか。自動運転業界の昨年の業績は平凡で...

南京大学人工知能学院が人材募集開始:年俸は40万元から

3月6日、南京大学は人工知能学院の正式な設立を発表した。一流の人工知能基礎研究拠点と人材育成拠点の構...

人工知能は、企業がエンドツーエンドのインテリジェントな自動化を実現することを促進します。

[[401604]]新型コロナウイルスによる混乱に対応するため、組織が急いでビジネスプロセスを適応...

科学サブ出版物:人間の脳は加速学習メカニズムを備えており、その計算能力は最新のAIアルゴリズムを上回っている

[[323595]]機械学習とディープラーニングのアルゴリズムは、脳内のニューロンを結びつけるシナプ...

大規模機械学習の台頭と「ゼロトラスト」アーキテクチャの出現、2021年の9つの主要な技術トレンド

[[373625]]このほど、デロイト マネジメント コンサルティングは「2021 年テクノロジー ...

インテリジェントな人間と機械のインタラクションがデジタルサービスを新たなレベルに引き上げます

2020年という「長い」年が、あっという間に終わりを迎えようとしています。この時期を振り返ると、長い...