清華大学がサッカーAIを開発:初めて10人の選手を同時にコントロールして試合を完了し、勝率は94.4%

清華大学がサッカーAIを開発:初めて10人の選手を同時にコントロールして試合を完了し、勝率は94.4%

[[434349]]

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

「4番の選手はチームメイトの協力を得て、素早くディフェンスを突破し、まっすぐに突進してシュートし、ゴールに入った!」

みなさん、こんにちは。今ご覧いただいているのは、Google AIサッカーの試合の様子です。フィールド上で黄色いジャージを着ている選手たちは、清華大学のAI選手たちです。

今年の清華大学AIチームは並外れている。厳しいトレーニングを経て、彼らは優れた個人能力を持つスター選手を擁しているだけでなく、世界で最も強くて最も緊密なチームワークも備えている

彼は無敵であり、多くの国際大会で優勝した。

「ああ、今度は7番がチームメイトからのアシストを受けて最後のシュートを決め、ボールがまたゴールに入った!」

話を元に戻すと、上記は実は清華大学がフットボールゲーム「 TiKick」で作成した強力なマルチエージェント強化学習 AI です。

複数の国際大会で優勝したことは、TiKick がシングルエージェント制御とマルチエージェント制御の両方でSOTAパフォーマンスを達成したことを意味し、サッカーの試合全体を完了するために10 人の選手を同時に制御することも初めて達成しました

この強力な AI チームはどのように訓練されたのでしょうか?

シングルエージェント戦略から進化したマルチエージェントサッカーAI

その前に、トレーニングに使用した強化学習環境である、このサッカー ゲーム、 Google Research Football (GRF) について簡単に見てみましょう。

これは 2019 年に Google によってリリースされたもので、ゲームのすべての主要なルールをサポートする物理ベースの 3D サッカー シミュレーションを提供し、インテリジェント エージェントによって制御される 1 人以上のサッカー選手が、相手チームの組み込み AI と対戦します。

3,000 ステップで構成されるゲームの前半と後半では、インテリジェント エージェントは、ゴールを決めるために、移動、パス、シュート、ドリブル、タックル、スプリントなどの 19 のアクションについて継続的に決定を下す必要があります。

このようなサッカーの試合環境で強化学習を実行するには、2 つの困難があります。

まず、マルチエージェント環境であるため、合計 10 人のプレーヤー (ゴールキーパーを除く) が操作可能であり、アルゴリズムはこのような巨大なアクション空間で適切なアクションの組み合わせを検索する必要があります。

第二に、サッカーの試合ではゴールが非常に少ないことは誰もが知っているので、アルゴリズムが環境から頻繁に報酬を得ることは難しく、トレーニングの難易度が大幅に高まります。

清華大学の今回の目標は、複数のプレイヤーを操作してゲームをクリアすることです。

彼らはまず、2020年にKaggleが開催したGRF世界選手権で最終的に優勝したWeKickチームの数万件のセルフプレイデータを観察し、オフライン強化学習の手法を用いてそこから学習しました。

このトーナメントでは、フィールド上で 1 人のプレイヤーのみを操作して対戦する必要があります。

シングルエージェントデータセットからマルチエージェント戦略を学習するにはどうすればよいでしょうか?

WeKick のシングルエージェント操作を直接学習し、各プレーヤーにコピーすることは明らかにお勧めできません。そうすると、全員がボールをつかんでゴールに急いで向かうだけになり、チームワークがまったくなくなるからです。

バックコートで活動していない選手の行動に関するデータがない場合はどうなりますか?

彼らはアクション セットに 20 番目のアクション「build-in」を追加し、このタグをすべての非アクティブなプレイヤーに付与しました (ゲーム中にプレイヤーのアクションとして build-in が選択された場合、プレイヤーは組み込みのルールに従ってアクションを実行します)。

次に、マルチエージェント行動クローニング (MABC) アルゴリズムを使用してモデルをトレーニングします。

オフライン強化学習の中心的な考え方は、データ内で高品質のアクションを見つけ、これらのアクションの学習を強化することです。

そのため、プレイヤーがアクションとして 1 つのアクションのみを実行する傾向を防ぐために、目的関数を計算するときに各ラベルに異なる重みを与える必要があります。

ここでの重量配分については、次の 2 つの点を考慮する必要があります。

1 つは、データセットからより多くの目標を持つ試合を選択し、これらの高品質のデータのみをトレーニングに使用することです。報酬がより集中的であるため、モデルは収束を加速し、パフォーマンスを向上させることができます。

2 つ目は、すべてのアクションにスコアを付ける Critic ネットワークをトレーニングし、その結果を使用してアドバンテージ関数を計算し、アドバンテージ関数の値が大きいアクションに高い重みを与え、その逆も同様に行うことです。

勾配の爆発と消失を回避するために、ここではアドバンテージ関数が適切にクリップされます。

最終的な分散トレーニング アーキテクチャは、 Learner と複数の Worker で構成されます

学習者は戦略の学習と更新を担当し、ワーカーはデータの収集を担当します。両者は gRPC を介してデータとネットワーク パラメータを交換および共有します。

ワーカーはマルチプロセスを使用して複数のゲーム環境と同時に対話したり、I/O を介してオフライン データを同期的に読み取ったりできます。

この並列実行方法により、データ収集の速度が大幅に向上し、トレーニング速度が向上します(2 日かかる他の分散トレーニング アルゴリズムと同じパフォーマンスを達成するのに 5 時間しかかかりません)。

さらに、モジュール設計により、フレームワークはコードを変更することなくワンクリックでシングルノードデバッグモードとマルチノード分散トレーニングモードを切り替えることができ、アルゴリズムの実装とトレーニングの難易度が大幅に軽減されます

勝率94.4%、1試合平均3ポイント

マルチエージェント (GRF) ゲームにおけるさまざまなアルゴリズムの比較結果では、TiKick の最終アルゴリズム (+AW) が最高の勝率 (94.4%) と最大のゴール差で最高のパフォーマンスを達成しました。

TrueSkill(機械学習による競争ゲームのランキングシステム)も1位を獲得しました。

TiKick は、内蔵 AI との対戦で勝率 94.4%、平均ネットスコア 3 ポイントを達成しました。

GRF アカデミック シナリオで TiKick をベースライン アルゴリズムと比較した結果、すべてのシナリオで TiKick が最高のパフォーマンスと最低のサンプル複雑性を達成し、大きな差があることがわかりました。

ベースラインの MAPPO と比較すると、5 つのシナリオのうち 4 つで、わずか 100 万ステップで最高スコアを達成できることがわかりました。

著者について

第一著者の Huang Shiyu 氏は清華大学の博士課程の学生であり、彼の研究対象はコンピューター ビジョン、強化学習、およびディープラーニングの交差点にあります。彼は、Huawei Noah's Ark Lab、Tencent AI、カーネギーメロン大学、SenseTimeで勤務した経験があります。

[[434352]]

共著者は清華大学の陳文澤氏です。

さらに、著者には、国立国防科学技術大学のLongfei Zhang、Tencent AI LabのLi Ziyang、Zhu Fengming、Ye Deheng、清華大学のChen Tingが含まれます。

責任著者は清華大学の朱軍教授です。

[[434353]]

論文の宛先:
https://arxiv.org/abs/2110.04507

プロジェクトアドレス:
https://github.com/TARTRL/TiKick

参考リンク:
https://zhuanlan.zhihu.com/p/421572915

<<:  クラウド、持続可能性、デジタル導入 - 2022 年のアジア太平洋地域の技術予測

>>:  人工知能と教育の統合が高等教育改革を促進

ブログ    
ブログ    
ブログ    

推薦する

iQIYI機械学習プラットフォーム構築実践

機械学習プラットフォームを構築する以前、iQiyi にはすでに比較的成熟したディープラーニング プラ...

Github のデータサイエンスと機械学習のリポジトリ トップ 10

この記事では、データサイエンスと機械学習の愛好家にとって最も役立つ Github リポジトリをいくつ...

2019年に注目すべき9つのAIトレンド

人工知能は最近テクノロジーの世界で話題になっています。それは人々の生活を変えただけでなく、さまざまな...

グラフニューラルネットワークは CV の未来でしょうか?中国科学院ソフトウェア研究所は、ViTを上回る新しいCVモデルViGをリリースした。

コンピュータービジョンのネットワーク構造は新たな革命を迎えようとしているのでしょうか?畳み込みニュー...

業界関係者が語るウルトラマン解雇:業界にとっては大激震だが、AI開発の全体的な動向には影響しない

米国の人工知能スタートアップOpenAIは11月18日、金曜日に大きな人事異動を発表した。CEOのサ...

2020年のAI目視検査の応用価値

【51CTO.com クイック翻訳】過去 10 年間、製造業者は継続的に利益を向上させるために自動化...

ChatGPTが公式検出ツールを削除、AIテキストは識別できないことを認める

OpenAI は、何の発表もなく、ひっそりと AI テキスト検出ツールをシャットダウンし、ページは直...

...

...

サイバーセキュリティにおける人工知能の応用

1. アプリケーションの背景インターネットの急速な発展と広範な応用により、ネットワーク セキュリティ...

ByteDanceが大規模モデルトレーニングフレームワークveGiantModelをオープンソース化、パフォーマンスが最大6.9倍向上

最近、ByteDanceの応用機械学習チームは、veGiantModelという大規模モデルトレーニン...

市場規模は100億を超え、マシンビジョンはブルーオーシャンの傾向を示す

マシンビジョンとは、人間の目の代わりに機械を使って物事を測定・判断し、その判断結果に基づいて現場の設...

顔認識の60年: EU一般データ保護規則は本当に「史上最も厳しい」ものなのか?

2018 年 5 月に、EU 一般データ保護規則 (GDPR) が正式に施行されました。それ以来、...

450、バックトラッキング アルゴリズムとは何ですか? 一度見れば理解できますが、実際に書いてみると失敗します。

バックトラッキングアルゴリズムとは何ですか? Baidu 百科事典では、バックトラッキング アルゴリ...

コインの端を歩くこともできます!陸上最小のカニ型ロボットが開発され、将来的には低侵襲手術に利用できるようになる。

この「横歩き」マイクロロボットはとってもかわいいです!サイエンス・ロボティクス誌5月号に、サブミリメ...