強化学習 AI は 1 対 5 の戦いに役立ちますか? MITの新研究：AIは人間にとって最高のチームメイトではない

[[433351]]

強化学習AIは囲碁、スタークラフト、王者栄耀などのゲームで絶対的な優位性を持って人間のプレイヤーを圧倒し、シミュレーションを通じて思考能力が獲得できることも証明しました。

しかし、そのような強力な AI がチームメイトになった場合、それを率いることができますか?

MIT リンカーン研究所の研究者によるカードゲーム「Hanabi」における人間と AI エージェントのコラボレーションに関する最近の研究では、RL エージェントは個別には優れたパフォーマンスを発揮できるものの、人間のプレイヤーとペアになるとまったくダメになってしまうことが示されています。

ベストチームメイト">

出典：http://arxiv.org/pdf/2107.07630.pdf

Hanabi は、勝つためにプレイヤー同士がコミュニケーションを取り、協力し合う必要があるゲームです。このゲームでは、人間のプレイヤーはブラックボックスのニューラルネットワークモデルよりも、予測可能なルールベースの AI システムを好みます。

ベストチームメイト">

一般的に、最先端のゲームロボットは、深層強化学習と呼ばれるアルゴリズムを使用します。まず、ゲーム内にエージェントと一連の候補アクションが提供され、環境からのフィードバックメカニズムを通じて学習が行われます。トレーニングプロセスでは、目標を最大化し、最適なアクションシーケンスを取得するために、ランダムな探索アクションも使用されます。

深層強化学習の初期の研究では、学習のために人間のプレイヤーが提供するゲームデータに依存していました。最近、研究者は人間のデータを使わずに、純粋に自己プレイに基づいた RL エージェントを開発できるようになりました。

MIT リンカーン研究所の研究者たちは、このような強力な AI をチームメイトにする方法にもっと関心を持っています。この研究により、強化学習の応用がビデオゲームに限定されず、現実世界のアプリケーションに拡張できない理由をさらに理解できるようになります。

ベストチームメイト">

最近の強化学習研究は、AI の主な対戦相手が人間のプレイヤーや他の AI ロボットであるシングルプレイヤーゲーム (Atari Breakout) または対戦ゲーム (StarCraft、Go) に適用されています。

これらの対決では、強化学習が前例のない成功を収めました。ロボットはこれらのゲームに関して先入観や想定を持たず、代わりにゼロからゲームのプレイ方法を学び、最高のプレイヤーからのデータでトレーニングされているからです。

実際、AI がゲームの遊び方を学習すると、独自のテクニックもいくつか作成するようになります。有名な例の一つは、DeepMind 社の AlphaGo がゲーム中に、人間の専門家の直感に反する動きをしたため、当時のアナリストがミスだと考えたことです。

しかし、同じ行動が異なる結果をもたらし、AIは最終的にこの動きで人間を打ち負かすことに成功しました。そのため、RL エージェントが人間と協力する場合、同じ知性が発揮される可能性があると研究者は考えています。

ベストチームメイト">

MITの研究者らは、2人から5人のプレイヤーが協力して特定の順番でカードをプレイするカードゲーム「Hanabi」を実験に選んだ。花火はシンプルですが、協力と限られた情報を必要とするゲームでもあります。

花火ゲームは 2010 年に発明され、2 人から 5 人のプレイヤーが 5 枚の異なる色のカードを正しい順序で一緒にプレイしてプレイします。ゲームの特徴: すべてのプレイヤーは互いのカードを見ることができますが、自分のカードを見ることはできません。

ゲームのルールによれば、プレイヤーはお互いのカード（ただしカードの色または番号のみ）をヒントにして、他のプレイヤーがどのカードをプレイすべきかを推測できるようにすることができますが、ヒントの数には制限があります。

この効率的なコミュニケーション行為こそが、花火に科学的な魅力を与えているのです。たとえば、人間はどのカードがプレイ可能かについての他のプレイヤーのヒントを自然に理解できますが、機械は本質的にこれらのヒントを理解することができません。

これまでのところ、AI プログラムは Hanabi ゲームをプレイして高得点を達成することができていますが、それは他の同様に知能の高いロボットとプレイしている場合に限られます。プログラムが最も困難で現実に近い状況になるのは、他のプレイヤーのプレイスタイルに馴染みがない場合や、「カジュアル」(一緒にプレイしたことがない) プレイヤーがいる場合です。

近年、いくつかの研究チームがHanabiをプレイできるAIボットの開発を検討しており、その中には強化学習エージェントを使用したシンボリックAIを使用しているものもあります。

AI は主に、セルフプレイ (自分自身とプレイ)、クロスプレイ (他のタイプのエージェントとプレイ)、ヒューマンプレイ (人間と協力) などのパフォーマンスによって評価されます。

ベストチームメイト">

人間のプレイヤーとのクロスプレイは、人間と機械の協力関係を測定する上で特に重要であり、論文の実験の基礎にもなっています。

AIコラボレーションの有効性を調べるために、研究者らはルールベースのセルフプレイAIシステムであるSmartBotと、ゲームやRLアルゴリズム全体で最高ランクを獲得したOther-PlayロボットであるHanabiを使用しました。

実験では、人間の参加者がAIエージェントとHanabiゲームを数回プレイしました。毎回チームメイトのAIは異なり、実験者はどのモデルでプレイしているかわかりませんでした。

研究者たちは、客観的な指標と主観的な指標の両方に基づいて、人間と AI の連携のレベルを評価しました。客観的な指標には、スコア、エラー率などが含まれます。主観的な指標には、AI チームメンバーに対する信頼度や快適度などの人間のプレイヤーの経験、AI の動機を理解してその行動を予測する能力が含まれます。

2 つの AI モデルの客観的なパフォーマンスには大きな差はありませんでした。しかし研究者たちは、人間のプレイヤーは他のプレイヤーと協力するように訓練されているため、Other-Play でより肯定的な主観的体験をするだろうと予想した。

参加者への調査によると、経験豊富なHanabiプレイヤーは、ルールベースのSmartBot Agentよりも他のゲームRLアルゴリズムの経験が少なく、成功の鍵は他のプレイヤーにカモフラージュの手がかりを提供するスキルでした。

たとえば、「1 キューブ」カードがテーブルに置かれ、チームメイトが 2 つのキューブを手に持っているとします。カードを指差して「これは 2 です」または「これは 4 です」と言うと、カードに関する情報をすべて伝えずに、チームメイトにこのカードをプレイするように密かに伝えていることになります。経験豊富なプレイヤーはすぐにこのヒントを理解するでしょう。しかし、同じ種類の情報を AI チームメイトに提供することは、はるかに困難であることが判明しました。

ある参加者は「チームメイトに非常に分かりやすいヒントを与えたが、全く効果がなかった。理由は分からない」と語った。

興味深い現実は、他者プレイでは「秘密の」慣習を作ることを避けており、自己プレイを実行するときに開発されたこれらの事前に決定されたルールに従うだけであるということです。これにより、AI アルゴリズムがトレーニングプログラムの一部ではなかったとしても、Other-play は他の AI アルゴリズムにとって最適なチームメイトになります。しかし研究者たちは、これは彼がトレーニング中に遭遇するであろうチームメイトのタイプについてすでに想定していたためだと考えている。

Other-play では、チームメイトもゼロショット調整に最適化されていることを前提としていることに留意してください。対照的に、人間の Hanabi プレイヤーは通常、この仮定を使用して学習しません。

試合前の定期的なセットアップと試合後のレビューは、人間のHanabiプレイヤーの間では一般的な習慣であり、人間が少数ショットの調整能力を習得することが容易になります。

研究者らは、今回の研究結果は、AIの客観的なタスクパフォーマンス（セルフプレイとクロスプレイ）が、他のAIモデルと連携する際の人間の信頼や好みとは無関係である可能性があることを示唆していると述べた。

ここで疑問が浮かび上がります。どの客観的指標が主観的な人間の好みと相関するのか?

ベストチームメイト">

RL ベースのエージェントをトレーニングするには膨大な量のデータが必要であるため、ループ内で人間をトレーニングすることは現実的ではありません。したがって、人間の協力者に受け入れられ、評価される AI エージェントをトレーニングしたい場合は、人間の好みに代わる、または人間の好みと密接に相関するトレーニング可能な目的関数を見つける必要があります。

同時に、研究者らは、Hanabi 実験の結果を、テストできなかった他の環境、ゲーム、またはドメインに外挿することに対して警告した。

この論文では、実験にはいくつかの限界があることも認めており、研究者らはこれに対処するために取り組んでいる。たとえば、被験者プールは小規模（参加者はわずか 29 名）で、Hanabi に精通した人々に偏っていました。つまり、彼らは AI チームメンバーの行動方法について事前に定義された期待を持っており、RL エージェントとの否定的な経験をした可能性が高いということです。

しかし、この発見は将来の強化学習研究にとって重要な意味を持ちます。

最先端の RL エージェントが、制限された狭い範囲のゲームでは許容できる協力者になることさえできないのであれば、同じ RL 技術が、より複雑で微妙で重大なゲームや現実世界の状況に適用された場合にも、同様に有用であると期待すべきです。

強化学習については、技術コミュニティと学術コミュニティの両方で多くの議論が行われていますが、それは当然のことです。研究結果によると、RL システムの優れたパフォーマンスは、すべての可能なアプリケーションで同様に高いパフォーマンスが保証されるものではないことが示唆されています。

学習エージェントが複雑な人間とロボットの相互作用などの状況で効果的な協力者となるためには、さらなる理論的および応用的な研究が必要です。

<<: 人工知能は意識を発達させることができるか？人間の心をシミュレートすることがAIの究極の目標である

>>: ヘルスケアにおける人工知能

強化学習 AI は 1 対 5 の戦いに役立ちますか? MITの新研究：AIは人間にとって最高のチームメイトではない

警告！ AIによる偽動画で顔認証を騙し、銀行口座開設が可能になる可能性

住宅価格予測のための機械学習

千年紀の文化遺産の碑文を解読するAIの能力は人間より30％高い

IDC: 生成型AIへの世界的な支出は2027年に1,430億ドルに達する

MIT スタンフォードトランスフォーマーの最新研究: 過剰トレーニングにより、中程度のモデルが構造一般化能力を「発現」できるようになる

AI 開発の加速: 企業はどのように MLOps を使用して生産効率を向上できるでしょうか?

GPT-4は本当に愚かになったことが研究で証明される：数学的能力は3か月で劇的に低下し、コーディング能力も低下した

Vision Pro が 50 億ドルで売却され、ザッカーバーグは大喜び! Metaは500億ドルを燃やし、VR復活の希望がここにある

予測トークンの速度が2倍になりました！ Transformerの新しいデコードアルゴリズムは人気がある、Alpacaチームより

推薦する

Alibabaオープンソース！軽量ディープラーニングエッジ推論エンジンMNN

速報です！李菲菲の一番弟子カルパシーが辞任、テスラの自動運転は危機に瀕しているのか？

チンチラの死: 十分に訓練すれば小型モデルでも大型モデルを上回る性能を発揮できる

スイッチング技術を使用した負荷分散アルゴリズム

Nature のサブ出版物: 新しいアルゴリズムは、米国の 8 つの都市で 90% の精度で、1 週間前に 2 ブロック以内の犯罪を予測できます。

アリババが自社開発のAIクラスターの詳細を発表：64基のGPU、数百万のカテゴリーのトレーニングを4倍高速化

Gemini ProはGPT-3.5ほど優れていません。CMUは徹底的な比較研究を実施し、公平性、透明性、再現性を確保しています。

Protobufを勉強していたら、良いアルゴリズムを見つけました - ZigZag

IoTとAIの相乗効果：ビジネスの未来に革命を起こす

AIを新たな段階へ導くYLearn因果学習オープンソースプロジェクトがリリース

Nature の調査: AI が「必需品」になったと考える科学者はわずか 4%

経験を要約し、進化を続け、インテリジェントエージェントのパラメータを最適化するコストを削減できます。