強化学習 AI は 1 対 5 の戦いに役立ちますか? MITの新研究:AIは人間にとって最高のチームメイトではない

強化学習 AI は 1 対 5 の戦いに役立ちますか? MITの新研究:AIは人間にとって最高のチームメイトではない

[[433351]]

強化学習AIは囲碁、スタークラフト、王者栄耀などのゲームで絶対的な優位性を持って人間のプレイヤーを圧倒し、シミュレーションを通じて思考能力が獲得できることも証明しました。

しかし、そのような強力な AI がチームメイトになった場合、それを率いることができますか?

MIT リンカーン研究所の研究者によるカードゲーム「Hanabi」における人間と AI エージェントのコラボレーションに関する最近の研究では、RL エージェントは個別には優れたパフォーマンスを発揮できるものの、人間のプレイヤーとペアになるとまったくダメになってしまうことが示されています。

ベストチームメイト">

出典:http://arxiv.org/pdf/2107.07630.pdf

Hanabi は、勝つためにプレイヤー同士がコミュニケーションを取り、協力し合う必要があるゲームです。このゲームでは、人間のプレイヤーはブラックボックスのニューラル ネットワーク モデルよりも、予測可能なルールベースの AI システムを好みます。

ベストチームメイト">

一般的に、最先端のゲームロボットは、深層強化学習と呼ばれるアルゴリズムを使用します。まず、ゲーム内にエージェントと一連の候補アクションが提供され、環境からのフィードバック メカニズムを通じて学習が行われます。トレーニング プロセスでは、目標を最大化し、最適なアクション シーケンスを取得するために、ランダムな探索アクションも使用されます。

深層強化学習の初期の研究では、学習のために人間のプレイヤーが提供するゲームデータに依存していました。最近、研究者は人間のデータを使わずに、純粋に自己プレイに基づいた RL エージェントを開発できるようになりました。

MIT リンカーン研究所の研究者たちは、このような強力な AI をチームメイトにする方法にもっと関心を持っています。この研究により、強化学習の応用がビデオゲームに限定されず、現実世界のアプリケーションに拡張できない理由をさらに理解できるようになります。

ベストチームメイト">

最近の強化学習研究は、AI の主な対戦相手が人間のプレイヤーや他の AI ロボットであるシングルプレイヤー ゲーム (Atari Breakout) または対戦ゲーム (StarCraft、Go) に適用されています。

これらの対決​​では、強化学習が前例のない成功を収めました。ロボットはこれらのゲームに関して先入観や想定を持たず、代わりにゼロからゲームのプレイ方法を学び、最高のプレイヤーからのデータでトレーニングされているからです。

実際、AI がゲームの遊び方を学習すると、独自のテクニックもいくつか作成するようになります。有名な例の一つは、DeepMind 社の AlphaGo がゲーム中に、人間の専門家の直感に反する動きをしたため、当時のアナリストがミスだと考えたことです。

しかし、同じ行動が異なる結果をもたらし、AIは最終的にこの動きで人間を打ち負かすことに成功しました。そのため、RL エージェントが人間と協力する場合、同じ知性が発揮される可能性があると研究者は考えています。

[[433353]]ベストチームメイト">

MITの研究者らは、2人から5人のプレイヤーが協力して特定の順番でカードをプレイするカードゲーム「Hanabi」を実験に選んだ。花火はシンプルですが、協力と限られた情報を必要とするゲームでもあります。

花火ゲームは 2010 年に発明され、2 人から 5 人のプレイヤーが 5 枚の異なる色のカードを正しい順序で一緒にプレイしてプレイします。ゲームの特徴: すべてのプレイヤーは互いのカードを見ることができますが、自分のカードを見ることはできません。

ゲームのルールによれば、プレイヤーはお互いのカード(ただしカードの色または番号のみ)をヒントにして、他のプレイヤーがどのカードをプレイすべきかを推測できるようにすることができますが、ヒントの数には制限があります。

この効率的なコミュニケーション行為こそが、花火に科学的な魅力を与えているのです。たとえば、人間はどのカードがプレイ可能かについての他のプレイヤーのヒントを自然に理解できますが、機械は本質的にこれらのヒントを理解することができません。

これまでのところ、AI プログラムは Hanabi ゲームをプレイして高得点を達成することができていますが、それは他の同様に知能の高いロボットとプレイしている場合に限られます。プログラムが最も困難で現実に近い状況になるのは、他のプレイヤーのプレイ スタイルに馴染みがない場合や、「カジュアル」(一緒にプレイしたことがない) プレイヤーがいる場合です。

近年、いくつかの研究チームがHanabiをプレイできるAIボットの開発を検討しており、その中には強化学習エージェントを使用したシンボリックAIを使用しているものもあります。

AI は主に、セルフプレイ (自分自身とプレイ)、クロスプレイ (他のタイプのエージェントとプレイ)、ヒューマンプレイ (人間と協力) などのパフォーマンスによって評価されます。

ベストチームメイト">

人間のプレイヤーとのクロスプレイは、人間と機械の協力関係を測定する上で特に重要であり、論文の実験の基礎にもなっています。

AIコラボレーションの有効性を調べるために、研究者らはルールベースのセルフプレイAIシステムであるSmartBotと、ゲームやRLアルゴリズム全体で最高ランクを獲得したOther-PlayロボットであるHanabiを使用しました。

実験では、人間の参加者がAIエージェントとHanabiゲームを数回プレイしました。毎回チームメイトのAIは異なり、実験者はどのモデルでプレイしているかわかりませんでした。

研究者たちは、客観的な指標と主観的な指標の両方に基づいて、人間と AI の連携のレベルを評価しました。客観的な指標には、スコア、エラー率などが含まれます。主観的な指標には、AI チーム メンバーに対する信頼度や快適度などの人間のプレイヤーの経験、AI の動機を理解してその行動を予測する能力が含まれます。

2 つの AI モデルの客観的なパフォーマンスには大きな差はありませんでした。しかし研究者たちは、人間のプレイヤーは他のプレイヤーと協力するように訓練されているため、Other-Play でより肯定的な主観的体験をするだろうと予想した。

参加者への調査によると、経験豊富なHanabiプレイヤーは、ルールベースのSmartBot Agentよりも他のゲームRLアルゴリズムの経験が少なく、成功の鍵は他のプレイヤーにカモフラージュの手がかりを提供するスキルでした。

たとえば、「1 キューブ」カードがテーブルに置かれ、チームメイトが 2 つのキューブを手に持っているとします。カードを指差して「これは 2 です」または「これは 4 です」と言うと、カードに関する情報をすべて伝えずに、チームメイトにこのカードをプレイするように密かに伝えていることになります。経験豊富なプレイヤーはすぐにこのヒントを理解するでしょう。しかし、同じ種類の情報を AI チームメイトに提供することは、はるかに困難であることが判明しました。

ある参加者は「チームメイトに非常に分かりやすいヒントを与えたが、全く効果がなかった。理由は分からない」と語った。

興味深い現実は、他者プレイでは「秘密の」慣習を作ることを避けており、自己プレイを実行するときに開発されたこれらの事前に決定されたルールに従うだけであるということです。これにより、AI アルゴリズムがトレーニング プログラムの一部ではなかったとしても、Other-play は他の AI アルゴリズムにとって最適なチームメイトになります。しかし研究者たちは、これは彼がトレーニング中に遭遇するであろうチームメイトのタイプについてすでに想定していたためだと考えている。

Other-play では、チームメイトもゼロショット調整に最適化されていることを前提としていることに留意してください。対照的に、人間の Hanabi プレイヤーは通常、この仮定を使用して学習しません。

試合前の定期的なセットアップと試合後のレビューは、人間のHanabiプレイヤーの間では一般的な習慣であり、人間が少数ショットの調整能力を習得することが容易になります。

研究者らは、今回の研究結果は、AIの客観的なタスクパフォ​​ーマンス(セルフプレイとクロスプレイ)が、他のAIモデルと連携する際の人間の信頼や好みとは無関係である可能性があることを示唆していると述べた。

ここで疑問が浮かび上がります。どの客観的指標が主観的な人間の好みと相関するのか?

[[433354]]ベストチームメイト">

RL ベースのエージェントをトレーニングするには膨大な量のデータが必要であるため、ループ内で人間をトレーニングすることは現実的ではありません。したがって、人間の協力者に受け入れられ、評価される AI エージェントをトレーニングしたい場合は、人間の好みに代わる、または人間の好みと密接に相関するトレーニング可能な目的関数を見つける必要があります。

同時に、研究者らは、Hanabi 実験の結果を、テストできなかった他の環境、ゲーム、またはドメインに外挿することに対して警告した。

この論文では、実験にはいくつかの限界があることも認めており、研究者らはこれに対処するために取り組んでいる。たとえば、被験者プールは小規模(参加者はわずか 29 名)で、Hanabi に精通した人々に偏っていました。つまり、彼らは AI チーム メンバーの行動方法について事前に定義された期待を持っており、RL エージェントとの否定的な経験をした可能性が高いということです。

しかし、この発見は将来の強化学習研究にとって重要な意味を持ちます。

最先端の RL エージェントが、制限された狭い範囲のゲームでは許容できる協力者になることさえできないのであれば、同じ RL 技術が、より複雑で微妙で重大なゲームや現実世界の状況に適用された場合にも、同様に有用であると期待すべきです。

強化学習については、技術コミュニティと学術コミュニティの両方で多くの議論が行われていますが、それは当然のことです。研究結果によると、RL システムの優れたパフォーマンスは、すべての可能なアプリケーションで同様に高いパフォーマンスが保証されるものではないことが示唆されています。

学習エージェントが複雑な人間とロボットの相互作用などの状況で効果的な協力者となるためには、さらなる理論的および応用的な研究が必要です。

<<:  人工知能は意識を発達させることができるか?人間の心をシミュレートすることがAIの究極の目標である

>>:  ヘルスケアにおける人工知能

ブログ    

推薦する

AIロボットが2025年までにクラウドデータセンターの半分を占める可能性

[[437396]]コネチカット州スタンフォード — 新しいレポートによると、人工知能 (AI) を...

アダムはまた「引退」するのでしょうか?イェール大学のチームがAdaBeliefを提案

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

モデルの一般化にはSGDに匹敵するフルバッチGDのランダムトレーニングは必要ない、ネットユーザー:計算コストは​​手頃ではない

[[431688]]最近、機械学習モデルは、モデルパラメータが増えながらも一般化性能が良好な大規模モ...

Alibaba DAMO Academyは、勾配を直接ターゲットとし、既存のオプティマイザーを1行のコードで置き換えることができる新しい最適化手法を提案しています。

最適化テクニックはたくさんあります!たとえば、バッチ正規化、重み標準化などです。しかし、既存の最適化...

音声認識データベースが人工知能の中核となる

音声認識データベースと音声合成データベースは、人工知能の重要な技術です。機械が人間のように聞き、話し...

Facebookはライブ動画でユーザーを見えなくする匿名化システムを開発した

最近、ノルウェー科学技術大学の「DeepPrivacy: 顔の匿名化のための生成的敵対的ネットワーク...

ロボットと触覚センシング技術の衝突、人間とロボットの触覚センシングを初めて探る記事

触覚は人間が相互作用を調整する主な方法の 1 つです。触覚を通じて知覚される触覚は、人間が物体の大き...

財務報告分析:マイクロソフトの生成AIへの賭けは成功したが、グーグルは依然として苦戦中

マイクロソフトとグーグルが財務報告を発表したが、一方は喜び、他方は悲しんだ。 AIへの大胆な賭けのお...

...

「有害な」データを食べると、大きなモデルはより従順になります。 HKUSTとHuaweiのノアの箱舟ラボより

今では、このビッグモデルもその失敗から学んでいます。香港科技大学とファーウェイ・ノアの箱舟研究所によ...

...

機械学習は将来どこに向かうのでしょうか?インテル・南京大学共同研究センターが答えを提供する

[51CTO.com からのオリジナル記事] 人工知能アルゴリズムに関しては、ディープラーニングが現...

人間の世界チャンピオン3人を破り、ネイチャー誌の表紙に登場! AIドローンエクストリームレースが自動運転の新時代を切り開く

チェスや事務作業、ゲームなどの知的活動において人間が AI に圧倒されていることはもはやニュースでは...

人工知能技術が人の流れにおける個々の感染リスクを迅速に特定し、同済は伝染病予防・制御識別システムを開発

[[315277]]校門に設置されたカメラの前に立つと、システムは顔認識技術と現場での体温検知を組み...