強化学習 AI は 1 対 5 の戦いに役立ちますか? MITの新研究:AIは人間にとって最高のチームメイトではない

強化学習 AI は 1 対 5 の戦いに役立ちますか? MITの新研究:AIは人間にとって最高のチームメイトではない

[[433351]]

強化学習AIは囲碁、スタークラフト、王者栄耀などのゲームで絶対的な優位性を持って人間のプレイヤーを圧倒し、シミュレーションを通じて思考能力が獲得できることも証明しました。

しかし、そのような強力な AI がチームメイトになった場合、それを率いることができますか?

MIT リンカーン研究所の研究者によるカードゲーム「Hanabi」における人間と AI エージェントのコラボレーションに関する最近の研究では、RL エージェントは個別には優れたパフォーマンスを発揮できるものの、人間のプレイヤーとペアになるとまったくダメになってしまうことが示されています。

ベストチームメイト">

出典:http://arxiv.org/pdf/2107.07630.pdf

Hanabi は、勝つためにプレイヤー同士がコミュニケーションを取り、協力し合う必要があるゲームです。このゲームでは、人間のプレイヤーはブラックボックスのニューラル ネットワーク モデルよりも、予測可能なルールベースの AI システムを好みます。

ベストチームメイト">

一般的に、最先端のゲームロボットは、深層強化学習と呼ばれるアルゴリズムを使用します。まず、ゲーム内にエージェントと一連の候補アクションが提供され、環境からのフィードバック メカニズムを通じて学習が行われます。トレーニング プロセスでは、目標を最大化し、最適なアクション シーケンスを取得するために、ランダムな探索アクションも使用されます。

深層強化学習の初期の研究では、学習のために人間のプレイヤーが提供するゲームデータに依存していました。最近、研究者は人間のデータを使わずに、純粋に自己プレイに基づいた RL エージェントを開発できるようになりました。

MIT リンカーン研究所の研究者たちは、このような強力な AI をチームメイトにする方法にもっと関心を持っています。この研究により、強化学習の応用がビデオゲームに限定されず、現実世界のアプリケーションに拡張できない理由をさらに理解できるようになります。

ベストチームメイト">

最近の強化学習研究は、AI の主な対戦相手が人間のプレイヤーや他の AI ロボットであるシングルプレイヤー ゲーム (Atari Breakout) または対戦ゲーム (StarCraft、Go) に適用されています。

これらの対決​​では、強化学習が前例のない成功を収めました。ロボットはこれらのゲームに関して先入観や想定を持たず、代わりにゼロからゲームのプレイ方法を学び、最高のプレイヤーからのデータでトレーニングされているからです。

実際、AI がゲームの遊び方を学習すると、独自のテクニックもいくつか作成するようになります。有名な例の一つは、DeepMind 社の AlphaGo がゲーム中に、人間の専門家の直感に反する動きをしたため、当時のアナリストがミスだと考えたことです。

しかし、同じ行動が異なる結果をもたらし、AIは最終的にこの動きで人間を打ち負かすことに成功しました。そのため、RL エージェントが人間と協力する場合、同じ知性が発揮される可能性があると研究者は考えています。

[[433353]]ベストチームメイト">

MITの研究者らは、2人から5人のプレイヤーが協力して特定の順番でカードをプレイするカードゲーム「Hanabi」を実験に選んだ。花火はシンプルですが、協力と限られた情報を必要とするゲームでもあります。

花火ゲームは 2010 年に発明され、2 人から 5 人のプレイヤーが 5 枚の異なる色のカードを正しい順序で一緒にプレイしてプレイします。ゲームの特徴: すべてのプレイヤーは互いのカードを見ることができますが、自分のカードを見ることはできません。

ゲームのルールによれば、プレイヤーはお互いのカード(ただしカードの色または番号のみ)をヒントにして、他のプレイヤーがどのカードをプレイすべきかを推測できるようにすることができますが、ヒントの数には制限があります。

この効率的なコミュニケーション行為こそが、花火に科学的な魅力を与えているのです。たとえば、人間はどのカードがプレイ可能かについての他のプレイヤーのヒントを自然に理解できますが、機械は本質的にこれらのヒントを理解することができません。

これまでのところ、AI プログラムは Hanabi ゲームをプレイして高得点を達成することができていますが、それは他の同様に知能の高いロボットとプレイしている場合に限られます。プログラムが最も困難で現実に近い状況になるのは、他のプレイヤーのプレイ スタイルに馴染みがない場合や、「カジュアル」(一緒にプレイしたことがない) プレイヤーがいる場合です。

近年、いくつかの研究チームがHanabiをプレイできるAIボットの開発を検討しており、その中には強化学習エージェントを使用したシンボリックAIを使用しているものもあります。

AI は主に、セルフプレイ (自分自身とプレイ)、クロスプレイ (他のタイプのエージェントとプレイ)、ヒューマンプレイ (人間と協力) などのパフォーマンスによって評価されます。

ベストチームメイト">

人間のプレイヤーとのクロスプレイは、人間と機械の協力関係を測定する上で特に重要であり、論文の実験の基礎にもなっています。

AIコラボレーションの有効性を調べるために、研究者らはルールベースのセルフプレイAIシステムであるSmartBotと、ゲームやRLアルゴリズム全体で最高ランクを獲得したOther-PlayロボットであるHanabiを使用しました。

実験では、人間の参加者がAIエージェントとHanabiゲームを数回プレイしました。毎回チームメイトのAIは異なり、実験者はどのモデルでプレイしているかわかりませんでした。

研究者たちは、客観的な指標と主観的な指標の両方に基づいて、人間と AI の連携のレベルを評価しました。客観的な指標には、スコア、エラー率などが含まれます。主観的な指標には、AI チーム メンバーに対する信頼度や快適度などの人間のプレイヤーの経験、AI の動機を理解してその行動を予測する能力が含まれます。

2 つの AI モデルの客観的なパフォーマンスには大きな差はありませんでした。しかし研究者たちは、人間のプレイヤーは他のプレイヤーと協力するように訓練されているため、Other-Play でより肯定的な主観的体験をするだろうと予想した。

参加者への調査によると、経験豊富なHanabiプレイヤーは、ルールベースのSmartBot Agentよりも他のゲームRLアルゴリズムの経験が少なく、成功の鍵は他のプレイヤーにカモフラージュの手がかりを提供するスキルでした。

たとえば、「1 キューブ」カードがテーブルに置かれ、チームメイトが 2 つのキューブを手に持っているとします。カードを指差して「これは 2 です」または「これは 4 です」と言うと、カードに関する情報をすべて伝えずに、チームメイトにこのカードをプレイするように密かに伝えていることになります。経験豊富なプレイヤーはすぐにこのヒントを理解するでしょう。しかし、同じ種類の情報を AI チームメイトに提供することは、はるかに困難であることが判明しました。

ある参加者は「チームメイトに非常に分かりやすいヒントを与えたが、全く効果がなかった。理由は分からない」と語った。

興味深い現実は、他者プレイでは「秘密の」慣習を作ることを避けており、自己プレイを実行するときに開発されたこれらの事前に決定されたルールに従うだけであるということです。これにより、AI アルゴリズムがトレーニング プログラムの一部ではなかったとしても、Other-play は他の AI アルゴリズムにとって最適なチームメイトになります。しかし研究者たちは、これは彼がトレーニング中に遭遇するであろうチームメイトのタイプについてすでに想定していたためだと考えている。

Other-play では、チームメイトもゼロショット調整に最適化されていることを前提としていることに留意してください。対照的に、人間の Hanabi プレイヤーは通常、この仮定を使用して学習しません。

試合前の定期的なセットアップと試合後のレビューは、人間のHanabiプレイヤーの間では一般的な習慣であり、人間が少数ショットの調整能力を習得することが容易になります。

研究者らは、今回の研究結果は、AIの客観的なタスクパフォ​​ーマンス(セルフプレイとクロスプレイ)が、他のAIモデルと連携する際の人間の信頼や好みとは無関係である可能性があることを示唆していると述べた。

ここで疑問が浮かび上がります。どの客観的指標が主観的な人間の好みと相関するのか?

[[433354]]ベストチームメイト">

RL ベースのエージェントをトレーニングするには膨大な量のデータが必要であるため、ループ内で人間をトレーニングすることは現実的ではありません。したがって、人間の協力者に受け入れられ、評価される AI エージェントをトレーニングしたい場合は、人間の好みに代わる、または人間の好みと密接に相関するトレーニング可能な目的関数を見つける必要があります。

同時に、研究者らは、Hanabi 実験の結果を、テストできなかった他の環境、ゲーム、またはドメインに外挿することに対して警告した。

この論文では、実験にはいくつかの限界があることも認めており、研究者らはこれに対処するために取り組んでいる。たとえば、被験者プールは小規模(参加者はわずか 29 名)で、Hanabi に精通した人々に偏っていました。つまり、彼らは AI チーム メンバーの行動方法について事前に定義された期待を持っており、RL エージェントとの否定的な経験をした可能性が高いということです。

しかし、この発見は将来の強化学習研究にとって重要な意味を持ちます。

最先端の RL エージェントが、制限された狭い範囲のゲームでは許容できる協力者になることさえできないのであれば、同じ RL 技術が、より複雑で微妙で重大なゲームや現実世界の状況に適用された場合にも、同様に有用であると期待すべきです。

強化学習については、技術コミュニティと学術コミュニティの両方で多くの議論が行われていますが、それは当然のことです。研究結果によると、RL システムの優れたパフォーマンスは、すべての可能なアプリケーションで同様に高いパフォーマンスが保証されるものではないことが示唆されています。

学習エージェントが複雑な人間とロボットの相互作用などの状況で効果的な協力者となるためには、さらなる理論的および応用的な研究が必要です。

<<:  人工知能は意識を発達させることができるか?人間の心をシミュレートすることがAIの究極の目標である

>>:  ヘルスケアにおける人工知能

ブログ    

推薦する

Alibabaオープンソース!軽量ディープラーニングエッジ推論エンジンMNN

最近、アリババは軽量ディープラーニングエッジ推論エンジン「MNN」を正式にオープンソース化しました。...

速報です!李菲菲の一番弟子カルパシーが辞任、テスラの自動運転は危機に瀕しているのか?

たった今、テスラはまた別の技術専門家を失いました!テスラAIのシニアディレクターであり、自動運転ビジ...

チンチラの死: 十分に訓練すれば小型モデルでも大型モデルを上回る性能を発揮できる

2022年3月、DeepMindの論文「計算最適化大規模言語モデルのトレーニング」では、構築されたC...

スイッチング技術を使用した負荷分散アルゴリズム

アプリケーション スイッチング テクノロジには、主に次の 4 つの主要テクノロジが含まれます。 ◆ト...

...

...

Nature のサブ出版物: 新しいアルゴリズムは、米国の 8 つの都市で 90% の精度で、1 週間前に 2 ブロック以内の犯罪を予測できます。

シカゴ大学の助教授イシャヌ・チャトパディアイ氏は、彼と彼のチームが「アーバン・ツイン」モデルを作成し...

アリババが自社開発のAIクラスターの詳細を発表:64基のGPU、数百万のカテゴリーのトレーニングを4倍高速化

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

Gemini ProはGPT-3.5ほど優れていません。CMUは徹底的な比較研究を実施し、公平性、透明性、再現性を確保しています。

Google Gemini はどれほど強力ですか?カーネギーメロン大学は、専門的かつ客観的な第三者...

Protobufを勉強していたら、良いアルゴリズムを見つけました - ZigZag

[[434311]]もともと Protobuf の原理を勉強したかったのですが、研究の過程で Pr...

IoTとAIの相乗効果:ビジネスの未来に革命を起こす

2023 年には、テクノロジー環境の再定義が継続しました。 人工知能とモノのインターネットが力を合わ...

AIを新たな段階へ導くYLearn因果学習オープンソースプロジェクトがリリース

2022年7月12日、九張雲済DataCanvas社は、もう一つの画期的なオープンソース技術成果であ...

Nature の調査: AI が「必需品」になったと考える科学者はわずか 4%

AI に関する論文数は劇的に増加していますが、本当に AI が「必須」であると考えている研究者はわ...

経験を要約し、進化を続け、インテリジェントエージェントのパラメータを最適化するコストを削減できます。

大規模モデルの出現は、インテリジェントエージェントの設計に革命的な変化を引き起こしました。ChatG...