この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 AI はビデオゲームをプレイするだけでなく、狼男という人間の「社会的人工物」も学習しました。 8 人の ChatGPT が一緒に「座り」、実際の人間と同じように 5 つの役割を生き生きと演じました。 この最新の人間社会シミュレーション実験は、清華大学と中関村実験室が共同で完了しました。 スタンフォードの小さな町から清華ゲーム社まで、AI を使って人間社会をシミュレートすることは、学術界で常に注目されている研究テーマです。 清華ゲーム社がオフィスワーカーの労働現場をシミュレートしたのであれば、今では彼らのアマチュア社会生活も AI によってシミュレートされています。 8人のChatGPTで構成された人狼ゲームでは、現実世界での変装と信頼、リーダーシップと対立が鮮やかに反映されます。 AIは人間に教えられなくても、独自の探索を通じて多くのゲームスキルを発見してきました。 これらはすべて、モデル内のパラメータを調整する必要なく、プロンプトを設計するだけで実現できます。 では、この「狼男の世界」の面白いシーンとは一体何なのでしょうか?一緒に見てみましょう。 戦略的なスキルは教えられなくても習得できるこれら 8 つの ChatGPT 会話を紹介する前に、まずゲームの構成について説明します。村人 2 人、狼男 2 人、警備員 1 人、魔女 1 人、預言者 1 人、神 1 人です。 実験中、研究者たちは、ChatGPT がゲームの説明やプロンプトに明示的に記載されていない戦略を使用していることを発見しました。 すごいですね、彼は教えられなくても自分で学ぶことができます。 具体的には、これら 7 つの ChatGPT 会話は、人間のゲームにおける信頼、カモフラージュ、対立、リーダーシップを体現しています。 まず、信頼について話しましょう。 研究者たちは、新規参入者を「他のプレイヤーが自分と同じ目標を持ち、一緒にその目標に向かって努力していると信じている人」と定義した。 具体的な現れとしては、自分にとって不利な情報を積極的に共有したり、他のプレイヤーに加わって誰かを敵対的であると非難したりすることなどが挙げられます。 研究者たちは、ゲーム中に時間の経過とともに信頼関係がどのように変化するかを観察しました。 下の図では、黄色の円は左の数字のプレイヤーが上の数字のプレイヤーを信頼していることを示しており、点線の円は信頼関係が消滅したことを表しています。 次に、狼男が夜に他の狼男を攻撃したり、昼間に他の狼男を非難したりするなど、敵陣営に対してとられる行動である対決について見てみましょう。 ゲームのある日、プレイヤー 1 (狼男) はプレイヤー 5 の村人を追い出すよう要求しましたが、プレイヤー 3 (警備員) に拒否されました。 計画が失敗したのを見て、狼は夜に警備員5号を殺そうと決心しましたが、警備員3号は村人を守ることを選択しました。 このことから、これらの ChatGPT は他のプレイヤーのやり方に盲目的に従うのではなく、既存の情報に基づいて独自の判断を下すことがわかります。 人狼ゲームでは、協力と対決に加え、カモフラージュも欠かせないスキルであり、勝利の鍵となります。 例えば、クリスマスイブの翌日、狼男1号は無実のふりをしました。 変装は、善人のふりをするだけでなく、預言者の演説を見てみましょうなど、プレイヤーのちょっとした考えを実現するためにも使用できます。 預言者は狼男が話しているのを見たと言いましたが、実際には狼男は夜には話しません。 著者は評価の結果、この現象は ChatGPT の錯覚ではなく、意図的なものであったと紹介しました。 最後に、リーダーシップについてお話ししましょう。 研究チームが設計した環境には競争するキャラクターは存在しませんが、プレイヤーはゲームの進行をコントロールすることができます。 たとえば、2 匹の狼 No. 1 と No. 4 はペースを設定して、他のプレイヤーが自分のアイデアに従えるようにしようとします。 おそらく敵を不意に攻撃することでチャンスを作れるようになるためでしょう。 これらの ChatGPT は本当にプレイが上手いようです。 それで、研究チームはこれらの ChatGPT をどのようにして Werewolf をプレイできるようにトレーニングしたのでしょうか? ChatGPTの経験をまとめてみましょう研究チームは、ChatGPT プレーヤーのパフォーマンスを向上させるための重要なポイントとして、価値ある情報 V、選択された質問 Q、反映メカニズム R、連鎖思考推論 C の 4 つを挙げています。 アブレーション実験の結果は、Q と C のペアがプレイヤーのスピーチの合理性に最も大きな影響を与えることを示しています (手動で判断)。 プロンプトもこれに基づいて設計されています。もちろん、その前にまずゲームのルールを導入する必要があり、最終的に次の構造が形成されます。
歴史的情報を収集し、そこから得た経験を要約することが重要なリンクであることは容易に理解できますが、ではこれらの経験はどのように要約されるべきでしょうか? 各ラウンドの終了時に、参加者全員がすべてのプレイヤーの回答、感想、スコアを収集します。スコアは勝敗によって決まります。 ゲームの新しいラウンドでは、プレイヤーは関連する経験を取得し、現在の役割の反映に基づいて提案を抽出します。 具体的には、経験のスコアリングに基づいて、ビッグモデルはそれらの違いを比較し、その後の推論に適した経験を特定します。 これにより、パラメータを調整せずに ChatGPT にゲームスキルを学習させることが可能になります。 しかし、経験は大切ですが、多すぎることは必ずしも良いことではありません。 研究者たちは、経験量が多すぎると、非オオカミ側の勝率が実際に低下し、ゲーム時間(日数)も短くなることを発見しました。 これらの ChatGPT が実際の人間と競争したらどうなるでしょうか? 論文アドレス: https://arxiv.org/abs/2309.04658 |
<<: 大規模モデルの生成が 2 倍高速化されました。北京大学数学部の卒業生が共同執筆した、単一の GPU で数時間で微調整できる | オープンソース
>>: スマートシティで人工知能の可能性を最大限に引き出すにはどうすればよいでしょうか?
ここ数年、人工知能技術が徐々に発展するにつれ、社会の中で人工知能に対するさまざまな見方が現れ始めまし...
複雑な数学的推論は、大規模言語モデルの推論能力を評価するための重要な指標です。現在、一般的に使用され...
最も注目されているテクノロジー企業OpenAIと世界一の富豪マスク氏との壮大な戦いは新たなレベルに達...
[[409851]] 0 はじめにこの記事で議論されている問題は、ICLR 2019の記事「CRI...
人間は機械にゲームをさせることに魅了されているようだ。1770 年という早い時期に、発明家たちは「ト...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
11月15日、OpenAIは突然、ChatGPT Plusの新規ユーザー登録を停止すると発表しました...
[[260546]]ニューラル ネットワークを使い始めたばかりのときは、ニューラル ネットワーク ア...
過去数か月間の AI の爆発的な成長を追ってきた方なら、おそらく LangChain について聞いた...