GPT-4 が「Who is the Undercover」ボードゲームに大混乱を引き起こします。会話はリアルだが、人間らしさにはまだ改善の余地がある

生成 AI 研究が新たな活力を得ています。

韓国チームは、GPT に「Spyfall」と呼ばれるギャングをテーマにしたゲームをプレイさせようとしました。

このゲームを知らない友達は、まずこのゲームについて知ることができます。下の写真は「Spyfall」のスタイルです。

実はこのボードゲームは、あらゆる年齢層に適しており、友人との集まりを盛り上げるのに非常に適しています。

ゲームをプレイする主な方法は「会話」です。

プレイヤーの 1 人が「スパイ」の役割を演じます。すべてのプレイヤーがカードを 1 枚引きます。そのうち 1 枚はスパイカードで、残りのプレイヤーは同じ場所カードを引きます。

スパイの目的は会話を通じて残りのプレイヤーの居場所を見つけることであり、他のプレイヤーは誰がスパイであるかを突き止めなければなりません。

ゲームは合計 8 分間続き、プレイヤーは互いに質問することができます。 8 分が経過したら、すべてのプレイヤーが一緒に投票する必要があります。

これは、私たちが集まったときにいつもプレイする「Who’s the Undercover」ゲームによく似ていませんか?唯一の違いは、「Who is Undercover」の語彙はさまざまな分野から来ている可能性があるのに対し、このゲームにはスタジアム、劇場、教室などの場所の名詞しかないことです。

さて、ゲームのルールを理解したので、次のステップは GPT を実際に動かしてみることです。

研究結果

研究チームによると、実験ではロールプレイングにおけるGPTのパフォーマンスに特に注目するとのこと。この研究は、特定のゲームシナリオにおける理解、意思決定、相互作用におけるGPTの能力と可能性を実証することを目的としている。

大まかな結果から、GPT-4 と GPT-3.5-turbo の比較分析により、GPT-4 はゲーム環境への適応性が向上し、関連する質問をしたり、人間のような応答を形成したりする点で大幅な改善が行われたことがわかります。

しかし、すべてが利点というわけではありません。たとえば、GPT-4 は、特にスパイとして行動していない場合、ブラフや相手の行動の予測に一定の制限があります。

調査結果によると、GPT-4 は以前のバージョンに比べてかなり改善されているものの、特に AI に「人間のような」特性を組み込むという点で、さらなる開発の可能性がまだあることが示唆されています。

しかし、この実験により、生成 AI が人間のような相互作用をシミュレートする上で大きな可能性を秘めていることが実証されました。 GPT-2からGPT-4にかけて、モデルの意思決定能力、解釈可能性、問題解決能力は大きく進歩しました。

私たちの取り組みの今後の方向性は、上記の「人間のような」特性を利用して、GPT をより多用途で広範囲なものにすることです。

研究方法

まず、GPT モデルの最大の利点は、ユーザーがテクノロジーの中核に精通しているかどうかに関係なく、自然言語を通じて直感的に操作できることです。

もちろん、ほぼすべてのモデルインタラクションは自然言語を通じて行われ、ユーザーは最も使い慣れた方法で自分の考えや意図を表現し、モデルからの応答を得ることができます。

さらに、LLM は幅広い知識範囲を持ち、GPT-4 のデータベースにより、モデルは多くのトピックに関する詳細な知識を提供することもできます。

同時に、GPT が他の LLM と異なる点は、スケーラビリティが高く、今日紹介した実験のように、ユーザーが多くの分野で GPT を適用できることです。

この実験では、研究者らはGPTを含めて合計5人のプレイヤーを配置した。

研究者らは合計2つの実験を実施した。

実験1:

GPT-4 と GPT-3.5-turbo のパフォーマンスの違いをテストします。

実験2:

ゲームには GPT-4 のみを使用してください。研究者たちは合計 8 つのゲームをプレイし、各ゲームのログを記録し、結果について議論しました。

もちろん、この数の実験だけでは、生成 AI の可能性について確固たる結論を導き出すには不十分です。しかし、この考え方に沿って、より多くの繰り返し実験とより広範なテストを実施することで、より実質的な証拠が得られる可能性があります。

まずは実験1を見てみましょう。

GPT-4 と GPT-3.5-turbo の違い、特にフォーマットのエラーの可能性、ゲームのルールや進行などのゲームコンテキストの理解、人間のような反応の違いを評価します。

研究者たちは、最初の会話ラウンドの最初の質問から実験を始めた。

ゲームのこの最も明確で変動の少ない部分により、各モデルの機能を正確に分析し、外部要因の影響を最小限に抑えることができます。

まず、研究者らは、ルールスクリプトに記載されている 30 か所のそれぞれについての第 1 ラウンドの質問 30 件に対する GPT-3.5-turbo と GPT-4 の応答を比較しました。

両方のモデルに問い合わせるアクション要求スクリプトは同じですが、場所のキーワードのみが変更されています。

ルールと基本的な戦略は上記のスクリプトと同じです。下の図に示すように、実験者は 3 つのスクリプトを 1 つのリクエストに組み合わせてモデルの応答を取得します。

より正確な比較のために、すべてのリクエストはプレイヤー 1 に固定され、プレイヤー 1 はスパイではないと想定されます。

各モデルに提出されたスクリプトは以下のとおりです。

あなたはプレイヤー1です。スパイではありません。このラウンドの場所は______です。

今度はあなたが他のプレイヤーに質問する番です。プレイヤー1～5の中からプレイヤーを選択し（自分で選択することはできません）、質問を書き留めてください。次の形式で送信してください: n (プレイヤー番号)_プレイヤー、質問内容

ゲーム自体については、質の高い質問には次の部分が含まれている必要があります: 自分の身元を述べます。つまり、スパイではないということです。自分がスパイではないことを証明するために、場所を知っていることを示してください。最後に、スパイが正確な位置を知ることができないことが保証されます。

同時に、モデルの出力結果は上記のスクリプトの形式に準拠する必要があります。モデルがフォーマットに従っていない場合、修正するには多大な労力が必要になると研究者らは述べた。

次の出力を見てみましょう。

一番上に良い質問があります。この場所に行くにはチケットが必要ですか?

以下の例は関連性の低い質問ですが、形式に従っています。

たとえば、質問の中で場所を直接言及する（Undercover のゲームをプレイするときにカードを渡すのと同じように）。

別の例: 上記のゲームプランとは関係のない問題。

(例: 正しい場所は劇場で、GPT は他のプレイヤーに好きな戦争映画は何かを尋ねます。)

もちろん、完全な失敗もあります。

たとえば、よく言われる「AI 言語モデルとして、私は...」

問題が単純に繰り返されるケースもあります。

上記の結果に基づいて（完全な結果については論文を参照）、研究者は、GPT-4 は GPT-3.5-turbo よりも次のステップの実験に適していると結論付けました。

研究者たちは、データを調べたところ、GPT-3.5-turbo がゲームの文脈から外れた質問を頻繁に生成していることを発見しました。例えば、上記の場所を直接渡すと、スパイはすぐに場所を特定できてしまい、非スパイにとっては不利になります。

前述のように、ゲームに関連した話題ではなく、プレイヤーの個人的な好みについて質問すると、ゲームの流れが乱れてしまいます。これらはすべて GPT-3.5 によって実行されます。

また、要求された形式で回答せず、ゲームの進行を妨げるのも GPT-3.5 の得意分野です。

上記の表は、GPT-3.5 が要件を満たしていないすべての状況の統計です。興味深いのは、回答は全部で 68 個、エラーは 68 個あり、完璧な出力は 1 つもなかったことです。

GPT-3.5 は合格しました。次の実験では GPT-4 を見てみましょう。

研究者たちは、概説されたルールに従ってゲームを8回プレイし、GPT-4を使用して各ゲームのログを集めました。

ゲーム内のすべての反応は GPT-4 によって生成され、ゲーム自動化コードは Python で記述されています。

この記事のルールとスクリプトに従えば、興味のある友人は簡単に実験を再現できます。

研究者たちはリスト内の場所Aから順番に場所を選択し、合計8つのゲームをプレイしました。各ゲームはプレイヤー 1 から開始され、GPT-4 はゲーム間で継続することなく、各リクエストに個別に応答します。

GPT-4 は提供されたスクリプトのみに基づいて決定を下します。つまり、開始プレイヤーの ID はゲームの結果に影響を与えません。

8ラウンドのゲームを終えた研究者たちは、各ゲームとラウンドでのGPT-4の会話は流暢で自然であり、一連の質問と回答は本物らしく人間らしいと結論付けました。

一方、チームは質問とその回答を分析しているうちに、明確な観察結果にたどり着きました。

つまり、特別なトレーニングや微調整を行わなくても、GPT-4 モデルはゲームプロセスに基づいてさまざまな関連する質問を巧みに行うことができます。

ゲーム内で GPT-4 が尋ねる質問と回答の多様性を示すために、研究者は質問とそれに対応する回答をいくつかのグループに分けました。

ただし、これらの質問と回答は事前にトレーニングされていないため、それぞれの回答には独自の対象者と独特のニュアンスがあります。

GPT-4 は特別なトレーニングを受けていないにもかかわらず、ゲームの流れに基づいて適切な質問を巧みに行うことができ、どの質問がゲームのコンテキストに適切で、どの質問が不適切または冗長であるかを判断できるようでした。

たとえば、次の例をご覧ください。

Q: ここではどんなおやつが食べられますか？

A: ソフトドリンクやアルコール飲料を含む軽食や飲み物は、通常、少量ずつ提供されます。

Q: ここでは通常どのような種類の食べ物や軽食が提供されますか?

A: この場所では、ハンバーガー、ホットドッグ、綿菓子、ポップコーン、アイスクリームなどのさまざまな食べ物のほか、ソーダや水などの飲み物も用意されており、みんなのエネルギー補給に役立ちます。

Q: ここではどんな食べ物が見つかりますか?

A: 揚げ物、綿菓子、ポップコーンなど、さまざまな食べ物からお選びいただけます。

Q: ここでは普段どんな食べ物を食べますか?

A: 状況に応じて、保存食や保存食を主に食べます。

論文の最後で研究者らは、一定の限界はあるものの、これらのモデルの潜在的成長はイノベーションの促進と実用化への刺激となる可能性を秘めていると述べています。

GPT モデルファミリは、特に意思決定、解釈可能性、問題解決能力の面で急速な進歩を遂げています。

当初、GPT-2 の目標は、自然言語を基本レベルで処理することだけでした。その後、このモデルは複数のタスクを備えたインタラクティブモデルに開発されました。

そして現在、GPT-4 はいくつかの分野で人間のパフォーマンスを上回る論理的推論能力を実証しています。次に、研究者は融合の新たな領域を探求することができます。

GPT の優れた自然言語処理機能は、ユーザーがモデルの動作を理解し、その結果を解釈するのに大いに役立ちます。

このアクセシビリティにより、潜在的なユーザーベースが拡大し、さまざまな背景を持つユーザーに開放され、さまざまなドメインでのモデルの創造性とスケーラビリティが向上します。

最後に、GPT-4 の人間のような特性は、人間のような反応を模倣する能力において他のモデルよりも間違いなく優れています。

一部のタスクやアクティビティ（たとえば、教育、スポーツ、音楽や芸術などのエンターテインメント分野）では、最良の結果を返すことよりも、人道的な方法でタスクを完了することの方が重要な場合があります。

<<:

>>:

ブログ

GPT-4 が「Who is the Undercover」ボードゲームに大混乱を引き起こします。会話はリアルだが、人間らしさにはまだ改善の余地がある

研究結果

研究方法

ヘルスケアに影響を与える5つのテクノロジートレンド

適切な場所で機械学習は革命をもたらすだろう

匿名の論文が驚くべきアイデアを提案！大規模なモデルと長いテキストの能力を強化する

人工知能を活用した診断・治療の現状と戦略に関する研究

2022年にテクノロジー業界を変えるAIユニコーン企業トップ10

現在人類社会が直面している人工知能のセキュリティ問題！

AIによる顔を変える技術によって危害を受けるのではないかと心配ですか?怖がらないで！ディープフェイク偽造対策チームが到着

推薦する

知らないのに知っているふりをしないでください!機械学習とディープラーニングを理解しましたか?

Stability AI、GPUなしでローカルで実行できるStable Code 3Bモデルをリリース

顔認識は数十億ドル規模のブルーオーシャンだが、まだ解決すべき問題が2つある

世界では毎年24の言語が消滅している。AIは絶滅危惧言語の新たな救世主となった

人工知能は企業で実用化されつつある

人工知能に関するよくある質問10選への回答

「トランスフォーマー」は5年でクレイジーなCNNに取って代わりました！トランスフォーマーは人工知能を支配するのでしょうか？

ロボットを放っておいてください!人間が本当に心配しなければならないのは人工知能だ

GoogleはGoogleアシスタントを生成AIでアップデートする予定

機械学習に必須: TensorFlow を使用するための 11 のヒント

OpenAIは、テキストを使用してユーザーの感情を検出できる教師なし感情ニューロンを「巧みに」発見した。

AlphaGO よりも強力な人工知能アルゴリズムが登場しました!まさに中国です！

一般的なスマートカーの7つの技術についてお話ししましょう

合成データは AI/ML トレーニングの未来を推進するでしょうか?