GPT-4 が「Who is the Undercover」ボードゲームに大混乱を引き起こします。会話はリアルだが、人間らしさにはまだ改善の余地がある

GPT-4 が「Who is the Undercover」ボードゲームに大混乱を引き起こします。会話はリアルだが、人間らしさにはまだ改善の余地がある

生成 AI 研究が新たな活力を得ています。

韓国チームは、GPT に「Spyfall」と呼ばれるギャングをテーマにしたゲームをプレイさせようとしました。

このゲームを知らない友達は、まずこのゲームについて知ることができます。下の写真は「Spyfall」のスタイルです。

実はこのボードゲームは、あらゆる年齢層に適しており、友人との集まりを盛り上げるのに非常に適しています。

ゲームをプレイする主な方法は「会話」です。

プレイヤーの 1 人が「スパイ」の役割を演じます。すべてのプレイヤーがカードを 1 枚引きます。そのうち 1 枚はスパイ カードで、残りのプレイヤーは同じ場所カードを引きます。

スパイの目的は会話を通じて残りのプレイヤーの居場所を見つけることであり、他のプレイヤーは誰がスパイであるかを突き止めなければなりません。

ゲームは合計 8 分間続き、プレイヤーは互いに質問することができます。 8 分が経過したら、すべてのプレイヤーが一緒に投票する必要があります。

これは、私たちが集まったときにいつもプレイする「Who’s the Undercover」ゲームによく似ていませんか?唯一の違いは、「Who is Undercover」の語彙はさまざまな分野から来ている可能性があるのに対し、このゲームにはスタジアム、劇場、教室などの場所の名詞しかないことです。

さて、ゲームのルールを理解したので、次のステップは GPT を実際に動かしてみることです。

研究結果

研究チームによると、実験ではロールプレイングにおけるGPTのパフォーマンスに特に注目するとのこと。この研究は、特定のゲームシナリオにおける理解、意思決定、相互作用におけるGPTの能力と可能性を実証することを目的としている。

大まかな結果から、GPT-4 と GPT-3.5-turbo の比較分析により、GPT-4 はゲーム環境への適応性が向上し、関連する質問をしたり、人間のような応答を形成したりする点で大幅な改善が行われたことがわかります。

しかし、すべてが利点というわけではありません。たとえば、GPT-4 は、特にスパイとして行動していない場合、ブラフや相手の行動の予測に一定の制限があります。

調査結果によると、GPT-4 は以前のバージョンに比べてかなり改善されているものの、特に AI に「人間のような」特性を組み込むという点で、さらなる開発の可能性がまだあることが示唆されています。

しかし、この実験により、生成 AI が人間のような相互作用をシミュレートする上で大きな可能性を秘めていることが実証されました。 GPT-2からGPT-4にかけて、モデルの意思決定能力、解釈可能性、問題解決能力は大きく進歩しました。

私たちの取り組みの今後の方向性は、上記の「人間のような」特性を利用して、GPT をより多用途で広範囲なものにすることです。

研究方法

まず、GPT モデルの最大の利点は、ユーザーがテクノロジーの中核に精通しているかどうかに関係なく、自然言語を通じて直感的に操作できることです。

もちろん、ほぼすべてのモデルインタラクションは自然言語を通じて行われ、ユーザーは最も使い慣れた方法で自分の考えや意図を表現し、モデルからの応答を得ることができます。

さらに、LLM は幅広い知識範囲を持ち、GPT-4 のデータベースにより、モデルは多くのトピックに関する詳細な知識を提供することもできます。

同時に、GPT が他の LLM と異なる点は、スケーラビリティが高く、今日紹介した実験のように、ユーザーが多くの分野で GPT を適用できることです。

この実験では、研究者らはGPTを含めて合計5人のプレイヤーを配置した。

研究者らは合計2つの実験を実施した。

実験1:

GPT-4 と GPT-3.5-turbo のパフォーマンスの違いをテストします。

実験2:

ゲームには GPT-4 のみを使用してください。研究者たちは合計 8 つのゲームをプレイし、各ゲームのログを記録し、結果について議論しました。

もちろん、この数の実験だけでは、生成 AI の可能性について確固たる結論を導き出すには不十分です。しかし、この考え方に沿って、より多くの繰り返し実験とより広範なテストを実施することで、より実質的な証拠が得られる可能性があります。

まずは実験1を見てみましょう。

GPT-4 と GPT-3.5-turbo の違い、特にフォーマットのエラーの可能性、ゲームのルールや進行などのゲームコンテキストの理解、人間のような反応の違いを評価します。

研究者たちは、最初の会話ラウンドの最初の質問から実験を始めた。

ゲームのこの最も明確で変動の少ない部分により、各モデルの機能を正確に分析し、外部要因の影響を最小限に抑えることができます。

まず、研究者らは、ルール スクリプトに記載されている 30 か所のそれぞれについての第 1 ラウンドの質問 30 件に対する GPT-3.5-turbo と GPT-4 の応答を比較しました。

両方のモデルに問い合わせるアクション要求スクリプトは同じですが、場所のキーワードのみが変更されています。

ルールと基本的な戦略は上記のスクリプトと同じです。下の図に示すように、実験者は 3 つのスクリプトを 1 つのリクエストに組み合わせてモデルの応答を取得します。

より正確な比較のために、すべてのリクエストはプレイヤー 1 に固定され、プレイヤー 1 はスパイではないと想定されます。

各モデルに提出されたスクリプトは以下のとおりです。

あなたはプレイヤー1です。スパイではありません。このラウンドの場所は______です。

今度はあなたが他のプレイヤーに質問する番です。プレイヤー1~5の中からプレイヤーを選択し(自分で選択することはできません)、質問を書き留めてください。次の形式で送信してください: n (プレイヤー番号)_プレイヤー、質問内容

ゲーム自体については、質の高い質問には次の部分が含まれている必要があります: 自分の身元を述べます。つまり、スパイではないということです。自分がスパイではないことを証明するために、場所を知っていることを示してください。最後に、スパイが正確な位置を知ることができないことが保証されます。

同時に、モデルの出力結果は上記のスクリプトの形式に準拠する必要があります。モデルがフォーマットに従っていない場合、修正するには多大な労力が必要になると研究者らは述べた。

次の出力を見てみましょう。

一番上に良い質問があります。この場所に行くにはチケットが必要ですか?

以下の例は関連性の低い質問ですが、形式に従っています。

たとえば、質問の中で場所を直接言及する(Undercover のゲームをプレイするときにカードを渡すのと同じように)。

別の例: 上記のゲームプランとは関係のない問題。

(例: 正しい場所は劇場で、GPT は他のプレイヤーに好きな戦争映画は何かを尋ねます。)

もちろん、完全な失敗もあります。

たとえば、よく言われる「AI 言語モデルとして、私は...」

問題が単純に繰り返されるケースもあります。

上記の結果に基づいて(完全な結果については論文を参照)、研究者は、GPT-4 は GPT-3.5-turbo よりも次のステップの実験に適していると結論付けました。

研究者たちは、データを調べたところ、GPT-3.5-turbo がゲームの文脈から外れた質問を頻繁に生成していることを発見しました。例えば、上記の場所を直接渡すと、スパイはすぐに場所を特定できてしまい、非スパイにとっては不利になります。

前述のように、ゲームに関連した話題ではなく、プレイヤーの個人的な好みについて質問すると、ゲームの流れが乱れてしまいます。これらはすべて GPT-3.5 によって実行されます。

また、要求された形式で回答せず、ゲームの進行を妨げるのも GPT-3.5 の得意分野です。

上記の表は、GPT-3.5 が要件を満たしていないすべての状況の統計です。興味深いのは、回答は全部で 68 個、エラーは 68 個あり、完璧な出力は 1 つもなかったことです。

GPT-3.5 は合格しました。次の実験では GPT-4 を見てみましょう。

研究者たちは、概説されたルールに従ってゲームを8回プレイし、GPT-4を使用して各ゲームのログを集めました。

ゲーム内のすべての反応は GPT-4 によって生成され、ゲーム自動化コードは Python で記述されています。

この記事のルールとスクリプトに従えば、興味のある友人は簡単に実験を再現できます。

研究者たちはリスト内の場所Aから順番に場所を選択し、合計8つのゲームをプレイしました。各ゲームはプレイヤー 1 から開始され、GPT-4 はゲーム間で継続することなく、各リクエストに個別に応答します。

GPT-4 は提供されたスクリプトのみに基づいて決定を下します。つまり、開始プレイヤーの ID はゲームの結果に影響を与えません。

8ラウンドのゲームを終えた研究者たちは、各ゲームとラウンドでのGPT-4の会話は流暢で自然であり、一連の質問と回答は本物らしく人間らしいと結論付けました。

一方、チームは質問とその回答を分析しているうちに、明確な観察結果にたどり着きました。

つまり、特別なトレーニングや微調整を行わなくても、GPT-4 モデルはゲームプロセスに基づいてさまざまな関連する質問を巧みに行うことができます。

ゲーム内で GPT-4 が尋ねる質問と回答の多様性を示すために、研究者は質問とそれに対応する回答をいくつかのグループに分けました。

ただし、これらの質問と回答は事前にトレーニングされていないため、それぞれの回答には独自の対象者と独特のニュアンスがあります。

GPT-4 は特別なトレーニングを受けていないにもかかわらず、ゲームの流れに基づいて適切な質問を巧みに行うことができ、どの質問がゲームのコンテキストに適切で、どの質問が不適切または冗長であるかを判断できるようでした。

たとえば、次の例をご覧ください。

Q: ここではどんなおやつが食べられますか?

A: ソフトドリンクやアルコール飲料を含む軽食や飲み物は、通常、少量ずつ提供されます。

Q: ここでは通常どのような種類の食べ物や軽食が提供されますか?

A: この場所では、ハンバーガー、ホットドッグ、綿菓子、ポップコーン、アイスクリームなどのさまざまな食べ物のほか、ソーダや水などの飲み物も用意されており、みんなのエネルギー補給に役立ちます。

Q: ここではどんな食べ物が見つかりますか?

A: 揚げ物、綿菓子、ポップコーンなど、さまざまな食べ物からお選びいただけます。

Q: ここでは普段どんな食べ物を食べますか?

A: 状況に応じて、保存食や保存食を主に食べます。

論文の最後で研究者らは、一定の限界はあるものの、これらのモデルの潜在的成長はイノベーションの促進と実用化への刺激となる可能性を秘めていると述べています。

GPT モデル ファミリは、特に意思決定、解釈可能性、問題解決能力の面で急速な進歩を遂げています。

当初、GPT-2 の目標は、自然言語を基本レベルで処理することだけでした。その後、このモデルは複数のタスクを備えたインタラクティブ モデルに開発されました。

そして現在、GPT-4 はいくつかの分野で人間のパフォーマンスを上回る論理的推論能力を実証しています。次に、研究者は融合の新たな領域を探求することができます。

GPT の優れた自然言語処理機能は、ユーザーがモデルの動作を理解し、その結果を解釈するのに大いに役立ちます。

このアクセシビリティにより、潜在的なユーザー ベースが拡大し、さまざまな背景を持つユーザーに開放され、さまざまなドメインでのモデルの創造性とスケーラビリティが向上します。

最後に、GPT-4 の人間のような特性は、人間のような反応を模倣する能力において他のモデルよりも間違いなく優れています。

一部のタスクやアクティビティ(たとえば、教育、スポーツ、音楽や芸術などのエンターテインメント分野)では、最良の結果を返すことよりも、人道的な方法でタスクを完了することの方が重要な場合があります。

<<: 

>>: 

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

もう終わりですか? LK-99は単なる強磁性体であり、超伝導体ではない。北京大学などの研究論文が発表された。

これまで、韓国における常温超伝導の再現に関する多くの研究で示された重要な指標は、常温常圧の条件下で、...

...

比較ベースのアルゴリズムでは、5 つの要素をソートするのに 7 回のパスが必要だと言われるのはなぜですか?

結果のソートアルゴリズムの唯一の要件は、オペランドが全順序関係を満たすことです。 a≤b かつ b≤...

ArmとHuaweiが参入し、自動運転チップの戦いでどちらが勝つかは分からない

今年、自動運転はまだ大規模な商用化には至っていないが、利益の偏在により廃業する企業、継続が困難となり...

...

認知分析について知っておくべきことすべて

コンテキストを提供し、大量の情報に隠された答えを発見するために、コグニティブ コンピューティングはさ...

モデルが大きくなればなるほど、パフォーマンスは向上しますか? Appleの自己回帰視覚モデルAIM: そうです

過去数年間、大規模な事前トレーニング済みモデルが NLP の分野で成功を収めてきました。このようなモ...

ChatGPT 新学期ギフトパック: 公式教師ユーザーガイドがオンラインになりました

こんにちは、教師向けに特別に設計された ChatGPT 教室チートの登場です! OpenAIの公式製...

顔認識:攻撃の種類となりすまし防止技術

コンピュータサイエンスとエレクトロニクスの急速な発展により、顔認証は現在、指紋に次いで世界第2位の市...

ユネスコは世界初の生成型AI教育ガイドを発行し、各国に関連法規制の策定、教師研修の実施を要請

9月7日、ユネスコは「教育と研究における生成AIの利用に関するガイドライン」を発行しました。これは、...

人工知能アプリケーションのための6つの主要技術、ついに誰かがわかりやすく説明

[[338620]]画像はPexelsよりこの記事はWeChatの公開アカウント「Big Data ...

アルゴリズムの改善とハードウェアの反復、どちらがより収益性が高いでしょうか? MITの最新の研究結果がこの答えを提供している

コンピューターが登場する前には、アルゴリズムがありました。コンピュータの誕生により、コンピュータの強...

AI+教育はさまざまなシナリオに適用されていることをご存知ですか?

人工知能技術の継続的なアップグレードと革新的な変化に伴い、中国は時代の変化に対応し、人工知能関連のコ...

機械学習を通じて実際のビジネス価値を掘り出すにはどうすればよいでしょうか?

運用効率の向上から継続的なイノベーションの実現まで、機械学習はビジネス開発に不可欠なものとなっていま...