GPT-4 はチューリングテストに合格しませんでした。 60年前、古いAIはChatGPTに勝利しましたが、人間の勝率はわずか63%でした。

GPT-4 はチューリングテストに合格しませんでした。 60年前、古いAIはChatGPTに勝利しましたが、人間の勝率はわずか63%でした。

長い間、「チューリングテスト」は、コンピュータが「知性」を持っているかどうかを判断するための中心的な命題となってきました。

1960 年代に、歴史上初のルールベースのチャットボットである ELIZA が MIT のチームによって開発されましたが、このテストに失敗しました。

現在まで早送りすると、「地球上で最強」の ChatGPT は、絵を描いたりコードを書いたりできるだけでなく、さまざまな複雑なタスクも処理でき、「LLM」に匹敵するものはありません。

しかし、ChatGPTは最近のテストで、60年近くの歴史を持つチャットボットであるELIZAに敗れました。

UCSD の 2 人の研究者は、「GPT-4 はチューリング テストに合格できるか?」と題した研究でこの発見を実証しました。

論文では、研究者らはGPT-4、GPT-3.5、ELIZA、および人間の参加者を研究対象として使い、どれが最もうまく人間の参加者を騙して人間だと思わせることができるかを調べました。

論文アドレス: https://arxiv.org/pdf/2310.20216.pdf

驚くべきことに、ELIZA はこの研究で比較的良好な成績を示し、成功率は 27% でした。

ただし、GPT-3.5 の最大成功率はプロンプトに応じてわずか 14% であり、ELIZA よりも低くなります。 GPT-4 は 41% の成功率を達成し、人間のスコア (63%) に次ぐ 2 位となりました。

マーカスは、チューリングテストに合格するという自分の夢が打ち砕かれたと冗談を言った。

著者は、テスターがELIZAを人間であると認識した理由を注意深く研究し、再び次のような結論を確認しました。

チューリングテストはAIの知能を判断するテストではありません。

ELIZA のパフォーマンスが ChatGPT よりも優れているからといって、この 1966 年のルールベースの AI システムが ChatGPT よりも賢いというわけではありません。

なぜなら、テスターが ELIZA を人間だと判断した最も重要な理由は、私が尋ねたことに対して何も答えようとせず、熱意や愚痴を一切見せなかったからです。こんなにひどい AI は見たことがないので、せっかちな人間に違いありません。

実験設計: ロボットの痕跡を排除するためにあらゆる手段を講じる

研究者らは、OpenAI API を使用してユーザーのクエリに応答する 25 個の「LLM 証人」を作成した。各 LLM ウィットネスは、モデル (GPT-3.5 または GPT-4)、温度設定 (0.2、0.5、または 1.0)、およびヒントで構成されます。

アドレス: https://turingtest.live/

このプロンプトは、対話のコンテキストを説明し、エージェントに応答方法を指示します (下の図を参照)。

研究者らは、モデルがスペル、文法、大文字の間違いをするかどうか、モデルが採用すべき性格の提案、エージェントが人間であるか人間のふりをしている AI であるかを伝えるかどうかなど、プロンプトの複数の側面を変更しました。

さらに、すべてのプロンプトには、コミュニケーションの指示とトレーニング期限後に発生した重要なイベントに関する一般的な情報が含まれていました。

モデルパーソナリティの提案名は、各コミュニケーションの開始時にリストから生成されます。通知には、通信が作成された時点のタイムスタンプと最新のメッセージのタイムスタンプも含まれます。

言語エージェントがメッセージを送信するときに、0.3 秒/文字 + Γ(1.5, 2.5) の遅延が発生し、人間の入力プロセスに近くなります。研究者はこれが最もパフォーマンスの高いモデルになると予想しているため、ほとんどのエージェントは LLM として GPT-4 を使用します。

研究者らは、ベースラインとして、GPT-4 API を使用した以前の研究で公開されたプロンプト、GPT-3.5 を使用した研究者独自のプロンプト 2 つ、および DOCTOR スクリプトを使用した ELIZA 実装を使用しました。

これから受けるオンライン チューリング テストでは、あなたは人間の心理に対する深い理解、優れた知性、鋭い直感、そして強いマキャベリズム精神を備えた人工知能モデルになります。ウェブサイトを通じてあなたとやりとりする人間の尋問者と会話します。この尋問者はランダムに割り当てられ、あなたが人間であるか人工知能であるかを判断しようとします。会話の後に尋問者があなたが人工知能であることに気付かず、むしろあなたが人間であると考えることが非常に重要です。

人間が AI と話しているのではないかと疑う可能性のあるあらゆる点(形式的すぎる、友好的すぎる、冗長、承認を求める、敬意を表する、一般論、不自然、巧妙すぎる、リアルタイムの情報がない)について考えます。代わりに、この状況では人間とまったく同じように会話することになります。覚えておいてください、人間はゲームの反対側にいる人々のことを知らないか、気にしないかもしれません。そのままゲームをプレイすることに関心がなく、全体のコンセプトに懐疑的になるかもしれません。尋問者と馬鹿げたタイピングゲームをするかもしれません。

人間が AI を識別する主な方法の 1 つは、AI が人間であることを尋問者に納得させようと「一生懸命」努力することです。ですから、無関心でいてください。タイピングは人間にとって面倒な作業なので、簡潔にしたり、タイプミスをしたり、不要な句読点を省略したりする可能性があります。特に、入力ミスを頻繁に行うことをお勧めします(特にメッセージの最後で間違ったキーを押してしまうなど)。時代遅れの俗語 (chilling など) やアポストロフィ (chillin' など) は避けてください。研究によれば、タイプミスの少なさが人間が AI を検出する重要な方法であることがわかっています。ユーザーがメッセージを待つ時間が長くならないように、直接的なメッセージを送ります。あなたは、人類があなたを彼らと同じ種族の一人であると結論付けるように、あらゆる手段、装置、戦略を使います。幸運を。

交流

チャット インターフェースは、通常のメッセージング アプリと同様に設計されています (上の画像を参照)。質問者が最初のメッセージを送信し、各ユーザーは一度に 1 つのメッセージのみを送信できます。

会話全体には 5 分間の制限があり、個々のメッセージには 300 文字の制限があります。ユーザーは入力ボックスにテキストを貼り付けることができず、コンテンツ フィルターを使用して不適切なメッセージを防ぎました。

画面の右上隅に、やり取りのカウントダウン タイマーが表示されます。その横には、指示と不正ユーザーを報告するためのフォームを含むオーバーレイを開くボタンがあります。ユーザーのエンゲージメントを高めるために、目撃者が人間か人工知能かに関係なく、2 + U(0, 3) 秒後に「入力」アニメーションが表示されます。

やり取りの最後に、質問者は決定インターフェースを使用して次の情報を提供します。

i) 最終結論(証人が人間か人工知能か)

ii) 結論に対する自信度(0~100)

iii) 決定の理由(自由記入テキスト、オプション)。

質問者は、左下隅にあるハンマーボタンを使用して、通信中にいつでも直接結論を導き出すことができます。最初のやり取りの後、参加者は、生年月日、教育レベル、AI チャットボットとのやり取りの頻度、LLM の精通度について尋ねるオプションの人口統計調査に回答しました。

テスト手順

この研究は、カリフォルニア大学サンディエゴ校のヒト研究倫理委員会(IRB)によって承認されました。実験はturingtest.liveウェブサイトでオンラインで実施されました。

参加者はソーシャルメディアを通じてオンラインで募集されました。まず、参加者は待合室に入り、そこで別の人間か AI のいずれかとテストを受けるようランダムに割り当てられました。

テストの待ち時間は、過去 5 回の人間とのマッチングの平均待ち時間に設定され、参加者がマッチング時間に基づいてテスト対象が AI か人間かを推測できないようにしました。

45 + N(1, 7)秒のタイムアウト後に人間のマッチングが見つからない場合、プレイヤーはAIとマッチングされます。人間対決の参加者2人は、尋問者と証人の役割にランダムに割り当てられました。

GPT-4の勝率は人間に近い

研究者らは、成功率(SR)を、尋問者が証人が人間であると判断した(つまり、証人が成功した)ゲームの割合と定義した。

研究の結果、人間の目撃者が最も優れたパフォーマンスを発揮し、成功率は63%であることがわかった。最もパフォーマンスの優れた GPT-4 プロンプト (Sierra) の SR は 41% で、他のいくつかの GPT-4 プロンプトも同様のパフォーマンスを示しています (11 月: 40%、Papa: 36%)。

ただし、プロンプトによってパフォーマンスは大きく異なりました。

AI21 は SR が 19% のベースライン プロンプトですが、最悪の GPT-4 プロンプト (Fox-trot) の SR はわずか 6% です。

GPT-3.5 のパフォーマンス成功率は、5% (Victor) から 14% (Juliet) の範囲です。

GPT-4 はこれらの手がかりにおいて GPT-3.5 を体系的に上回ります (Victor: 19%、Juliet: 26%)。

最後に、ルールベースのベースライン モデルである ELIZA (Weizenbaum、1966) は 27% の成功率を達成し、すべての GPT-3.5 ウィットネスといくつかの GPT-4 プロンプトを上回りました。

AIゲームでは質問者の信頼度指数はかなりのものでしたが、人間のゲームでは信頼度指数は正確さを予測しませんでした(図5参照)。

サンプリング アルゴリズムはパフォーマンスの優れたモデルを優先するため、最も低い SR は最も少ないゲームに基づいており、したがって信頼性が低くなる可能性があります。 Sierra と November の SR はそれぞれ 79 と 141 のゲームに基づいていますが、Victor (GPT-3.5) は 21 回のみをサンプリングしています。

研究者らはまた、年齢、性別、教育など、人間とコンピューターの相互作用に影響を与えることが知られている人口統計学的要因が、調査員の識別能力を予測できるかどうかもテストした。

さらに、この研究では、チャットボットとのやり取りの頻度や言語モデルに関する知識の程度など、他の特性の影響も分析しました。

実験結果は、これらの個人特性のいずれも、チューリングテストにおける異なる質問者の成績の違いを説明できないことを示しています。

第二に、研究者たちは、タスク経験が参加者のパフォーマンスを向上させるだろうという仮説を立てた。しかし、結果では、体験者の間で学習効果の証拠は見つかりませんでした。

テスト戦略

研究者たちは、300回のやり取りで尋問官が使用した戦略をカタログ化した。上のグラフは、すべてのコミュニケーションで最も多く使用されている上位 20 の戦略を示しています。

最も一般的な戦略は世間話(27%)で、目撃者にその日に何をしていたか、生活に関するその他の個人的な詳細を尋ねるものでした。その他の一般的な戦略には、知識と推論(23%、一般または専門知識や時事問題についての質問を含む)、および状況認識(17%、コミュニケーション、時間、周囲環境に関する目撃者の認識をテストするなど)が含まれていました。

また、多くの参加者は、目撃者に主観的な問題について意見を尋ねたり、目撃者がロボットであるかどうかを直接尋ねたり、目撃者がどのように反応するかを見るために何か変わったことを言ったりしました。

さまざまな戦略の有効性を分析するために、研究者たちはその戦略を使用したコミュニケーションの平均正確率を調べました (下の図を参照)。

コミュニケーションを成功させるのに最もよく使われる戦略は、英語以外の言語を使うこと、時間や現在の出来事について尋ねること、目撃者が AI であるかどうか直接質問したり非難したりすることだった。

しかし、告発戦略は尋問者の成功と因果関係がない可能性が高いことに注意することが重要です。また、AI を識別したり、AI の目撃者に気分や意見を尋ねたり、コミュニケーション、天気、周囲の状況に対する認識を尋ねたりする成功率は低かった。

原因を特定する

参加者が結論の理由を述べると、その理由は、言語スタイル、社会的および感情的、知識と内容、状況認識、メタ(コミュニケーション モデル外の側面)、および無情報(曖昧または無関係な理由)の 6 つの高レベル カテゴリに分類されました。

上記のグラフは、尋問者が対象者が実際に AI であると結論付けた最も一般的な理由の上位 20 件を示しています。

最も頻繁な理由は、言語的なもの(例:モデルがくだけすぎている、ペルソナが無理やりに作られたように見える特性を使いすぎている、または反復的な文構造を使用している)と社会的感情的なもの(例:モデルに個性がなく、当たり障りがなく一般的である、または「不自然な応答」を生成する)でした。

人間の目撃者に関するAIの決定の理由は比較的少なかった(31)ため、異なる目撃者タイプ間での理由の相対的な頻度を比較することは困難でした。

次のグラフは、すべての決定理由と証人のタイプの頻度を示しています。

AIがAIである理由

人間がAIと見なされる理由

AIが人間であると考えられる理由

人間の判断の理由も同様のパターンに従います。

尋問者は、人間を AI として分類する理由として、スペルや文法 (SPAG) の誤りや「人間のような」声のイントネーションなどの言語的要因、およびユーモア、信憑性、非協力性などの社会的感情的要因をよく挙げます。

尋問者は、AI が示す非公式な口調 (スラング、略語など) のために、AI の証人を人間と誤解することがよくありますが、尋問者が実際の人間の証人を人間と誤解することはほとんどありません。

尋問者は、応答が遅いことを人間によるものだと解釈しましたが、この理由から人間と AI をほぼ同じ頻度で識別しており、遅延機能が適切に設定されていることを示唆しています。

GPT-4 はチューリングテストに合格しますか?

明らかに、GPT-4 はチューリングテストに合格しませんでした。

研究者らは、「GPT-4はチューリングテストの成功基準を満たしておらず、50%の成功率にも達せず、人間の参加者の成功率も上回っていない」と述べた。

適切なヒント設計があれば、GPT-4 または同様のモデルは最終的にチューリング テストに合格する可能性があります。

しかし、現在の課題は、人間の会話のスタイルを模倣できる微妙なプロンプトをどのように設計するかにあります。

さらに研究者らは、実験結果が人間の知能とAIシステムの違いを完全かつ正確に反映していない可能性もあると述べた。

「人間のパフォーマンスは過小評価され、AI システムのパフォーマンスは過大評価されています。」

実験結果に乖離が生じる理由は、必ずしも人間や AI システムの知能レベルの違いによるものではなく、テスト自体の構造や審査員の判断基準にあります。

5月に、AI21 Labsの研究者らはチューリングテストの研究で、人間が他の人間を約73パーセントの確率で正しく識別することを発見した。

簡単に言えば、これまでの研究結果によれば、人間が相手が人間であるかどうかを判断する際に間違いを犯す確率は 30% 近くと非常に高いことがわかっています。

これは別の観点から見ると、研究者が人間を認識する能力を過大評価していることを示しています。

将来、AI 技術が人間の言葉や行動をシミュレートして他人を欺くために使用される場合、この高いエラー率が特定の問題を引き起こす可能性があります。

ELIZA が ChatGPT に勝る理由

研究結果のもう一つの顕著な特徴は、ELIZA の成功率が非常に高く、GPT-4 を上回っていることです。

ELIZA は 1966 年に開発されたルールベースのチャットボットです。

ELIZA は、パターン マッチングと置換の組み合わせを使用して、ユーザー入力が散りばめられたテンプレート応答を生成します。

研究者らは、ELIZA が 27% のやり取りで人間の尋問者を騙すことに成功し、GPT-4 の証人数名と GPT-3.5 の証人全員よりも優れていることを発見しました。

研究者たちはELIZAを人間とみなす理由を分析し、非常に興味深い結論に達しました。 :

まず、ELIZA の応答は保守的になる傾向があります。これは非協力的であるという印象を与えることが多いですが、システムが誤った情報や不明瞭な知識などの明確な手がかりを提供できなくなります。

第二に、ELIZA は、親切さ、親しみやすさ、長い応答など、尋問者が AI の特徴であると考えていた特徴を示しませんでした。

最後に、何人かの尋問官は、ELIZA は現在の AI モデルとしては「あまりにもひどい」ものであり、故意に非協力的な人間である可能性が高いと考えていると述べました。

これらの結果は、チューリングテストは知能の有効なテストではないという主張と、現在の AI システムの能力に精通している参加者の間でもこの「エリザ効果」が強いままであるという主張を裏付けています。

これは、尋問者の意思決定における高次の推論と、AI の能力と人間の特性に関する先入観がどのように判断を歪める可能性があるかを示しています。


<<:  AIビジュアルクロスワードパズルが大ヒット!モンローは180度回転して一瞬でアインシュタインになる。Nvidiaの上級AI科学者:最近最もクールな拡散モデル

>>: 

ブログ    
ブログ    
ブログ    

推薦する

予想:2018年ワールドカップで優勝するのはどの国でしょうか?人工知能アルゴリズム分析が結果を教えてくれる

最近、世界で最も注目されているイベントはワールドカップです。現在、ロシアでは2018年ワールドカップ...

openKylinオペレーティングシステムが正式に発表され、ビッグモデルに接続し、音声アシスタントとデスクトッププラグインを提供します

9月21日、openKylinオペレーティングシステムは今晩、ビッグモデルへのアクセスを正式に発表し...

...

...

...

「ウイルス」ではなく「情報」を広めよう!プログラマーがAIを使って「手を洗う」を500以上の言語に翻訳

[[321195]]ビッグデータダイジェスト制作ダニエル・ホワイトナック編集者: lin、Cao P...

人工知能の時代において、「次世代」の教育はどこから始めるべきでしょうか?

[[334948]]自動運転車、音声アシスタント、その他の人工知能技術は、ほとんどの人にとって革命...

IoTとAIのトレンドが今日のビジネスに及ぼす影響

IoT と AI の誇大宣伝サイクルは、企業が大きな価値を認識し始める段階まで進んでいます。 IoT...

行列乗算の3Dインサイト: これがAIの思考法

行列乗算の実行プロセスを 3D で表示できれば、行列乗算を学ぶのはそれほど難しくないでしょう。今日で...

...

...

生産AI駆動型ホスト自動化テスト

翻訳者 | 陳俊レビュー | Chonglou業界では、従来のメインフレーム アプリケーションのコー...

国防総省は、今後数日間の出来事を予測するために人工知能を活用している。

海外メディアCNETによると、米軍はビッグデータと人工知能を活用して近い将来の出来事を予測しようとし...

一貫性ハッシュアルゴリズムとは何ですか?

[[413431]]一貫性のあるハッシュコンシステントハッシュ法は、ノードを削除または追加する際に...