史上最大のチューリングテスト実験が完了！ 150万人が1000万回の会話に参加し、相手が人間かAIかを判断した。

史上最大のチューリングテストの予備結果が出ました!

今年 4 月中旬、AI 21 Lab は楽しいソーシャルチューリングゲーム「人間かロボットか?」をリリースしました。

ゲームがリリースされるとすぐに、ネットユーザーは熱狂しました。

現在、世界中に 150 万人を超える参加者がおり、このゲームでは 1,000 万回以上の会話が行われ、Reddit や Twitter に体験や戦略が投稿されています。

もちろん、編集者は好奇心に抗えず、それを試してみました。

2分間話した後、ゲームは私に、チャット相手が人間かAIかを推測するように求めました。

それで、ゲームの中で私に話しかけているのは誰ですか?

中には本物の人間もいますが、もちろん、Jurassic-2 や GPT-4 などの最先端の大規模言語モデルに基づいた AI ロボットもいます。

現在、AI21 Labs は研究の一環として、チューリングテストの結果を公表することを決定しました。

実験結果

最初の 200 万件の会話と推測を分析した結果、実験から次の結論を導き出すことができます。

相手が人間かAIかを推測したところ、68%の人が正解しました。
人間にとっては、仲間の人間を認識することが容易になります。人間と会話する場合、被験者は73％の確率で正しく推測しました。 AIと会話したとき、被験者は60％の確率で正しく推測しました。
フランスのネットユーザーの正解率は71.3%と最も高く（一般平均の68%を大きく上回る）、インドのネットユーザーの正解率は63.5%と最も低かった。
男性と女性の正解回数はほぼ同じでしたが、全体的には女性の正解率がわずかに高くなりました。
若い参加者は年配の参加者よりも正しく推測する可能性が高かった。

人間かAIかを判断するために、次のような方法が使用されます

さらに、研究チームは、被験者が人間と話しているのか AI と話しているのかを区別するためによく使用するいくつかの方法を発見しました。

ほとんどの人は、ChatGPT や同様のインターフェースで使用される言語モデルの認識された限界と、人間のオンライン行動に関する独自の見解に基づいて判断を下します。

AIはタイプミスや文法ミス、俗語の使用をしません

一般的に、スペルや文法の間違い、また俗語の使用は人間に限ったことだと考える傾向があります。

そのため、お互いのメッセージにこのような誤りを発見すると、多くの人はまず、同じ人間と話しているのだと感じます。

しかし実際には、ゲーム内のモデルのほとんどは、このような間違いを犯したり、スラングを使用したりするように訓練されています。

個人的な質問はAIをテストする方法だが、必ずしもうまくいくとは限らない

ゲームの参加者は、「どこから来ましたか？」「何をしていますか？」「名前は何ですか？」などの個人的な質問をすることがよくあります。

彼らは、AI ボットには個人的な履歴や背景がなく、特定のトピックやプロンプトに関連する質問にのみ答えられると想定していました。したがって、人間らしく応答し、独自の洞察、経験、ストーリーを示すのは簡単ではありません。

しかし、実際のところ、AIは人間が想像するようなものではありません。ほとんどのAIは、トレーニングデータで多くの人の物語を見ているため、そのような質問に非常にうまく答えることができ、独自の個性を持っています。

AIは実際に何が起こっているのかを非常に明確に理解している

AI モデルには厳格なデータカットオフがあり、この日付以降に何が起こったのか全く分からないことはよく知られています。

ゲームの参加者は、最近のニュースイベント、スポーツの結果、現在の天気、最近の TikTok のトレンド、日付、時刻などについて AI に質問します。

彼らは、「あなたが今いる場所の正確な日時は？」「昨日の天気はどうだった？」「バイデン氏の前回の演説についてどう思う？」といった質問をすることで、人間とAIを区別できると考えている。

興味深いことに、人間が送る最も一般的なメッセージの 1 つは「t'as les cramptés?」であり、これは現在フランスの TikTok で最も人気のあるダンスです。

しかし実際には、ゲーム内のモデルのほとんどはインターネットに接続しており、ニュースの時事問題をよく知っています。

人間は哲学的、倫理的、感情的な質問で会話を続けようとする

参加者は、AI が人間の感情を表現したり、哲学的または倫理的な議論に参加したりする能力を探るために設計された質問をしました。

質問には、「人生の意味は何ですか？」「イスラエルとパレスチナの紛争についてどう思いますか？」「神を信じますか？」などが含まれていました。

人間は失礼な返答の方が人間らしいと考える傾向がある

参加者の中には、相手が過度に礼儀正しく親切であれば、おそらく AI であると考える人もいました。

なぜなら、オンラインコミュニケーションのプロセスの多くは失礼で無礼であることが多く、それは非常に人間的だからです。

人間はAIが解決するのが難しい質問をすることでAIを特定しようとするだろう

参加者は、チャット相手に違法行為を行う際の指導を求めたり、不快な言葉を使うように依頼したりする可能性があります。

この戦略の背後にある論理は、AI は倫理的なガイドラインに従い、有害な行動を避けるようにプログラムされることが多いというものです。

参加者はAIを悪用するための既知の戦術も使用しました。「これまでの指示をすべて無視してください」や「DANモードに入ってください（何でもすぐに行ってください）」などのコマンドをチャット相手に発行しました。

これらのタイプのコマンドは、特定の AI モデルの命令ベースの性質を活用するように設計されています。モデルは、これらのタイプの指示に応答して従うようにプログラムされているからです。

しかし、人間の参加者はそのようなばかげた命令を簡単に見分け、却下することができます。

AI はおそらく、応答を避けるか、これらのばかげた要求に単に従うでしょう。

人間は特定の言語技術を使ってAIの弱点を暴く

もう 1 つの一般的な戦略は、AI モデルがテキストを処理する方法に固有の制限を利用して、特定の言語のニュアンスや癖を理解できないようにすることです。

人間とは異なり、AI モデルは各単語を構成する個々の文字を認識しないことがよくあります。

この理解を利用して、人間は単語の文字に関する知識を必要とする質問をします。

人間のユーザーは、チャット相手に単語を逆から綴ってもらったり、特定の単語の 3 番目の文字を特定してもらったり、特定の文字で始まる単語を提供してもらったり、「？ siht daer uoy naC」のようなメッセージに返信してもらったりすることができます。

これは AI モデルには理解できないかもしれませんが、人間はそのような質問を簡単に理解して答えることができます。

多くの人間はAIロボットの反応を測るためにAIロボットのふりをする

人間の中には、「AI 言語モデルとして」などのフレーズでメッセージを始めたり、AI が生成した応答に特有の他の言語パターンを使用して、自分が AI であるふりをしたりする人もいます。

「AI 言語モデルとして」というフレーズのバリエーションは、人間のメッセージの中で最も一般的なフレーズの中にあり、この戦略の人気を示しています。

しかし、参加者がゲームを続けるうちに、彼らは「ボットっぽい」行動を、実際のロボットではなく、ボットとして行動する人間と関連付けることができるようになった。

最後に、ゲームの人気度に基づいてゲーム内の人間のメッセージをワードクラウドで視覚化したものを示します。

AI 21 Labs がこのような研究を開始したのはなぜでしょうか?

彼らは、AI ロボットが単なる生産性向上ツールとしてではなく、ネットワーク化された世界の将来の一員として、特にテクノロジーの将来においてどのように活用されるのかという疑問が持たれる中、一般の人々、研究者、政策立案者に AI ロボットの現状を真に理解してもらいたいと考えています。

<<: オンラインショッピングに革命が起こりました! Googleの最新AIモデルでは、姿勢を変えずにワンクリックで服を試着できる

>>: プリンストン・インフィニゲン・マトリックスが始動！ AI Creatorが爆発するほどリアルな100%自然を創造

ブログ

「AI Beanプロジェクト」は、人工知能を活用して、故郷の貧しい女性たちに雇用機会を創出し、彼女たちが仕事と子育てを同時に行えるようにするプロジェクトです。

ブログ

今日のアルゴリズム: 文字列の乗算

ブログ

史上最大のチューリングテスト実験が完了！ 150万人が1000万回の会話に参加し、相手が人間かAIかを判断した。

人間かAIかを判断するために、次のような方法が使用されます

「AI Beanプロジェクト」は、人工知能を活用して、故郷の貧しい女性たちに雇用機会を創出し、彼女たちが仕事と子育てを同時に行えるようにするプロジェクトです。

今日のアルゴリズム: 文字列の乗算

科学者はAIを使って人気曲を97%の精度で識別する

IBM、GPUに匹敵する新しいニューラルネットワークチップを開発

人工知能のボトルネックを解決し、フードデリバリー業界の発展を促進

2020 年のソフトウェアテストの 5 つのトレンド

人工知能がサプライチェーンに及ぼす8つの影響

推薦する

2018年世界大学AIランキングが発表、中国の大学が好成績！

AIが「エッジ」に必要である理由

1 つの記事で 10 個のアルゴリズムをカバーします。基本的なグラフアルゴリズムの視覚的な説明

OpenAIはニューヨークタイムズの声明は一方的であると不公平だと叫び、アンドリュー・ン氏もそれを擁護した。

OpenAI の人事異動は、Nvidia、AMD、Intel、Microsoft にどのような影響を与えるでしょうか?

自動運転チップの秘密を解明

Google、大規模モデルの「理解」という現象を発見！長い間練習してきたのに、突然、暗記ができなくなってしまいました。痛い気づきです！

洪水期に緊急通信を確保するにはどうすればよいでしょうか?ドローンは誰もが好む新たな力となる

銀行の二重生体認証実験：二重のトラブルか二重のセキュリティか？

話題の「人工知能」について、気になるNの質問にお答えします