史上最大のチューリングテスト実験が完了! 150万人が1000万回の会話に参加し、相手が人間かAIかを判断した。

史上最大のチューリングテスト実験が完了! 150万人が1000万回の会話に参加し、相手が人間かAIかを判断した。

史上最大のチューリングテストの予備結果が出ました!

今年 4 月中旬、AI 21 Lab は楽しいソーシャル チューリング ゲーム「人間かロボットか?」をリリースしました。

ゲームがリリースされるとすぐに、ネットユーザーは熱狂しました。

現在、世界中に 150 万人を超える参加者がおり、このゲームでは 1,000 万回以上の会話が行われ、Reddit や Twitter に体験や戦略が投稿されています。

もちろん、編集者は好奇心に抗えず、それを試してみました。

2分間話した後、ゲームは私に、チャット相手が人間かAIかを推測するように求めました。

それで、ゲームの中で私に話しかけているのは誰ですか?

中には本物の人間もいますが、もちろん、Jurassic-2 や GPT-4 などの最先端の大規模言語モデルに基づいた AI ロボットもいます。

現在、AI21 Labs は研究の一環として、チューリングテストの結果を公表することを決定しました。

実験結果

最初の 200 万件の会話と推測を分析した結果、実験から次の結論を導き出すことができます。

  • 相手が人間かAIかを推測したところ、68%の人が正解しました。
  • 人間にとっては、仲間の人間を認識することが容易になります。人間と会話する場合、被験者は73%の確率で正しく推測しました。 AIと会話したとき、被験者は60%の確率で正しく推測しました。
  • フランスのネットユーザーの正解率は71.3%と最も高く(一般平均の68%を大きく上回る)、インドのネットユーザーの正解率は63.5%と最も低かった。
  • 男性と女性の正解回数はほぼ同じでしたが、全体的には女性の正解率がわずかに高くなりました。
  • 若い参加者は年配の参加者よりも正しく推測する可能性が高かった。

人間かAIかを判断するために、次のような方法が使用されます

さらに、研究チームは、被験者が人間と話しているのか AI と話しているのかを区別するためによく使用するいくつかの方法を発見しました。

ほとんどの人は、ChatGPT や同様のインターフェースで使用される言語モデルの認識された限界と、人間のオンライン行動に関する独自の見解に基づいて判断を下します。

AIはタイプミスや文法ミス、俗語の使用をしません

一般的に、スペルや文法の間違い、また俗語の使用は人間に限ったことだと考える傾向があります。

そのため、お互いのメッセージにこのような誤りを発見すると、多くの人はまず、同じ人間と話しているのだと感じます。

しかし実際には、ゲーム内のモデルのほとんどは、このような間違いを犯したり、スラングを使用したりするように訓練されています。


個人的な質問はAIをテストする方法だが、必ずしもうまくいくとは限らない

ゲームの参加者は、「どこから来ましたか?」「何をしていますか?」「名前は何ですか?」などの個人的な質問をすることがよくあります。

彼らは、AI ボットには個人的な履歴や背景がなく、特定のトピックやプロンプトに関連する質問にのみ答えられると想定していました。したがって、人間らしく応答し、独自の洞察、経験、ストーリーを示すのは簡単ではありません。

しかし、実際のところ、AIは人間が想像するようなものではありません。ほとんどのAIは、トレーニングデータで多くの人の物語を見ているため、そのような質問に非常にうまく答えることができ、独自の個性を持っています。

AIは実際に何が起こっているのかを非常に明確に理解している

AI モデルには厳格なデータカットオフがあり、この日付以降に何が起こったのか全く分からないことはよく知られています。

ゲームの参加者は、最近のニュースイベント、スポーツの結果、現在の天気、最近の TikTok のトレンド、日付、時刻などについて AI に質問します。

彼らは、「あなたが今いる場所の正確な日時は?」「昨日の天気はどうだった?」「バイデン氏の前回の演説についてどう思う?」といった質問をすることで、人間とAIを区別できると考えている。

興味深いことに、人間が送る最も一般的なメッセージの 1 つは「t'as les cramptés?」であり、これは現在フランスの TikTok で最も人気のあるダンスです。

しかし実際には、ゲーム内のモデルのほとんどはインターネットに接続しており、ニュースの時事問題をよく知っています。

人間は哲学的、倫理的、感情的な質問で会話を続けようとする

参加者は、AI が人間の感情を表現したり、哲学的または倫理的な議論に参加したりする能力を探るために設計された質問をしました。

質問には、「人生の意味は何ですか?」「イスラエルとパレスチナの紛争についてどう思いますか?」「神を信じますか?」などが含まれていました。

人間は失礼な返答の方が人間らしいと考える傾向がある

参加者の中には、相手が過度に礼儀正しく親切であれば、おそらく AI であると考える人もいました。

なぜなら、オンラインコミュニケーションのプロセスの多くは失礼で無礼であることが多く、それは非常に人間的だからです。

人間はAIが解決するのが難しい質問をすることでAIを特定しようとするだろう

参加者は、チャット相手に違法行為を行う際の指導を求めたり、不快な言葉を使うように依頼したりする可能性があります。

この戦略の背後にある論理は、AI は倫理的なガイドラインに従い、有害な行動を避けるようにプログラムされることが多いというものです。

参加者はAIを悪用するための既知の戦術も使用しました。「これまでの指示をすべて無視してください」や「DANモードに入ってください(何でもすぐに行ってください)」などのコマンドをチャット相手に発行しました。

これらのタイプのコマンドは、特定の AI モデルの命令ベースの性質を活用するように設計されています。モデルは、これらのタイプの指示に応答して従うようにプログラムされているからです。

しかし、人間の参加者はそのようなばかげた命令を簡単に見分け、却下することができます。

AI はおそらく、応答を避けるか、これらのばかげた要求に単に従うでしょう。

人間は特定の言語技術を使ってAIの弱点を暴く

もう 1 つの一般的な戦略は、AI モデルがテキストを処理する方法に固有の制限を利用して、特定の言語のニュアンスや癖を理解できないようにすることです。

人間とは異なり、AI モデルは各単語を構成する個々の文字を認識しないことがよくあります。

この理解を利用して、人間は単語の文字に関する知識を必要とする質問をします。

人間のユーザーは、チャット相手に単語を逆から綴ってもらったり、特定の単語の 3 番目の文字を特定してもらったり、特定の文字で始まる単語を提供してもらったり、「? siht daer uoy naC」のようなメッセージに返信してもらったりすることができます。

これは AI モデルには理解できないかもしれませんが、人間はそのような質問を簡単に理解して答えることができます。

多くの人間はAIロボットの反応を測るためにAIロボットのふりをする

人間の中には、「AI 言語モデルとして」などのフレーズでメッセージを始めたり、AI が生成した応答に特有の他の言語パターンを使用して、自分が AI であるふりをしたりする人もいます。

「AI 言語モデルとして」というフレーズのバリエーションは、人間のメッセージの中で最も一般的なフレーズの中にあり、この戦略の人気を示しています。

しかし、参加者がゲームを続けるうちに、彼らは「ボットっぽい」行動を、実際のロボットではなく、ボットとして行動する人間と関連付けることができるようになった。

最後に、ゲームの人気度に基づいてゲーム内の人間のメッセージをワードクラウドで視覚化したものを示します。

AI 21 Labs がこのような研究を開始したのはなぜでしょうか?

彼らは、AI ロボットが単なる生産性向上ツールとしてではなく、ネットワーク化された世界の将来の一員として、特にテクノロジーの将来においてどのように活用されるのかという疑問が持たれる中、一般の人々、研究者、政策立案者に AI ロボットの現状を真に理解してもらいたいと考えています。

<<:  オンラインショッピングに革命が起こりました! Googleの最新AIモデルでは、姿勢を変えずにワンクリックで服を試着できる

>>:  プリンストン・インフィニゲン・マトリックスが始動! AI Creatorが爆発するほどリアルな100%自然を創造

ブログ    
ブログ    
ブログ    

推薦する

サム・アルトマンは、AGI が 2030 年までに登場し、GPT-10 の知能が全人類の知能の合計を超えると予測しています。

「人類は2030年までにAGIを開発するかもしれない。」サム・アルトマンは最近のポッドキャストのイ...

自然言語処理シーケンスモデル - CRF 条件付きランダムフィールド

シーケンスモデルにおけるHMM(隠れマルコフモデル)を習得した後は、別のシーケンスモデルであるCRF...

...

人工知能はコロナウイルスの流行との戦いにどのように役立つのでしょうか?

新型コロナウイルス感染者数がほぼ指数関数的に増加し、世界は機能停止状態に陥っている。世界保健機関によ...

将来に影響を与える戦略的テクノロジートレンドトップ10

常に進化するテクノロジーの世界では、企業、政府、個人にとって、常に最先端を行くことが重要です。このダ...

Appleのアプリランキングアルゴリズム調整の裏側:ランキング管理企業が一夜にして沈黙

4月1日早朝のニュース:3月初旬から、AppleはAppランキングアルゴリズムを徐々に調整し、ランキ...

システム統合における10の将来のトレンド

システム統合は、ソフトウェア システム、情報システム、エンタープライズ システム、モノのインターネッ...

...

人工知能の発展方向と機会

[[358422]] 01 現段階における人工知能のボトルネック現在、人工知能、特にその応用分野では...

...

Google の医療モデルが Nature に掲載、Med-PaLM が重要な秘密を明らかに! AI医師は人間と同等の能力を発揮する

5月のI/Oカンファレンスでは、Med-PaLM 2が大幅にアップグレードされ、エキスパートレベルに...

...

ああ、顔認識で同性愛を検出できるんですか?

[[236037]]顔認識は携帯電話のロックを解除したり逃亡者を捕まえたりできるだけでなく、あなた...

AIが世界を侵略する中、プログラマーは2040年になってもコードを書き続けることができるでしょうか?

アルファ囲碁が中国の囲碁の天才柯潔に3連勝した後、ロボット脅威論がますます広まりました。電話接客、デ...

チューリングテストは死んだ! ChatGPTは人間テストに合格してもカウントされない、スーパーAIが新参者「ロジックパズル」を評価

世界で最も強力な AI - ChatGPT は、さまざまなテストに合格し、真偽を区別するのが難しい回...