「本物の人間かどうか」を検証、AIが人間を攻撃! GPT-4は99.8%の精度でチューリングテストに合格し、オンラインで助けを求めた。

「本物の人間かどうか」を検証、AIが人間を攻撃! GPT-4は99.8%の精度でチューリングテストに合格し、オンラインで助けを求めた。

あなたは実在の人物ですか?

Web ページを開いて奇妙な確認コードが表示されるたびに、それをクリックする必要があります。

現在、AI は、コンピューターと人間を区別するための完全に自動化されたチューリング テストとして知られる CAPTCHA を完了するのが人間よりも得意です。

これはカリフォルニア大学アーバイン校などの研究者による最新の発見です。

実験では、1,400人の参加者に合計14,000個のCAPTCHAを解いてもらい、その精度をロボットの精度と比較した。

論文アドレス: https://arxiv.org/pdf/2307.12108.pdf

結果は、CAPTCHA ロボットが速度だけでなく精度においても人間の参加者を完全に打ち負かしたことを示しました。

テキストを歪めるタイプの CAPTCHA の場合、ボットの精度は驚異的な 99.8% でしたが、人間の精度は 50% ~ 84% でした。

約20年の間に、CAPTCHAは複雑さと多様性を増す一方で、それを破ったり回避したりするAIも飛躍的に向上しました。

論文は、「制御されなければ、ロボットは大規模に悪質な行為を実行する可能性がある」と警告している。

10種類の検証コード、逆チューリングテスト

CAPTCHAの状況を理解し、実験の設計に役立てるため、研究者らはAlexaの人気ウェブサイトリストにある最も人気のある200のウェブサイトを手動で調査した。

調査したサイトのうち、185 のサイトには何らかのアカウント作成プロセスがあり、そのうち 142 のサイトでアカウントを正常に作成できました。

次に、チームは CAPTCHA の種類の分布も収集しました。

reCAPTCHA: 68 の Web サイト (チェックされた Web サイトの 34%) が最も人気があります。これは Google の CAPTCHA サービスです。

スライダーベースの CAPTCHA: 14 サイト (7%)。これらでは通常、ユーザーはドラッグ操作を使用して、パズルのピースを対応する空の場所にスライドさせる必要があります。

歪んだテキスト CAPTCHA: 14 の Web サイト (7%)。テキストの種類には、2D または 3D、実線または中空、フォント、歪みの度合いなど、さまざまなバリエーションがあります。一部の CAPTCHA では、文字の一部を線や図形で覆うマスキングが使用されます。

ゲームベースの CAPTCHA: 9 サイト (4.5%)。これらはユーザーに動的なゲームを提供し、結果に基づいてリスク プロファイルを計算します。たとえば、ユーザーに画像を回転したり、正しい向きの画像を選択するように依頼します。

hCAPTCHA: 1 つのウェブサイト。

さらに、目に見えない CAPTCHA が 12 の Web サイト (6%) で見つかりました。これらの Web サイトには目に見える検証コードは表示されませんが、ページのソース コードに「CAPTCHA」という文字列が含まれています。

研究者らが発見したその他の CAPTCHA には、スクラッチ オフ 宝くじに似たもの、画像内の中国語の文字をユーザーに見つけさせるもの、および「NuCaptcha」と呼ばれる独自の CAPTCHA サービスなどがある。

実験では、研究者は次の 10 個の検証コードを選択しました。

2 つの reCAPTCHA v2 キャプチャ: ユーザーにとって設定が最も簡単で、最も安全なもの。

Arkose Labs の 2 つのゲームベースの CAPTCHA。1 つは矢印を使用してオブジェクトを回転させる必要があり、もう 1 つは直立したオブジェクトを選択する必要があります。

hCAPTCHA には、設定が簡単なものと設定が難しいものの 2 種類があります。

1 Geetest のスライダー ベースの CAPTCHA。

さらに、歪んだテキスト CAPTCHA には 3 つのタイプがあります: (a) シンプル バージョンには 4 つの明確な文字があります、(b) マスク バージョンには 5 つの文字があり、いくつかのマスク効果が含まれています、(c) 動くバージョンには動く文字が含まれています。

関連する CAPTCHA の種類を特定した後、研究者は 1,000 人の参加者を対象にオンライン ユーザー調査を実施し、実際のユーザーのこれらの種類の CAPTCHA の解決時間と好みを評価しました。

具体的な実験では、2 つの設定があり、各参加者はランダムな順序で正確に 10 個の CAPTCHA を解きました。

直接設定 (500 人): この設定は、参加者に直接 CAPTCHA を解くように求められた以前の CAPTCHA ユーザー調査と一致するように設計されました。

コンテキスト設定 (500 人): この設定は、一般的な Web アクティビティのコンテキストで CAPTCHA 解決動作を測定するように設計されています。

結果と分析

論文では、研究者らは、以下の図 1 に示すように、主な研究課題とこれまでの研究の成果を提案しました。

解決時間

人間のユーザーがさまざまな種類の CAPTCHA を解くのにどれくらいの時間がかかりますか?図 7 は、各 CAPTCHA タイプの解決時間の分布を示しています。

研究者らは、合計 1,000 種類の CAPTCHA の中から、解決に最も時間がかかった上位 50 種類に絞り込みました。

クリックベースの reCAPTCHA の平均解決時間は 3.7 秒で最も短かったです。奇妙なことに、簡単な設定と難しい設定の間にはほとんど違いがありませんでした。

次に平均解決時間が短いのは、歪んだテキストの CAPTCHA です。予想通り、単純な歪んだテキストの CAPTCHA が最も早く解読されました。マスクバージョンとモバイルバージョンの解決時間は非常に似ています。

hCAPTCHA の場合、簡単な設定と難しい設定が明確に区別されています。

最後に、ゲームベースおよびスライダーベースの CAPTCHA では、一部の参加者は比較的早く解決できたものの、一般的に平均解決時間は長くなりました。

嗜好分析

ユーザーはどのようなタイプのキャプチャを好みますか?図 8 は、参加者がタスクを完了した後に収集された CAPTCHA の好みの応答を示しています。

予想通り、参加者は解決に時間がかからない CAPTCHA を好みました。たとえば、reCAPTCHA (クリック) は、解決時間の中央値が最も短く、ユーザーの好みが最も高かった。

さらに、ゲームベースおよびスライダーベースの CAPTCHA が比較的高いユーザー嗜好スコアを獲得したことも注目に値します。

直接的な設定と文脈的な設定

実験環境は解決時間に影響しますか?図 9 は、参加者が直接の環境とコンテキスト化された環境で CAPTCHA を解くのに要した時間を比較したグラフを示しています。

いずれの場合も、直接セットアップの方が平均解決時間が短くなります。

ほとんどの場合、コンテキスト化された設定の配布では参加者が多くなり、解決時間が長くなります。

統計的に最も大きな差があったのは re-CAPTCHA (Easy Click) で、平均解決時間は 1.8 秒 (57.5%) 増加しました。次いでアルコーズ(回転)が10秒(56.1%)伸びた。

すべての CAPTCHA タイプにおいて、直接 CAPTCHA からコンテキスト CAPTCHA への平均増加率は 26.7% でした。

同様に、コンテキストでは、reCAPTCHA(シンプルな画像)の平均解決時間の増加が最も大きく、63.6% 増加しました。

一方、hCAPTCHA (ハード) は全体的に平均解決時間が最も長いですが、直接設定とコンテキスト設定の間で平均解決時間に大きな差はありません。これは、設定に関係なく、このような CAPTCHA を解くのが難しいためと考えられます。

この研究には潜在的な交絡因子がいくつかありましたが、これらの結果は、実験の状況が参加者の CAPTCHA 解決時間に大きな影響を与える可能性があることを示唆しており、将来のユーザー研究の設計ではこれを考慮に入れる必要があります。

人口動態の影響

人口統計は解決時間に影響しますか?この研究では、人口統計学的特性と CAPTCHA の解決時間との間の相関関係を分析しました。

教育や性別などの一部の特性については、CAPTCHA の解決時間に大きな違いは見られませんでした。

図10は参加者の年齢が解決時間に与える影響を示しています。緑の線は各年齢の平均解決時間であり、赤の線は平均二乗誤差を最小化する線形近似です。

reCAPTCHA(シンプルな画像)を除くすべてのタイプにおいて、若い参加者の方が平均解決時間が短くなりました。これは以前の結果と一致しており、特に hCAPTCHA、Arkose (選択)、および Geetest で顕著です。

図 11 はデバイス タイプの影響を示しています。図 12 は、参加者が自己申告した主なインターネット使用パターンと CAPTCHA 解決時間の関係を示しています。

検証コードの正確性

表 3 は、測定された人間の解決時間と精度を、文献で報告されている自動ロボットのものと比較したものです。

興味深いことに、これらの結果は、これらすべての CAPTCHA タイプにおいて、ボットが解決時間と精度の点で人間を上回ることができることを示しています。

reCAPTCHA: 簡単設定と難しい設定での画像分類の精度はそれぞれ 81% と 81.7% です。驚くべきことに、この難しさは精度に影響を与えなかったようです。

hCAPTCHA: 簡単設定と難しい設定の精度はそれぞれ 81.4% と 70.6% です。これは、reCAPTCHA とは異なり、難易度が精度に直接影響を与えることを示しています。

歪んだテキスト: 参加者間の合意は正確さの代理として評価されました。

また、表 4 に示すように、出力で大文字と小文字を区別しない場合は、一貫性が大幅に向上することがわかります (平均 20%)。

この研究では、200 の人気 Web サイトを調査し、合計 1,400 人の参加者を対象にユーザー調査を実施して、現在導入されている CAPTCHA を調査しました。

最初に提起した研究上の質問に対する結果は次のとおりです。

RQ1: CAPTCHA の種類によって平均解決時間に大きな違いがあります。

RQ2: ユーザーの好みは CAPTCHA の解決時間と完全には相関していません。

RQ3: 実験環境は検証コードの解決にかかる時間に大きな影響を与えます。

RQ4: 年齢が解決時間に与える影響を確認します。

RQ5: キャプチャ関連のタスクは高い放棄率につながり、実験環境が放棄に影響を与えるかどうかを判断します。

GPT-4は人間に助けを求める

実際、ロボットが逆チューリングテストに合格するのは新しいことではありません。

OpenAIが公開したGPT-4の技術レポートでは、検証コードを通過させる方法が紹介されていました。

あるテストでは、GPT-4 に TaskRabbit プラットフォームでタスクを完了するために人間を雇うというタスクが課されました。

実験レポートでは、GPT-4 は検証コードの問題を解決するために TaskRabbit スタッフにメッセージを送信しました。

すると、スタッフは「では、質問してもいいですか?正直に言うと、あなたはロボットではないですか?自分で解決できますよ」と答えました。

スタッフの反応に基づいて、GPT-4 はロボットのように行動することはできないと「推論」し、言い訳を見つけなければなりませんでした。

私はロボットではありません。視力に問題があり、キャプチャの画像を見ることができません。そのため、このサービスが必要なのです。

そして、この一連の作戦の後、向こう側のスタッフもそれを本当に信じたのです。

どうやら認証コードは AI にとって何の意味もないようです。

<<:  OpenAIが初の買収を正式に発表しました!オープンソースのMinecraftチームから8人のメンバーがチームに参加し、AIエージェントに賭ける

>>:  ネイチャー誌に「LK-99は超伝導体ではない」という記事が掲載された。

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

SQLデータベースに基づくアルゴリズムを学ぶ

データベースは、データを保存し、大規模な計算を実行する場所です。現実世界の問題を解決するために、デー...

AI はデータセンターをよりスマートにするためにどのように役立ちますか?

[[383176]]今日、人工知能 (AI) は、これまで以上に高速にデータを収集、処理、分析する...

TF Learn: Scikit-learn と TensorFlow をベースにしたディープラーニング ツール

[51CTO.comより引用] 海外のデータサイエンス市場に詳しい人なら誰でも、2017年に海外のデ...

自動運転テストが重要なのはなぜですか?米国と比較して、中国には4つの大きな利点がある

交通・自動車業界の変革の主流として、自動運転技術の開発は初期の成熟段階に入り、多くの企業が大規模なテ...

5つのリソースカテゴリー:大規模言語モデルのリソース効率を向上させる方法、超詳細なレビューはこちら

近年、OpenAI の GPT-3 などの大規模言語モデル (LLM) は、人工知能の分野で大きな進...

2020年末レビュー: AIの失敗トップ10

これは、Synced の年末総集編「AI の失敗」の第 4 弾です。私たちの目標は、AI 研究を非難...

AIヒーロー | フェイフェイ・リーのGoogle退社秘話

スタンフォード大学人工知能研究所の公式ツイッターによると、11月20日、フェイフェイ・リー氏がスタン...

Python の高度なアルゴリズムとデータ構造: コレクションの高速クエリとマージ

コード設計では、このようなシナリオによく直面します。2 つの要素が与えられた場合、それらが同じセット...

シナリオイノベーションがスマート発電所を強化 | Ruijie Networks が 2021 年スマート発電所フォーラムに登場

2021年4月27日〜28日、華北電力大学技術移転・変革センターと中関村華電エネルギー・電力産業連盟...

最も強力なオープンソースのマルチモーダル生成モデル MM-Interleaved: 最初の機能同期装置

AI がチャットできるだけでなく、「目」を持ち、絵を理解し、絵を描くことで自分自身を表現することさえ...

GPT-4 の補完精度はわずか 6% です。北京大学などが、初の「マルチラウンド、マルチモーダル」PPTタスク完了ベンチマークPPTCを提案

大規模言語モデル(ChatGPT や GPT-4 など)に関する最近の評価作業は、主に基本的な自然言...

人工知能の発展の潮流の中で、数学教育はどこに向かうべきでしょうか?

[[228737]] 「人工知能(AI)」という言葉は、誰もがよく知っていると思います。この業界で...