「本物の人間かどうか」を検証、AIが人間を攻撃！ GPT-4は99.8%の精度でチューリングテストに合格し、オンラインで助けを求めた。

あなたは実在の人物ですか？

Web ページを開いて奇妙な確認コードが表示されるたびに、それをクリックする必要があります。

現在、AI は、コンピューターと人間を区別するための完全に自動化されたチューリングテストとして知られる CAPTCHA を完了するのが人間よりも得意です。

これはカリフォルニア大学アーバイン校などの研究者による最新の発見です。

実験では、1,400人の参加者に合計14,000個のCAPTCHAを解いてもらい、その精度をロボットの精度と比較した。

論文アドレス: https://arxiv.org/pdf/2307.12108.pdf

結果は、CAPTCHA ロボットが速度だけでなく精度においても人間の参加者を完全に打ち負かしたことを示しました。

テキストを歪めるタイプの CAPTCHA の場合、ボットの精度は驚異的な 99.8% でしたが、人間の精度は 50% ～ 84% でした。

約20年の間に、CAPTCHAは複雑さと多様性を増す一方で、それを破ったり回避したりするAIも飛躍的に向上しました。

論文は、「制御されなければ、ロボットは大規模に悪質な行為を実行する可能性がある」と警告している。

10種類の検証コード、逆チューリングテスト

CAPTCHAの状況を理解し、実験の設計に役立てるため、研究者らはAlexaの人気ウェブサイトリストにある最も人気のある200のウェブサイトを手動で調査した。

調査したサイトのうち、185 のサイトには何らかのアカウント作成プロセスがあり、そのうち 142 のサイトでアカウントを正常に作成できました。

次に、チームは CAPTCHA の種類の分布も収集しました。

reCAPTCHA: 68 の Web サイト (チェックされた Web サイトの 34%) が最も人気があります。これは Google の CAPTCHA サービスです。

スライダーベースの CAPTCHA: 14 サイト (7%)。これらでは通常、ユーザーはドラッグ操作を使用して、パズルのピースを対応する空の場所にスライドさせる必要があります。

歪んだテキスト CAPTCHA: 14 の Web サイト (7%)。テキストの種類には、2D または 3D、実線または中空、フォント、歪みの度合いなど、さまざまなバリエーションがあります。一部の CAPTCHA では、文字の一部を線や図形で覆うマスキングが使用されます。

ゲームベースの CAPTCHA: 9 サイト (4.5%)。これらはユーザーに動的なゲームを提供し、結果に基づいてリスクプロファイルを計算します。たとえば、ユーザーに画像を回転したり、正しい向きの画像を選択するように依頼します。

hCAPTCHA: 1 つのウェブサイト。

さらに、目に見えない CAPTCHA が 12 の Web サイト (6%) で見つかりました。これらの Web サイトには目に見える検証コードは表示されませんが、ページのソースコードに「CAPTCHA」という文字列が含まれています。

研究者らが発見したその他の CAPTCHA には、スクラッチオフ宝くじに似たもの、画像内の中国語の文字をユーザーに見つけさせるもの、および「NuCaptcha」と呼ばれる独自の CAPTCHA サービスなどがある。

実験では、研究者は次の 10 個の検証コードを選択しました。

2 つの reCAPTCHA v2 キャプチャ: ユーザーにとって設定が最も簡単で、最も安全なもの。

Arkose Labs の 2 つのゲームベースの CAPTCHA。1 つは矢印を使用してオブジェクトを回転させる必要があり、もう 1 つは直立したオブジェクトを選択する必要があります。

hCAPTCHA には、設定が簡単なものと設定が難しいものの 2 種類があります。

1 Geetest のスライダーベースの CAPTCHA。

さらに、歪んだテキスト CAPTCHA には 3 つのタイプがあります: (a) シンプルバージョンには 4 つの明確な文字があります、(b) マスクバージョンには 5 つの文字があり、いくつかのマスク効果が含まれています、(c) 動くバージョンには動く文字が含まれています。

関連する CAPTCHA の種類を特定した後、研究者は 1,000 人の参加者を対象にオンラインユーザー調査を実施し、実際のユーザーのこれらの種類の CAPTCHA の解決時間と好みを評価しました。

具体的な実験では、2 つの設定があり、各参加者はランダムな順序で正確に 10 個の CAPTCHA を解きました。

直接設定 (500 人): この設定は、参加者に直接 CAPTCHA を解くように求められた以前の CAPTCHA ユーザー調査と一致するように設計されました。

コンテキスト設定 (500 人): この設定は、一般的な Web アクティビティのコンテキストで CAPTCHA 解決動作を測定するように設計されています。

結果と分析

論文では、研究者らは、以下の図 1 に示すように、主な研究課題とこれまでの研究の成果を提案しました。

解決時間

人間のユーザーがさまざまな種類の CAPTCHA を解くのにどれくらいの時間がかかりますか?図 7 は、各 CAPTCHA タイプの解決時間の分布を示しています。

研究者らは、合計 1,000 種類の CAPTCHA の中から、解決に最も時間がかかった上位 50 種類に絞り込みました。

クリックベースの reCAPTCHA の平均解決時間は 3.7 秒で最も短かったです。奇妙なことに、簡単な設定と難しい設定の間にはほとんど違いがありませんでした。

次に平均解決時間が短いのは、歪んだテキストの CAPTCHA です。予想通り、単純な歪んだテキストの CAPTCHA が最も早く解読されました。マスクバージョンとモバイルバージョンの解決時間は非常に似ています。

hCAPTCHA の場合、簡単な設定と難しい設定が明確に区別されています。

最後に、ゲームベースおよびスライダーベースの CAPTCHA では、一部の参加者は比較的早く解決できたものの、一般的に平均解決時間は長くなりました。

嗜好分析

ユーザーはどのようなタイプのキャプチャを好みますか?図 8 は、参加者がタスクを完了した後に収集された CAPTCHA の好みの応答を示しています。

予想通り、参加者は解決に時間がかからない CAPTCHA を好みました。たとえば、reCAPTCHA (クリック) は、解決時間の中央値が最も短く、ユーザーの好みが最も高かった。

さらに、ゲームベースおよびスライダーベースの CAPTCHA が比較的高いユーザー嗜好スコアを獲得したことも注目に値します。

直接的な設定と文脈的な設定

実験環境は解決時間に影響しますか?図 9 は、参加者が直接の環境とコンテキスト化された環境で CAPTCHA を解くのに要した時間を比較したグラフを示しています。

いずれの場合も、直接セットアップの方が平均解決時間が短くなります。

ほとんどの場合、コンテキスト化された設定の配布では参加者が多くなり、解決時間が長くなります。

統計的に最も大きな差があったのは re-CAPTCHA (Easy Click) で、平均解決時間は 1.8 秒 (57.5%) 増加しました。次いでアルコーズ（回転）が10秒（56.1％）伸びた。

すべての CAPTCHA タイプにおいて、直接 CAPTCHA からコンテキスト CAPTCHA への平均増加率は 26.7% でした。

同様に、コンテキストでは、reCAPTCHA（シンプルな画像）の平均解決時間の増加が最も大きく、63.6% 増加しました。

一方、hCAPTCHA (ハード) は全体的に平均解決時間が最も長いですが、直接設定とコンテキスト設定の間で平均解決時間に大きな差はありません。これは、設定に関係なく、このような CAPTCHA を解くのが難しいためと考えられます。

この研究には潜在的な交絡因子がいくつかありましたが、これらの結果は、実験の状況が参加者の CAPTCHA 解決時間に大きな影響を与える可能性があることを示唆しており、将来のユーザー研究の設計ではこれを考慮に入れる必要があります。

人口動態の影響

人口統計は解決時間に影響しますか?この研究では、人口統計学的特性と CAPTCHA の解決時間との間の相関関係を分析しました。

教育や性別などの一部の特性については、CAPTCHA の解決時間に大きな違いは見られませんでした。

図10は参加者の年齢が解決時間に与える影響を示しています。緑の線は各年齢の平均解決時間であり、赤の線は平均二乗誤差を最小化する線形近似です。

reCAPTCHA（シンプルな画像）を除くすべてのタイプにおいて、若い参加者の方が平均解決時間が短くなりました。これは以前の結果と一致しており、特に hCAPTCHA、Arkose (選択)、および Geetest で顕著です。

図 11 はデバイスタイプの影響を示しています。図 12 は、参加者が自己申告した主なインターネット使用パターンと CAPTCHA 解決時間の関係を示しています。

検証コードの正確性

表 3 は、測定された人間の解決時間と精度を、文献で報告されている自動ロボットのものと比較したものです。

興味深いことに、これらの結果は、これらすべての CAPTCHA タイプにおいて、ボットが解決時間と精度の点で人間を上回ることができることを示しています。

reCAPTCHA: 簡単設定と難しい設定での画像分類の精度はそれぞれ 81% と 81.7% です。驚くべきことに、この難しさは精度に影響を与えなかったようです。

hCAPTCHA: 簡単設定と難しい設定の精度はそれぞれ 81.4% と 70.6% です。これは、reCAPTCHA とは異なり、難易度が精度に直接影響を与えることを示しています。

歪んだテキスト: 参加者間の合意は正確さの代理として評価されました。

また、表 4 に示すように、出力で大文字と小文字を区別しない場合は、一貫性が大幅に向上することがわかります (平均 20%)。

この研究では、200 の人気 Web サイトを調査し、合計 1,400 人の参加者を対象にユーザー調査を実施して、現在導入されている CAPTCHA を調査しました。

最初に提起した研究上の質問に対する結果は次のとおりです。

RQ1: CAPTCHA の種類によって平均解決時間に大きな違いがあります。

RQ2: ユーザーの好みは CAPTCHA の解決時間と完全には相関していません。

RQ3: 実験環境は検証コードの解決にかかる時間に大きな影響を与えます。

RQ4: 年齢が解決時間に与える影響を確認します。

RQ5: キャプチャ関連のタスクは高い放棄率につながり、実験環境が放棄に影響を与えるかどうかを判断します。

GPT-4は人間に助けを求める

実際、ロボットが逆チューリングテストに合格するのは新しいことではありません。

OpenAIが公開したGPT-4の技術レポートでは、検証コードを通過させる方法が紹介されていました。

あるテストでは、GPT-4 に TaskRabbit プラットフォームでタスクを完了するために人間を雇うというタスクが課されました。

実験レポートでは、GPT-4 は検証コードの問題を解決するために TaskRabbit スタッフにメッセージを送信しました。

すると、スタッフは「では、質問してもいいですか？正直に言うと、あなたはロボットではないですか？自分で解決できますよ」と答えました。

スタッフの反応に基づいて、GPT-4 はロボットのように行動することはできないと「推論」し、言い訳を見つけなければなりませんでした。

私はロボットではありません。視力に問題があり、キャプチャの画像を見ることができません。そのため、このサービスが必要なのです。

そして、この一連の作戦の後、向こう側のスタッフもそれを本当に信じたのです。

どうやら認証コードは AI にとって何の意味もないようです。

<<: OpenAIが初の買収を正式に発表しました！オープンソースのMinecraftチームから8人のメンバーがチームに参加し、AIエージェントに賭ける

>>: ネイチャー誌に「LK-99は超伝導体ではない」という記事が掲載された。

「本物の人間かどうか」を検証、AIが人間を攻撃！ GPT-4は99.8%の精度でチューリングテストに合格し、オンラインで助けを求めた。

10種類の検証コード、逆チューリングテスト

結果と分析

GPT-4は人間に助けを求める

人工知能技術情報の無料共有

コンピュータアーキテクチャにおける機械学習

手動でラベルを付ける必要はありません。シドニー大学の中国チームは、「GPT自己教師付きラベリング」パラダイムを提案しました。これは、ラベリングのコスト、バイアス、評価の問題を完全に解決します。

Google AIオープンソース：携帯電話で3D物体検出が可能、しかもリアルタイム

AIは、群衆の中でディープフェイクされたのはあなただけだと認識します

端から端まで道を切り開きます！ OccWorld: 自動運転の未来に向けた 3D 占有世界モデルへの新しいアプローチ

PyTorch ガイド: ディープラーニングモデルのトレーニングを高速化する 17 のヒント!

ChatGPT エッセイの書き方の説明

Google Bardは「防御を突破」し、自然言語を使ってロックを解除、インジェクションによるデータ漏洩のリスクを示唆

推薦する

エントリーレベルのデータベースアルゴリズム [パート 3]

MITチームがCOVID-19の早期警告に役立つ可能性のある咳分析AIを開発

ディープラーニングと靴を組み合わせると、誰かがそれを使ってストレスレベルを検出しようとします。ワイヤレス操作、84%の精度

データベース向けに設計: DB-GPTはプライベートLLMテクノロジーを使用して、次世代のデータベースインタラクションを定義します。

2020年末総括：国際AI技術研究と政府と企業の協力の進捗状況の概要

人工知能とビッグデータが私たちの生活に何をもたらすかご存知ですか?

アルゴリズムの知識を学ばずに Java 開発を学ぶことは可能ですか?

AIがサプライチェーンを変革する7つの方法

【専門家がここにいるエピソード3】大量ログ分析とインテリジェントな運用・保守

フェデレーテッドラーニング - プライバシーの障壁を突破し、データの価値を引き出す

ディープラーニングによる画像セグメンテーション：手法と応用

革新的な人工視覚脳インプラントが初めて視覚障害者に移植される