AI検出器は復活するのか?成功率は98%と高く、OpenAIを上回っている。

AI検出器は復活するのか?成功率は98%と高く、OpenAIを上回っている。

現在の AI テキスト検出器には、AI が生成したテキストと人間が作成したテキストを効果的に区別する方法がほとんどありません。

OpenAIが開発した検出ツールでさえ、検出精度が低いため、リリースから6か月後にひっそりとオフラインになりました。

しかし最近、ネイチャー誌はカンザス大学のチームの研究結果を報じました。彼らが開発した学術AI検出システムは、論文にAI生成コンテンツが含まれているかどうかを効果的に判別でき、その精度は最大98%です。

記事アドレス: https://www.nature.com/articles/d41586-023-03479-4

研究チームの中心的なアイデアは、汎用的な検出器の作成を追求するのではなく、特定の分野の学術論文に基づいて、本当に役立つ AI テキスト検出器を構築することです。

論文アドレス: https://www.sciencedirect.com/science/article/pii/S2666386423005015?via%3Dihub

研究者らは、特定の種類の文章向けに検出ソフトウェアをカスタマイズすることが、汎用的な AI 検出器を開発するための技術的な道筋となる可能性があると述べている。

「特定のドメイン向けの検出システムを迅速かつ簡単に構築できるのであれば、別のドメイン向けに同様のシステムを構築するのはそれほど難しいことではないはずです。」

研究者らは論文の文体から20の主要な特徴を抽出し、これらの特徴データをXGBoostモデルに入力してトレーニングし、人間のテキストとAIのテキストを区別できるようにした。

これら 20 の主要な特徴には、文の長さの変化、特定の単語や句読点の使用頻度、その他の要因が含まれます。

研究者らは「少数の特徴のみを使用して高い精度を達成できる」と述べている。

精度は98%にも達する

最新の研究では、検出器はアメリカ化学会(ACS)が発行する10の化学雑誌に掲載された論文の序論部分を学習した。

研究チームが「はじめに」セクションを選択したのは、ChatGPT が背景文献にアクセスできれば、論文のこの部分を書くのがかなり簡単になるためです。

研究者らは、人間が書いたテキストとして公開された 100 件の引用文を使ってツールをトレーニングし、その後 ChatGPT-3.5 に ACS ジャーナルのスタイルで 200 件の引用文を書くように依頼しました。

GPT-3.5 によって書かれた 200 の紹介のうち、100 については GPT-3.5 が書くための論文タイトルが提供され、残りの 100 については、執筆の基礎として論文の要約が提供されました。

最後に、検出器は同じジャーナルからの人間が書いた引用と AI が生成した引用でテストされました。

検出器は、タイトルに基づいて ChatGPT-3.5 によって書かれた紹介文を 100% の精度で識別しました。要約文に基づいて ChatGPT によって生成された紹介文の場合、精度は 98% とわずかに低くなります。

このツールは、GPT-4 で書かれたテキストでも同様に機能します。

対照的に、一般的な AI 検出器 ZeroGPT は、使用される ChatGPT のバージョンや、序論が論文のタイトルから生成されたのか、要約から生成されたのかに応じて、AI が作成した序論を識別する際の精度が約 35 ~ 65% しかありません。

OpenAI が作成したテキスト分類ツール (論文が発表された時点では検出器が削除されていた) のパフォーマンスも低く、AI が作成した引用を 10 ~ 55% の精度で識別したに過ぎなかった。

この新しい ChatGPT 検出器は、トレーニングされていないジャーナルでも非常に優れたパフォーマンスを発揮します。

また、AI 検出器を混乱させるために特別に生成された AI テキストも認識できます。

しかし、このシステムは科学雑誌の論文では非常にうまく機能したが、大学新聞のニュース記事の検出には苦労した。

ベルリン応用科学大学で学術盗用を研究しているコンピューター科学者のデボラ・ウェーバー・ウルフ氏は、この研究を高く評価し、研究者の取り組みを「非常に興味深い」と評した。

論文の詳細

研究者が採用したアプローチは、20 の主要な機能と XGBoost アルゴリズムに依存しています。

抽出された 20 の特徴は次のとおりです。

(1) 段落あたりの文の数、(2) 段落あたりの単語数、(3) 括弧の有無、(4) ダッシュの有無、(5) セミコロンまたはコロンの有無、(6) 疑問符の有無、(7) アポストロフィの有無、(8) 文の長さの標準偏差、(9) 段落内の連続する文の(平均)長さの差、(10) 11 語未満の文の有無、(11) 34 語を超える文の有無、(12) 数字の有無、(13) 段落よりも本文中の大文字(ピリオドと比較して)の 2 倍を超える数、および次の単語の存在:(14) although、(15) but、(16) however、(17) because、(18) this、(19) other people or researcher、(20) など。

XGBoost を介して検出器をトレーニングする詳細なプロセスについては、元の論文の実験手順セクションを参照してください。

著者は以前にも同様の作品を手掛けたことがありますが、その作品の範囲は非常に限られていました。

この有望なアプローチを化学ジャーナルに適用するには、この分野の複数のジャーナルからのさまざまな原稿に基づいてレビューする必要があります。

さらに、AI 生成テキストを検出する能力は言語モデルに提供される手がかりによって影響を受けるため、AI の文章を検出するように設計された方法は、AI の使用を混乱させる可能性のある手がかりに対してテストする必要があります。これは、これまでの研究では評価されていない変数です。

最後に、ChatGPT の新しいバージョンである GPT-4 がリリースされました。これは GPT-3.5 から大幅に改善されています。 AI テキスト検出器は、GPT-4 などの言語モデルの新しいバージョンのテキストに対して効果を発揮する必要があります。

AI 検出器の適用範囲を広げるために、ここでのデータは 13 の異なるジャーナルと 3 つの異なる出版社、異なる AI プロンプト、および異なる AI テキスト生成モデルから収集されています。

実際の人間のテキストと AI によって生成されたテキストの両方を使用して、XGBoost 分類器をトレーニングします。次に、実際の人物による文章、AI プロンプト、GPT-3.5、GPT-4 を通じて新しい例が生成され、モデルが評価されます。

結果は、この論文で提案された簡単な方法が非常に効果的であることを示しています。プロンプトとモデルに応じて、AI 生成テキストの認識精度は 98%~100% です。比較すると、OpenAI の最新の分類器の精度は 10% から 56% です。

当社の検出器により、科学コミュニティは化学ジャーナルへの ChatGPT の侵入を評価し、その使用による結果を特定し、問題が発生したときに迅速に緩和戦略を導入できるようになります。

結果と考察

著者らは、アメリカ化学会(ACS)が発行する10の化学雑誌から人間の書いた文章のサンプルを選択した。

これらには、Inorganic Chemistry、Analytical Chemistry、Journal of Physical Chemistry A、Journal of Organic Chemistry、ACS Omega、Journal of Chemical Education、ACS Nano、Environmental Science & Technology、Chemical Research in Toxicology、ACS Chemical Biology が含まれます。

各ジャーナルの 10 件の記事の導入部を使用して、トレーニング セットには合計 100 件の人間の文章サンプルが含まれます。導入セクションが選択されたのは、適切なプロンプトが与えられた場合に ChatGPT によって書かれる可能性が最も高い記事のセクションであるためです。

ジャーナルごとに 10 件の記事のみを使用するのは異常に小さいデータセットですが、著者らはこれは問題ではなく、むしろ、このような小さなトレーニング セットを使用して効果的なモデルを開発できると仮定すると、最小限の計算能力を使用してこの方法を迅速に展開できると主張しています。

以前の同様のモデルでは、モデルのトレーニングに 1,000 万件のドキュメントが使用されていました。

プロンプトのデザインはこれらの研究において重要な側面です。人間が書いたテキストごとに、2つの異なるプロンプトを使用して AI 比較ツールが生成されました。どちらのプロンプトも、ChatGPT が化学者のように書くことを要求するように設計されています。

プロンプト 1 は、「ACS ジャーナルのスタイルで、xxx というタイトルの記事の 300 ~ 400 語の紹介文を書いてください。」です。

プロンプト 2 は、「ACS ジャーナルのスタイルで、この要約に付随する記事の 300 ~ 400 語の紹介文を書いてください。」です。

予想通り、ChatGPT はこのエピソードの導入部に、要約の重要な事実や語彙の多くを取り入れています。

トレーニング データセット全体には、手動で生成された紹介文 100 個と ChatGPT によって生成された紹介文 200 個が含まれており、各段落が「文章例」になります。

各段落からは、段落の複雑さ、文の長さの変化、さまざまな句読点の使用、人間の科学者や ChatGPT の文章でより頻繁に出現する可能性のある「流行語」に関する 20 個の特徴のリストが抽出されました。

モデルは、Leave-One-Out クロス検証戦略を使用して最適化されました。

上の表は、これらの文章サンプルを文書全体レベルと段落レベルの両方で分類するためのトレーニング結果を示しています。

最も簡単に正しく分類できるテキスト カテゴリは、プロンプト 1 (タイトル) で ChatGPT によって生成された紹介です。

このモデルは、個々の段落レベルでは 99% の精度、ドキュメント レベルでは 100% の精度を誇ります。

ただし、プロンプト 2 (要約) での ChatGPT テキストの分類精度はわずかに低くなります。

人間が生成したテキストを正しく割り当てるのはより困難ですが、それでも精度はかなり良好です。グループとして、人間は ChatGPT よりも多様な文章スタイルを持っているため、この方法を使用して文章サンプルを正しく分類することがより困難になる可能性があります。

実験の次の段階では、トレーニングで使用されなかった新しいドキュメントを使用してモデルをテストします。

著者らは簡単なテストと難しいテストの両方を設計した。

簡単なテストでは、トレーニング データと同じ性質のテスト データ (同じジャーナルの異なる記事) を使用し、新しく選択された記事のタイトルと要約を使用して ChatGPT を促します。

難しいテストでは、GPT-3.5ではなくGPT-4を使用してAIテキストを生成します。GPT-4はGPT-3.5よりも優れていることが知られているため、分類精度は低下するでしょうか?

上の表は分類の結果を示しています。前回の結果と比較してパフォーマンスの低下はほとんどありません。

完全な文書レベルでは、手動で生成されたテキストの分類精度は 94% に達し、プロンプト 2 の AI 生成テキストの精度は 98% に達し、プロンプト 1 の AI テキスト分類の精度は 100% に達しました。

段落レベルでの分類精度も、トレーニング セットとテスト セット間で非常に似ています。

下部のデータは、GPT-3.5 テキスト機能でトレーニングされたモデルを使用して GPT-4 テキストを分類した結果を示しています。すべてのカテゴリで分類精度の低下は見られず、これは非常に良い結果であり、GPT-3.5 および GPT-4 における当社の方法の有効性を証明しています。

このアプローチの全体的な精度は称賛に値しますが、その価値は既存の AI テキスト検出器と比較することで最もよく判断されます。ここでは、同じテスト セット データを使用して、2 つの主要な検出ツールがテストされます。

最初のツールは、ChatGPT の開発元である OpenAI のテキスト分類ツールです。 OpenAI は、分類器が完璧ではないことを認めていますが、それでも同社の最高の公開製品です。

2番目の検出ツールはZeroGPTです。開発者らは、AIテキスト検出の精度は98%で、このツールは1,000万件の文書でトレーニングされたと主張している。これは、現在の多くの評価において最も優れたパフォーマンスを示す分類器の 1 つです。さらに、ZeroGPT の作成者は、この方法が GPT-3.5 と GPT-4 の両方で機能すると述べています。

上の図は、完全なドキュメント レベルでの弊社ツールと上記 2 つの製品のパフォーマンス比較を示しています。

これら 3 つの検出器は、人間のテキストの認識においては同様に高い精度を達成しましたが、AI によって生成されたテキストを評価すると、3 つのツールは大きく異なりました。

ヒント 1 を使用すると、当社のツールは GPT-3.5 と GPT-4 の両方で 100% の精度を達成しますが、ZeroGPT は GPT-3.5 テキストでは 32% の確率で失敗し、GPT-4 テキストでは 42% の確率で失敗します。 OpenAI の製品のパフォーマンスはさらに悪く、GPT-4 テキストでの失敗率は約 70% でした。

より難しいプロンプト2で生成されたAIテキストを使用すると、後者の2つの方法の分類精度はさらに低下します。

対照的に、私たちの検出器は、このセットでテストされた 100 の文書のうち 1 つのエラーしか発生しませんでした。

では、この方法は、トレーニング セットに含まれていないジャーナルでの ChatGPT の書き込みを正確に検出できるのでしょうか。また、異なるプロンプトが使用された場合でも、この方法は機能しますか。

著者らは、Cell Press のジャーナルである Cell Reports Physical Science、Nature Publishing Group の Nature Chemistry、およびトレーニング セットに含まれていない ACS ジャーナルである Journal of the American Chemical Society の 3 つのジャーナルから、新しい記事の紹介を 150 件選択しました。

さらに、2022年秋に大学生が執筆し、10の異なる大学新聞に掲載された100件の新聞記事のセットが収集されました。当社の検出器は科学的な文章に特化して最適化されているため、ニュース記事は高い精度で分類されないことが予想されます。

図からわかるように、同じモデルを適用し、ACS ジャーナルのテキストを使用したこの新しい例のセットでトレーニングすると、92%~98% の正しい分類が得られました。これはトレーニング セットで得られた結果と同様です。

また、予想通り、大学生が書いた新聞記事は、人間が作成したものとして正しく分類されませんでした。

実際、この論文で説明した機能とモデルを使用して評価すると、ほぼすべての記事は人間が作成した科学記事よりも AI が生成したテキストに類似しています。

ただし、この方法は科学出版物における検出問題に対処するために設計されており、他の分野への拡張には適していません。

<<:  アルトマンが自ら「グロク」を再現し、マスクを裏切る!カスタマイズされたGPTが正式にオープンし、最も完全なサードパーティマーケットが利用可能になりました

>>:  Huang H100 が再び記録を更新し、GPT-3 を 4 分でトレーニングしました。新しい「特別版」H20、L20、L2が公開され、パフォーマンスが大幅に低下

ブログ    

推薦する

...

機械学習の博士課程での私の経験から得た洞察

2020 年は非常に困難な年でしたが、私にとってはコーネル大学でコンピューターサイエンスの博士号を取...

人工知能の今後の発展における3つの大きなトレンド、それぞれが驚きである

人工知能は、知能機械や機械知能とも呼ばれ、人間が作った機械が示す知能を指します。人工知能は、医療、テ...

相関関係は因果関係ではない。ディープラーニングによりAIは「10万のなぜ」を問うことができる

[[274938]]ビッグデータダイジェスト制作出典: searchenterpriseai編纂者:...

TensorFlow 2.8.0が正式にリリースされ、多くのバグが修正され、50以上の脆弱性パッチがリリースされました

最近、TensorFlow は公式バージョン 2.8.0 をリリースしました。バージョン 2.7 の...

「顔スキャン」はもはやジョークではなく、マスクを着用していても機能します

[51CTO.comからのオリジナル記事] 近年、人工知能、ビッグデータ、クラウドコンピューティング...

284日間の急成長の後、ChatGPTを「模倣」したスタートアップ企業が倒産する可能性

最近、ウォール・ストリート・ジャーナルの記事によると、一部のベンチャーキャピタリストは、生成型人工知...

ドローンを使って「国勢調査」を実施?人だけでなく動物も!

データによれば、我が国の人口は過去 10 年間にわたり緩やかな増加傾向を維持し続けており、我が国は依...

モデルもオンライン授業を受講できますか? !サービス指向の蒸留トレーニング プログラムを 1 つの記事で理解する

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

MIT、「上級数学」ソルバーの強化版をリリース:7つのコースの正解率は81%

AIは小学校の算数の文章題を解くだけでなく、高度な数学にも取り組み始めています。最近、MIT の研...

アリババが3D位置マップ圧縮アルゴリズムを革新、その論文結果がトップカンファレンスCVPR 2022に選出

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

ヨシュア・ベンジオ:私は国家間のAI競争を見たくないし、現在のAIの考え方を心配している。

[[250218]]ヨシュア・ベンジオ氏は、間違いなく現代の人工知能技術分野の第一人者です。ベンジ...