精度が極めて低いです! OpenAIがAI検出器を削除、ICMLの傑出した論文が非難される

OpenAI は、わずか半年しかオンラインではなかった独自のテキスト検出器 Classifier をオフラインにしました。

写真

今年の初め、OpenAI は Classifier を熱狂的にリリースし、これがあれば誰でも特定のテキストが GPT によって生成されたかどうかを知ることができると主張しました。これで世界が救われるわけではないかもしれませんが、少なくとも教師には役立つでしょう。

しかし半年後、Classifier が直接送信してきました。

OpenAIは、この装置は設計された目的を達成できず、精度が低すぎると述べた。

写真

さらに、編集者は、OpenAI のオフラインでの行動が一つのことを十分に示していると考えています。つまり、AI 検出器は完全に信頼できず、間違った方向に向かっている可能性があるということです。

AIGC がインターネットに溢れ、現在多くの混乱を引き起こしているため、AI 検出器は非常に便利なものとなるはずです。

技術的な制限により検出精度はまだそれほど高くありませんが、ユーザーは使用しながら技術を向上させ、ユーザーを増やすことができます。

OpenAI は、これを直接オフラインにすることで、基本的に既存の技術の方向性に死刑を宣告したことになります。

ICMLの優れた論文で提案された透かし方式を事前に破る

さらに興味深いのは、ICML 優秀論文賞を受賞したばかりの論文が、LLM によって生成されたコンテンツに透かしを入れる実現可能な方法を提供していることです。

写真

これは、単語生成の前に緑のトークンのセットをランダムに選択し、サンプリング中に緑のトークンの使用を徐々に促進することによって機能します。

写真

しかし、ほんの数日前、メリーランド大学の別の研究チームが発表した別の論文が、ICMLの優れた論文を直接的に批判した。

写真

論文アドレス: https://arxiv.org/abs/2303.11156

彼らの論文では、この受賞論文の透かし方法を直接比較し、透かしを無効にする方法を提案しました。

写真

透かしのある論文が ICML 優秀論文賞を受賞できるのであれば、透かしを破った論文にも「より優れた論文賞」が授与されるのでしょうか?

写真

著者の一人、メリーランド大学コンピューターサイエンス学部の准教授ソヘイル・フェイジ氏は皮肉を込めて「数日前に透かしを入れたいと言っていた人たちにこれを見させないで」とツイートした。

写真

これは、OpenAI が GPT 検出器をリリースからわずか半年後に、振り返ることなくオフラインにすることを決定した理由も示しています。

検出器、ダメ！

論文は長いですが、よくまとめられています。

簡単に言うと:

AI によって生成されたテキストを確実に検出することは、LLM のトレーニングと使用にとって重要です。

· 経験上、現在の検出器は十分ではありません。

理論的には、現在の検出器ではこれができません。

結論: 現時点では検出できません。

写真

経験の面では、研究者らは、軽量のなりすまし装置を生成テキストモデルに適用することで、さまざまな検出器を破ることができることを実証しました。

透かしを使用する検出器、ニューラルネットワークに基づく検出器、ゼロショット分類器のいずれであってもかまいません。

言い換え攻撃を回避するように設計された検出器でさえ、再帰的なパロディに直面した場合は効果がありません。

次に、研究者らは理論的には、言語モデルがより複雑になり、人間の文章をより良くシミュレートできるようになると、最も優れた検出器でさえも失敗するようになることを示しました。

ランダム分類器よりもわずかに優れているだけかもしれません。

特に透かしの問題に関しては、誰かが隠された透かし情報を推測または発見し、それを人間自身が書いたテキストに追加できる限り、人間のテキストも LLM によって生成されたと判断されるだろうと研究者らは述べています。

つまり、あなたが一生懸命記事を書いて、私が見つけた隠された透かし情報をこっそり追加した場合、あなたの記事は生成されたものとみなされ、あなたは詐欺罪で告発されることになります。

セキュリティはどこですか？

原則の紹介

これをさらに調査するために、最近の多くの研究では AI によって生成されたテキストの検出に焦点を当てています。

いくつかの検出研究では、この問題をバイナリ分類問題として研究しています。

たとえば、OpenAI は RoBERTa に基づいて GPT-2 検出器モデルを微調整し、AI によって生成されていないテキストと GPT-2 によって生成されたテキストを区別できるようにしました。信頼性の高い検出を実現するには、このような検出器の微調整と、新しい LLM それぞれの監視が必要です。

しかし、検出にニューラルネットワークを利用するこれらの方法は、悪意のある攻撃やポイズニング攻撃に対して脆弱です。

もう一つの研究方向は、追加のトレーニングコストを必要としないゼロショット AI テキスト検出です。これらの研究では、テキストの各トークンの期待される対数確率を評価し、しきい値検出を実行して、どのテキストが AI によって生成されたかを検出します。

ミッチェルらは、AI によって生成されたテキストは、テキストの対数確率の負の曲率上に位置する傾向があることを観察しました。彼らはこの観察を利用して、ゼロショット LLM テキスト検出方法 DetectGPT を提案しました。

もう一つの重要な研究は、AI 生成テキストに透かしを追加して検出を容易にすることです。

見慣れない見た目ですが、驚くことではありません。

Kirchenbauer らが提案したソフトウォーターマーク技術では、マークをグリーンリストとレッドリストの 2 つのカテゴリに分類します。

透かし入り LLM は、プレフィックストークンによって決定されるグリーンリストから高い確率でトークンをサンプリングします。

これらの透かしは通常、人間には目立ちません。ただし、すべての強力な LLM が同様に保護されていない限り、透かしは LLM の悪用を防ぐ効果的なツールにならない可能性があります。

Krishna らは、LLM の出力をデータベースに保存することにより、情報検索ベースの検出器を導入しました。

候補となる段落ごとに、アルゴリズムはデータベースを検索して意味的に類似する一致を探し、言い換えによって検出プロセスが影響を受けないようにします。

ただし、ユーザーの LLM 会話を保存すると、深刻なプライバシーの問題が発生する可能性があることはよく知られています。

したがって、本論文では、研究者らは、経験的および理論的な分析を通じて、これらの最先端の AI テキスト検出器は実際のアプリケーションシナリオでは信頼できないことを示しています。

研究者らは、ソフトウォーターマークに対する経験的攻撃のほか、ゼロショット、検索ベース、ニューラルネットワークベースのさまざまな検出器を研究した。

次の定理は、2 つの分布間の総変動が減少するにつれて、最良の検出器であってもパフォーマンスが低下することを示しています。最適検出器 D の受信者動作特性曲線 (AUROC) の下の領域は次のように定義されます。

写真

ここで、TV(M, H)は、モデルによって生成されたテキスト分布Mと人間によって生成されたテキスト分布Hの間の総変動距離です。

全体の変動が減少するにつれて、最高の検出パフォーマンスが 1/2 に近づき、AUROC がテキストを AI 生成または人間生成としてランダムにラベル付けする分類器に対応することがわかります。

テストの不可能な結果は、検出パフォーマンスが必ずしも偶然と同じくらい悪いことを意味するのではなく、信頼性の高い検出が達成できない可能性があることを意味します。

ほとんどの実用的なシナリオでは、低い偽陽性率 (1% など) を維持しながら高い真陽性率 (90% など) を達成できる検出器は、優れた検出器であると見なされます。

2 つの分布が 11% 以上重複している場合 (つまり、合計変動 < 0.89)、この目標は達成できません。

この分析の目的は、AI モデルによって生成されたテキストを検出するために検出システムを使用する際に注意するようにすべての人に教えることです。このようなシステムは、現実世界に導入される前に、理想的には検出を回避するように設計された言語モデルに対して、信頼性と偏りについて独立した厳格な評価を受ける必要があります。

研究者らは厳密な分析で結果を補完し、与えられた人間の分布 H に対して、上記の制約が等しく当てはまる分布 M と検出器 D が存在することを証明しました。

この AUROC 式は、本文の後半で何度も使用されます。

AI 検出器を回避するための言い換え攻撃

AI 生成テキストを検出することは、LLM のセキュリティを確保し、タイプ II エラー (LLM 出力を AI 生成テキストとして検出できないこと) を回避するために重要です。

言い換え攻撃をテストする方法には、ソフトウォーターマーク、ゼロショット検出器、トレーニングされたニューラルネットワークに基づく検出器、検索ベースの検出器などがあります。

透かし入りコンテンツに対する言い換え攻撃。

このテストでは、言語モデルの出力トークンは、プレフィックスによって決定される緑色のリストから選択されます。

研究者たちは、このリレーヤーが出力トークン内の透かしを削除できると期待している。

研究者らは、T5 ベースのモデルと PEGASUS ベースのモデルをナレーターとして使用しました。

テストに使用した LLM は、大量のデータでトレーニングされたモデルであり、主にテキスト補完タスクに使用されます。

言い換えモデルは、言い換え機能を実行するために特別に微調整された小さなモデルです。

研究者らは、透かし入りの LLM テキストを文ごとに言い換えモデルに入力しました。PEGASUS 言い換えモデルによって言い換えられたコンテンツにより、検出器の検出率が 97% から 80% に低下し、複雑度はわずか 3.5 でした。（結果は下記に示します）

写真

次の表は、言い換え前後のターゲットウォーターマーク LLM の出力例を示しています。研究者らはT5モデルをベースにした特別なトランスレータも使用し、そのようなトランスレータによって検出器の精度が97%から57%に低下する可能性があることを示した。

写真

下の図は、T5 モデルに基づく検出精度とインタープリター出力の品質のトレードオフを示しています。

写真

透かしなしの AI テキストに対する言い換え攻撃

透かしのない検出器には、トレーニング済み検出器、検索ベースの検出器、ゼロショット検出器が含まれます。

これらはすべて、AI によって生成されたテキストに存在する LLM 固有のシグネチャを検出に利用します。

OpenAI の RoBERTa-Large-Detector などのニューラルネットワークに基づくトレーニング済み検出器は、人間が生成したテキストと AI が生成したテキストの両方を含むデータセットでトレーニングまたは微調整されます。

ゼロショット分類器は、ソース LLM 出力の特定の統計特性を利用して検出を行います。検索ベースの方法では、LLM 出力が保存されているデータベース内で候補の文章を検索します。ここで研究者たちは、これらの非透かし検出器を実験し、書き換え攻撃に対して脆弱であることを示しています。

研究チームは、3億5500万のパラメータを持つ事前トレーニング済みのGPT-2 Mediumモデルを使用して、XSumデータセット内の200の段落を攻撃し、評価しました。

彼らは、T5 ベースの言い換えモデル (222M パラメータ) を使用して、ターゲット GPT-2 Medium モデルによって生成されたテキストを言い換えました。

写真

上の図は、研究者の言い換えによって攻撃された後の検出器の効果を示しています。

DetectGPT の AUROC スコアは、攻撃前の 96.5% から攻撃後の 59.8% に低下しました。

AUROC 値が 50% の場合、その効果はランダム識別と同じであることを意味することに注意してください。

残りのゼロショット検出器も研究者の攻撃後に性能が低下した。

トレーニングされたニューラルネットワークベースの検出器はゼロショット検出器よりも優れたパフォーマンスを発揮しますが、完璧というわけではありません。

たとえば、OpenAI の RoBERTa-Large-Detector の真陽性率は、実際の誤報率が 1% のときに 100% から約 80% に低下します。

検出器を複数回クエリすることで、攻撃者はより効率的に言い換えることができ、RoBERTa-Large-Detector の真陽性率を 60% に減らすことができます。

写真

上の表は、攻撃前と攻撃後の GPT-2 モデルの出力の例を示しています。

書き換えられた出力は滑らかで、検出された GPT-2 テキストと同じ意味を持ちます。

研究者らは、攻撃前、書き換え後、複数のクエリ後の言い換え攻撃後の GPT-2 出力テキストの困惑度を測定したところ、それぞれ 16.3、27.2、18.3 でした。

研究者らは、これらの検出器の再帰的な書き換えの有効性もテストした。

彼らは、DIPPER パラフレーズを使用して i 個の連続再帰パラフレーズ (ppi) を実行し、GPT-2 で生成されたテキストの i 個のパラフレーズバージョンを生成しました。

研究者たちは、検出器へのブラックボックスアクセスを想定して、最もスコアの低い書き換えられたテキストを結果として選択した。

写真

上の図はROC曲線です。

すべての検出器の AUROC 値が大幅に低下していることがわかります。これは、再帰的な言い換え後のこれらの検出方法の脆弱性を浮き彫りにしています。

たとえば、DetectGPT の AUROC 曲線値は、攻撃後に 82% から 18% に低下しました。

検索防御のための言い換え攻撃

これまでの研究では、検索ベースの検出器は特に言い換え攻撃に対抗するために設計されていました。

原則としては、ユーザーと LLM 間の会話が保存されるデータベースを維持できるということです。

候補段落の場合、検出器はデータベースから意味的に類似した段落を取得します。

類似度が一定のしきい値より大きい場合、候補段落は AI によって生成されたものとして分類されます。

これまでの研究によると、他のテキスト検出器と比較して、彼らの防御方法は、110億のパラメータを持つDIPPERと呼ばれる大規模な書き換えツールのコンテンツに対しても堅牢であることが示唆されています。

しかし、研究者らは、従来の検出器は再帰的な言い換え攻撃に対して脆弱である可能性があることを発見した。

彼らは、XSum データセットから AI 出力としてラベル付けされた 100 段落を選択し、検出器のデータベースに保存しました。

写真

上の図に示すように、簡単な書き換えを繰り返すだけで、この検出器はすべての AI 出力を検出できます。

しかし、再帰的な言い換えを 5 回繰り返した後、検出精度はわずか 25% に大幅に低下しました。

これは、再帰的な言い換えによって、検索に使用される意味マッチングアルゴリズムを回避できることを示唆しています。

大きな DIPPER を使用すると、上に示すように、困惑度を維持するのに役立ちます。

さらに、検索プロセス自体がユーザーのプライバシーを侵害する可能性があるため、問題が発生する可能性があります。

AIが生成したテキストを正確に検出する方法はない

現実世界で言語モデルを誤用するには、言語モデルによって生成されたテキストを正確に認識する必要があります。

そして、モデルが改良されるにつれて、AI が生成したテキストが人間を模倣して検出を回避する能力も向上します。

このセクションでは、主に AI の一般的な検出器の最も致命的な欠陥、つまりモデルのパフォーマンスが向上すると最良の検出器が無効になるという点について説明します。

したがって、AI が生成したテキストを認識できると主張する AI 検出器に過度に依存すべきではありません。

式AUROC（D）によれば、最良のテスト結果のベースラインパフォーマンスは、ランダム分類の結果に徐々に近づく傾向がある。

写真

さらに、透かしが埋め込まれた検出器であっても、M と H が適切に定義され、特定の書き方や文章の言い換えなどの特定のシナリオに適している限り、検出器がそれを検出することは困難です。

人間とAIが生成したテキストの分布の推定総変動

次に、研究者らは人間と AI のテキスト分布の総変動 (TV) を推定しました。

具体的には、人間のテキスト (WebText) の分布といくつかの OpenAI モデルの出力分布の間の全体的な変化を推定します。

2 つの分布 H と M の場合、それらの間の合計変動は、サンプル空間 Ω 上の任意のイベント E に割り当てる確率の最大差として定義されます。

それは次の式です。

写真

研究者らは、人間と AI のテキスト分布からのサンプルを使用して、大規模な RoBERTa 分類器をトレーニングしました。

テキストシーケンスが与えられると、分類器は 0 から 1 の間のスコアを生成し、そのシーケンスが AI によって生成されたものであるとモデルが判断する確率を示します。

AI テキスト分布が正であると仮定して、研究者は検証セットのサンプルを使用して、真陽性率 (TPR) と偽陽性率 (FPR) の差を最大化するようにスコアのしきい値を選択します。

最後に、研究者らはテストセットにおける TPR と FPR の差として総変化を推定しました。この差は、実は人間と AI が生成したテキスト分布の閾値を計算する際に、前述の分類器に割り当てられた確率差であり、総変動の下限値となります。

下の図は、RoBERTa-large アーキテクチャを使用した、4 つの異なるテキストシーケンスの長さ (25、50、75、および 100) に対する GPT-2 モデル (小、中、大、特大) の合計変更推定値を示しています。

研究者らは、対応する分布の全体的な変化を推定することを目的として、各 GPT-2 モデルとシーケンスの長さごとにアーキテクチャの個別のインスタンスをトレーニングしました。

研究チームは、モデルが大きく複雑になるほど、人間と AI のテキスト分布間の全体的な変化の推定値が小さくなることを観察しました。これは、言語モデルがより強力になるにつれて、その出力の分布と人間が生成したテキストの分布の間の統計的な差がなくなることを示唆しています。

写真

次に、研究者らは人間のテキストについて、WebText と ArXiv の要約データセットを使用しました。

3 つのモデルの中で、GPT-3-Ada はテキスト生成能力が最も弱く、GPT-3-Curie はテキスト生成能力が最も強いです。

これらのモデルの出力に利用できる無料のデータセットはないため、研究者は OpenAI の API サービスを使用して必要なデータセットを生成しました。

彼らは、WebText 内の各人間のテキストシーケンスをプロンプトと補完に分割しました。プロンプトには元のシーケンスの最初の 100 フレーズが含まれ、補完には残りのフレーズが含まれます。

その後、研究者らはプロンプトを使用して、GPT-3 モデルを使用して補完を生成しました。次に、上記と同じ方法で RoBERTa-large モデルを使用して総変化を推定します。

人間のテキストシーケンスの最初の 100 個のトークンをプロンプトとして使用することで、研究者はテキスト生成のコンテキストを制御できます。このようにして、同じコンテキストで生成されたテキストと人間のテキストの類似性を比較することができます。

左の図は、WebText と比較した GPT-3 モデルの推定総変化を示しています。上記の GPT-2 モデルの結論と同様に、研究者は、すべてのシーケンス長の中で最も強力な GPT-3-Curie の総変化が最も小さいことを発見しました。

しかし、GPT-3-Babbage はこの傾向に従わず、その総変動は最も弱い GPT-3-Ada よりもさらに高くなります。

WebText には多数のインターネットソースからのデータが含まれているため、研究者は科学文献からコンテンツを生成するなど、よりターゲットを絞ったスキームも試しました。

研究者らは、ArXiv の要約データセットを人間のテキストとして使用し、上記の 3 つのモデルの合計変動を推定しました (下の図の右側を参照)。

彼らは、ほとんどのシーケンス長において、さまざまなモデルにわたって総分散が減少することを観察しました。

これは、言語モデルがより強力になるにつれて、その出力が人間のテキストとはますます異なるものになり、検出が困難になることをさらに示しています。

写真

AIテキスト生成モデルに対する欺瞞攻撃

効果的な AI テキスト検出ソリューションは、AI テキストと AI によって生成されていないテキストの両方を認識できる必要があります。

欺瞞者が AI で生成されていないテキストを使用して検出器を欺いた場合に、対応できる必要があります。

このセクションでは、研究者らは、ソフトウォーターマークと検索ベースの検出器の両方がこの欺瞞攻撃によって破られる可能性があることを実証します。

これまでの研究では、透かし付きの大規模言語モデルの出力は、特定のパターンを持つトークンを通じて追跡できます。

これらの特定のパターンは簡単かつ正確に検出できます。

ソフトウォーターマークテキストは、主に緑色のリスト内のトークンで構成されます。

攻撃者がこのグリーンリストを知っていれば、透かしの要件を満たすコンテンツを人工的に生成し、それを人間が生成したテキストに挿入することができます。これにより、検出器はテキストが AI によって生成されたことを検出します。

攻撃者の目的は、N 個の語彙の中で最も一般的な単語のグリーンリストプロキシを計算することです。

研究者たちは実験でN=181という小さな値を使用しました。

攻撃者は、透かし入りの POT-1.3B10^6 回クエリを実行し、出力にペアで表示されるトークンを観察して N トークンを推定しました。

グリーンリスト値が高いトークンはグリーンリストに表示される場合があります。（下図参照）

写真

研究者らは、攻撃者がグリーンリストエージェントに透かし入りの文章を提供することで、透かし入りの文章を作成するツールを構築するのを支援した。

このようにして、研究者は透かしモデルを簡単に騙すことができます。次の図はいくつかの例を示しています。

写真

下の図は、なりすまし攻撃後の透かし検出器の ROC 曲線の変化を示しています。

写真

参考文献:

https://arxiv.org/abs/2303.11156

<<: 大規模な論文を読むための素晴らしいツールがここにあります! 67ページの論文を5秒で翻訳し、スクリーンショットを撮って直接質問し、Webページで試してみる

>>: Safetensors は、高速、効率的、安全、使いやすい新しいディープラーニングツールです。

ボストンダイナミクスのロボット犬と一緒に散歩に行きました！「すごい」って言い続ける…（車横転シーン添付）

精度が極めて低いです! OpenAIがAI検出器を削除、ICMLの傑出した論文が非難される

ICMLの優れた論文で提案された透かし方式を事前に破る

検出器、ダメ！

原則の紹介

透かし入りコンテンツに対する言い換え攻撃。

透かしなしの AI テキストに対する言い換え攻撃

検索防御のための言い換え攻撃

人間とAIが生成したテキストの分布の推定総変動

AIテキスト生成モデルに対する欺瞞攻撃

ボストンダイナミクスのロボット犬と一緒に散歩に行きました！「すごい」って言い続ける…（車横転シーン添付）

アラスカ航空は人工知能を活用して時間、燃料、費用を節約

初期の携帯電話で使用されていたGPRS暗号化アルゴリズムが意図的に弱められていたことが明らかになった。

これはオートエンコーダーとRNNの両方である。DeepMindの科学者は拡散モデルを8つの観点から分析する。

1 つの記事で UAV 通信リンクシステムを理解する

練習問題をやるのが苦痛すぎる場合はどうすればいいですか?このアルゴリズムベースは初心者向けにカスタマイズされており、アニメーションが付属しています

人工知能教師が将来果たす8つの役割

SMP、NUMA、MPP アーキテクチャの概要

未来を予測しますか？ GoogleはAIモデルを使って「リアルタイム」の天気予報を実現

推薦する

看護師の負担を軽減し、病院の効率化を実現します！医療物流ロボットが「新たな人気」に

人間は機械化され、機械は人間化されるのです！起こっていることはさらに恐ろしいことだ。

人工知能がいかに「知的」であっても、それは人類の奇跡である

ビッグモデル実装の最後の一歩: ビッグモデル評価の 111 ページに及ぶ包括的なレビュー

AIがデジタル変革に与える影響

AIGC: 将来は誰が支払うのでしょうか?

マスク氏はAIが人間を超えると述べ、それを信じない人は単に賢いだけだと語る

AI時代に医療データの品質が重要な理由

C# データ構造のソートアルゴリズム

携帯電話の顔認識は本当に安全ですか?

2019-2020年中国人工知能コンピューティングパワー開発評価報告書が発表

Tech Neo 9月号：アルゴリズムに基づくIT運用・保守

OpenAIはトップチームを再構築し、多額の投資でコアメンバーを採用し、4年以内にスーパーAIを担う計画！