OpenAI は、わずか半年しかオンラインではなかった独自のテキスト検出器 Classifier をオフラインにしました。 写真 今年の初め、OpenAI は Classifier を熱狂的にリリースし、これがあれば誰でも特定のテキストが GPT によって生成されたかどうかを知ることができると主張しました。これで世界が救われるわけではないかもしれませんが、少なくとも教師には役立つでしょう。 しかし半年後、Classifier が直接送信してきました。 OpenAIは、この装置は設計された目的を達成できず、精度が低すぎると述べた。 写真 さらに、編集者は、OpenAI のオフラインでの行動が一つのことを十分に示していると考えています。つまり、AI 検出器は完全に信頼できず、間違った方向に向かっている可能性があるということです。 AIGC がインターネットに溢れ、現在多くの混乱を引き起こしているため、AI 検出器は非常に便利なものとなるはずです。 技術的な制限により検出精度はまだそれほど高くありませんが、ユーザーは使用しながら技術を向上させ、ユーザーを増やすことができます。 OpenAI は、これを直接オフラインにすることで、基本的に既存の技術の方向性に死刑を宣告したことになります。 ICMLの優れた論文で提案された透かし方式を事前に破るさらに興味深いのは、ICML 優秀論文賞を受賞したばかりの論文が、LLM によって生成されたコンテンツに透かしを入れる実現可能な方法を提供していることです。 写真 これは、単語生成の前に緑のトークンのセットをランダムに選択し、サンプリング中に緑のトークンの使用を徐々に促進することによって機能します。 写真 しかし、ほんの数日前、メリーランド大学の別の研究チームが発表した別の論文が、ICMLの優れた論文を直接的に批判した。 写真 論文アドレス: https://arxiv.org/abs/2303.11156 彼らの論文では、この受賞論文の透かし方法を直接比較し、透かしを無効にする方法を提案しました。 写真 透かしのある論文が ICML 優秀論文賞を受賞できるのであれば、透かしを破った論文にも「より優れた論文賞」が授与されるのでしょうか? 写真 著者の一人、メリーランド大学コンピューターサイエンス学部の准教授ソヘイル・フェイジ氏は皮肉を込めて「数日前に透かしを入れたいと言っていた人たちにこれを見させないで」とツイートした。 写真 これは、OpenAI が GPT 検出器をリリースからわずか半年後に、振り返ることなくオフラインにすることを決定した理由も示しています。 検出器、ダメ!論文は長いですが、よくまとめられています。 簡単に言うと: AI によって生成されたテキストを確実に検出することは、LLM のトレーニングと使用にとって重要です。 · 経験上、現在の検出器は十分ではありません。 理論的には、現在の検出器ではこれができません。 結論: 現時点では検出できません。 写真 経験の面では、研究者らは、軽量のなりすまし装置を生成テキストモデルに適用することで、さまざまな検出器を破ることができることを実証しました。 透かしを使用する検出器、ニューラル ネットワークに基づく検出器、ゼロ ショット分類器のいずれであってもかまいません。 言い換え攻撃を回避するように設計された検出器でさえ、再帰的なパロディに直面した場合は効果がありません。 次に、研究者らは理論的には、言語モデルがより複雑になり、人間の文章をより良くシミュレートできるようになると、最も優れた検出器でさえも失敗するようになることを示しました。 ランダム分類器よりもわずかに優れているだけかもしれません。 特に透かしの問題に関しては、誰かが隠された透かし情報を推測または発見し、それを人間自身が書いたテキストに追加できる限り、人間のテキストも LLM によって生成されたと判断されるだろうと研究者らは述べています。 つまり、あなたが一生懸命記事を書いて、私が見つけた隠された透かし情報をこっそり追加した場合、あなたの記事は生成されたものとみなされ、あなたは詐欺罪で告発されることになります。 セキュリティはどこですか? 原則の紹介これをさらに調査するために、最近の多くの研究では AI によって生成されたテキストの検出に焦点を当てています。 いくつかの検出研究では、この問題をバイナリ分類問題として研究しています。 たとえば、OpenAI は RoBERTa に基づいて GPT-2 検出器モデルを微調整し、AI によって生成されていないテキストと GPT-2 によって生成されたテキストを区別できるようにしました。信頼性の高い検出を実現するには、このような検出器の微調整と、新しい LLM それぞれの監視が必要です。 しかし、検出にニューラル ネットワークを利用するこれらの方法は、悪意のある攻撃やポイズニング攻撃に対して脆弱です。 もう一つの研究方向は、追加のトレーニングコストを必要としないゼロショット AI テキスト検出です。これらの研究では、テキストの各トークンの期待される対数確率を評価し、しきい値検出を実行して、どのテキストが AI によって生成されたかを検出します。 ミッチェルらは、AI によって生成されたテキストは、テキストの対数確率の負の曲率上に位置する傾向があることを観察しました。彼らはこの観察を利用して、ゼロショット LLM テキスト検出方法 DetectGPT を提案しました。 もう一つの重要な研究は、AI 生成テキストに透かしを追加して検出を容易にすることです。 見慣れない見た目ですが、驚くことではありません。 Kirchenbauer らが提案したソフト ウォーターマーク技術では、マークをグリーン リストとレッド リストの 2 つのカテゴリに分類します。 透かし入り LLM は、プレフィックス トークンによって決定されるグリーン リストから高い確率でトークンをサンプリングします。 これらの透かしは通常、人間には目立ちません。ただし、すべての強力な LLM が同様に保護されていない限り、透かしは LLM の悪用を防ぐ効果的なツールにならない可能性があります。 Krishna らは、LLM の出力をデータベースに保存することにより、情報検索ベースの検出器を導入しました。 候補となる段落ごとに、アルゴリズムはデータベースを検索して意味的に類似する一致を探し、言い換えによって検出プロセスが影響を受けないようにします。 ただし、ユーザーの LLM 会話を保存すると、深刻なプライバシーの問題が発生する可能性があることはよく知られています。 したがって、本論文では、研究者らは、経験的および理論的な分析を通じて、これらの最先端の AI テキスト検出器は実際のアプリケーション シナリオでは信頼できないことを示しています。 研究者らは、ソフトウォーターマークに対する経験的攻撃のほか、ゼロショット、検索ベース、ニューラルネットワークベースのさまざまな検出器を研究した。 次の定理は、2 つの分布間の総変動が減少するにつれて、最良の検出器であってもパフォーマンスが低下することを示しています。最適検出器 D の受信者動作特性曲線 (AUROC) の下の領域は次のように定義されます。 写真 ここで、TV(M, H)は、モデルによって生成されたテキスト分布Mと人間によって生成されたテキスト分布Hの間の総変動距離です。 全体の変動が減少するにつれて、最高の検出パフォーマンスが 1/2 に近づき、AUROC がテキストを AI 生成または人間生成としてランダムにラベル付けする分類器に対応することがわかります。 テストの不可能な結果は、検出パフォーマンスが必ずしも偶然と同じくらい悪いことを意味するのではなく、信頼性の高い検出が達成できない可能性があることを意味します。 ほとんどの実用的なシナリオでは、低い偽陽性率 (1% など) を維持しながら高い真陽性率 (90% など) を達成できる検出器は、優れた検出器であると見なされます。 2 つの分布が 11% 以上重複している場合 (つまり、合計変動 < 0.89)、この目標は達成できません。 この分析の目的は、AI モデルによって生成されたテキストを検出するために検出システムを使用する際に注意するようにすべての人に教えることです。このようなシステムは、現実世界に導入される前に、理想的には検出を回避するように設計された言語モデルに対して、信頼性と偏りについて独立した厳格な評価を受ける必要があります。 研究者らは厳密な分析で結果を補完し、与えられた人間の分布 H に対して、上記の制約が等しく当てはまる分布 M と検出器 D が存在することを証明しました。 この AUROC 式は、本文の後半で何度も使用されます。 AI 検出器を回避するための言い換え攻撃 AI 生成テキストを検出することは、LLM のセキュリティを確保し、タイプ II エラー (LLM 出力を AI 生成テキストとして検出できないこと) を回避するために重要です。 言い換え攻撃をテストする方法には、ソフト ウォーターマーク、ゼロ ショット検出器、トレーニングされたニューラル ネットワークに基づく検出器、検索ベースの検出器などがあります。 透かし入りコンテンツに対する言い換え攻撃。このテストでは、言語モデルの出力トークンは、プレフィックスによって決定される緑色のリストから選択されます。 研究者たちは、このリレーヤーが出力トークン内の透かしを削除できると期待している。 研究者らは、T5 ベースのモデルと PEGASUS ベースのモデルをナレーターとして使用しました。 テストに使用した LLM は、大量のデータでトレーニングされたモデルであり、主にテキスト補完タスクに使用されます。 言い換えモデルは、言い換え機能を実行するために特別に微調整された小さなモデルです。 研究者らは、透かし入りの LLM テキストを文ごとに言い換えモデルに入力しました。PEGASUS 言い換えモデルによって言い換えられたコンテンツにより、検出器の検出率が 97% から 80% に低下し、複雑度はわずか 3.5 でした。 (結果は下記に示します) 写真 次の表は、言い換え前後のターゲット ウォーターマーク LLM の出力例を示しています。研究者らはT5モデルをベースにした特別なトランスレータも使用し、そのようなトランスレータによって検出器の精度が97%から57%に低下する可能性があることを示した。 写真 下の図は、T5 モデルに基づく検出精度とインタープリター出力の品質のトレードオフを示しています。 写真 透かしなしの AI テキストに対する言い換え攻撃透かしのない検出器には、トレーニング済み検出器、検索ベースの検出器、ゼロショット検出器が含まれます。 これらはすべて、AI によって生成されたテキストに存在する LLM 固有のシグネチャを検出に利用します。 OpenAI の RoBERTa-Large-Detector などのニューラル ネットワークに基づくトレーニング済み検出器は、人間が生成したテキストと AI が生成したテキストの両方を含むデータセットでトレーニングまたは微調整されます。 ゼロショット分類器は、ソース LLM 出力の特定の統計特性を利用して検出を行います。検索ベースの方法では、LLM 出力が保存されているデータベース内で候補の文章を検索します。ここで研究者たちは、これらの非透かし検出器を実験し、書き換え攻撃に対して脆弱であることを示しています。 研究チームは、3億5500万のパラメータを持つ事前トレーニング済みのGPT-2 Mediumモデルを使用して、XSumデータセット内の200の段落を攻撃し、評価しました。 彼らは、T5 ベースの言い換えモデル (222M パラメータ) を使用して、ターゲット GPT-2 Medium モデルによって生成されたテキストを言い換えました。 写真 上の図は、研究者の言い換えによって攻撃された後の検出器の効果を示しています。 DetectGPT の AUROC スコアは、攻撃前の 96.5% から攻撃後の 59.8% に低下しました。 AUROC 値が 50% の場合、その効果はランダム識別と同じであることを意味することに注意してください。 残りのゼロショット検出器も研究者の攻撃後に性能が低下した。 トレーニングされたニューラル ネットワーク ベースの検出器はゼロ ショット検出器よりも優れたパフォーマンスを発揮しますが、完璧というわけではありません。 たとえば、OpenAI の RoBERTa-Large-Detector の真陽性率は、実際の誤報率が 1% のときに 100% から約 80% に低下します。 検出器を複数回クエリすることで、攻撃者はより効率的に言い換えることができ、RoBERTa-Large-Detector の真陽性率を 60% に減らすことができます。 写真 上の表は、攻撃前と攻撃後の GPT-2 モデルの出力の例を示しています。 書き換えられた出力は滑らかで、検出された GPT-2 テキストと同じ意味を持ちます。 研究者らは、攻撃前、書き換え後、複数のクエリ後の言い換え攻撃後の GPT-2 出力テキストの困惑度を測定したところ、それぞれ 16.3、27.2、18.3 でした。 研究者らは、これらの検出器の再帰的な書き換えの有効性もテストした。 彼らは、DIPPER パラフレーズを使用して i 個の連続再帰パラフレーズ (ppi) を実行し、GPT-2 で生成されたテキストの i 個のパラフレーズ バージョンを生成しました。 研究者たちは、検出器へのブラックボックスアクセスを想定して、最もスコアの低い書き換えられたテキストを結果として選択した。 写真 上の図はROC曲線です。 すべての検出器の AUROC 値が大幅に低下していることがわかります。これは、再帰的な言い換え後のこれらの検出方法の脆弱性を浮き彫りにしています。 たとえば、DetectGPT の AUROC 曲線値は、攻撃後に 82% から 18% に低下しました。 検索防御のための言い換え攻撃これまでの研究では、検索ベースの検出器は特に言い換え攻撃に対抗するために設計されていました。 原則としては、ユーザーと LLM 間の会話が保存されるデータベースを維持できるということです。 候補段落の場合、検出器はデータベースから意味的に類似した段落を取得します。 類似度が一定のしきい値より大きい場合、候補段落は AI によって生成されたものとして分類されます。 これまでの研究によると、他のテキスト検出器と比較して、彼らの防御方法は、110億のパラメータを持つDIPPERと呼ばれる大規模な書き換えツールのコンテンツに対しても堅牢であることが示唆されています。 しかし、研究者らは、従来の検出器は再帰的な言い換え攻撃に対して脆弱である可能性があることを発見した。 彼らは、XSum データセットから AI 出力としてラベル付けされた 100 段落を選択し、検出器のデータベースに保存しました。 写真 上の図に示すように、簡単な書き換えを繰り返すだけで、この検出器はすべての AI 出力を検出できます。 しかし、再帰的な言い換えを 5 回繰り返した後、検出精度はわずか 25% に大幅に低下しました。 これは、再帰的な言い換えによって、検索に使用される意味マッチング アルゴリズムを回避できることを示唆しています。 大きな DIPPER を使用すると、上に示すように、困惑度を維持するのに役立ちます。 さらに、検索プロセス自体がユーザーのプライバシーを侵害する可能性があるため、問題が発生する可能性があります。 AIが生成したテキストを正確に検出する方法はない 現実世界で言語モデルを誤用するには、言語モデルによって生成されたテキストを正確に認識する必要があります。 そして、モデルが改良されるにつれて、AI が生成したテキストが人間を模倣して検出を回避する能力も向上します。 このセクションでは、主に AI の一般的な検出器の最も致命的な欠陥、つまりモデルのパフォーマンスが向上すると最良の検出器が無効になるという点について説明します。 したがって、AI が生成したテキストを認識できると主張する AI 検出器に過度に依存すべきではありません。 式AUROC(D)によれば、最良のテスト結果のベースラインパフォーマンスは、ランダム分類の結果に徐々に近づく傾向がある。 写真 さらに、透かしが埋め込まれた検出器であっても、M と H が適切に定義され、特定の書き方や文章の言い換えなどの特定のシナリオに適している限り、検出器がそれを検出することは困難です。 人間とAIが生成したテキストの分布の推定総変動次に、研究者らは人間と AI のテキスト分布の総変動 (TV) を推定しました。 具体的には、人間のテキスト (WebText) の分布といくつかの OpenAI モデルの出力分布の間の全体的な変化を推定します。 2 つの分布 H と M の場合、それらの間の合計変動は、サンプル空間 Ω 上の任意のイベント E に割り当てる確率の最大差として定義されます。 それは次の式です。 写真 研究者らは、人間と AI のテキスト分布からのサンプルを使用して、大規模な RoBERTa 分類器をトレーニングしました。 テキスト シーケンスが与えられると、分類器は 0 から 1 の間のスコアを生成し、そのシーケンスが AI によって生成されたものであるとモデルが判断する確率を示します。 AI テキスト分布が正であると仮定して、研究者は検証セットのサンプルを使用して、真陽性率 (TPR) と偽陽性率 (FPR) の差を最大化するようにスコアのしきい値を選択します。 最後に、研究者らはテスト セットにおける TPR と FPR の差として総変化を推定しました。この差は、実は人間と AI が生成したテキスト分布の閾値を計算する際に、前述の分類器に割り当てられた確率差であり、総変動の下限値となります。 下の図は、RoBERTa-large アーキテクチャを使用した、4 つの異なるテキスト シーケンスの長さ (25、50、75、および 100) に対する GPT-2 モデル (小、中、大、特大) の合計変更推定値を示しています。 研究者らは、対応する分布の全体的な変化を推定することを目的として、各 GPT-2 モデルとシーケンスの長さごとにアーキテクチャの個別のインスタンスをトレーニングしました。 研究チームは、モデルが大きく複雑になるほど、人間と AI のテキスト分布間の全体的な変化の推定値が小さくなることを観察しました。これは、言語モデルがより強力になるにつれて、その出力の分布と人間が生成したテキストの分布の間の統計的な差がなくなることを示唆しています。 写真 次に、研究者らは人間のテキストについて、WebText と ArXiv の要約データセットを使用しました。 3 つのモデルの中で、GPT-3-Ada はテキスト生成能力が最も弱く、GPT-3-Curie はテキスト生成能力が最も強いです。 これらのモデルの出力に利用できる無料のデータセットはないため、研究者は OpenAI の API サービスを使用して必要なデータセットを生成しました。 彼らは、WebText 内の各人間のテキスト シーケンスをプロンプトと補完に分割しました。プロンプトには元のシーケンスの最初の 100 フレーズが含まれ、補完には残りのフレーズが含まれます。 その後、研究者らはプロンプトを使用して、GPT-3 モデルを使用して補完を生成しました。次に、上記と同じ方法で RoBERTa-large モデルを使用して総変化を推定します。 人間のテキストシーケンスの最初の 100 個のトークンをプロンプトとして使用することで、研究者はテキスト生成のコンテキストを制御できます。このようにして、同じコンテキストで生成されたテキストと人間のテキストの類似性を比較することができます。 左の図は、WebText と比較した GPT-3 モデルの推定総変化を示しています。上記の GPT-2 モデルの結論と同様に、研究者は、すべてのシーケンス長の中で最も強力な GPT-3-Curie の総変化が最も小さいことを発見しました。 しかし、GPT-3-Babbage はこの傾向に従わず、その総変動は最も弱い GPT-3-Ada よりもさらに高くなります。 WebText には多数のインターネット ソースからのデータが含まれているため、研究者は科学文献からコンテンツを生成するなど、よりターゲットを絞ったスキームも試しました。 研究者らは、ArXiv の要約データセットを人間のテキストとして使用し、上記の 3 つのモデルの合計変動を推定しました (下の図の右側を参照)。 彼らは、ほとんどのシーケンス長において、さまざまなモデルにわたって総分散が減少することを観察しました。 これは、言語モデルがより強力になるにつれて、その出力が人間のテキストとはますます異なるものになり、検出が困難になることをさらに示しています。 写真 AIテキスト生成モデルに対する欺瞞攻撃効果的な AI テキスト検出ソリューションは、AI テキストと AI によって生成されていないテキストの両方を認識できる必要があります。 欺瞞者が AI で生成されていないテキストを使用して検出器を欺いた場合に、対応できる必要があります。 このセクションでは、研究者らは、ソフト ウォーターマークと検索ベースの検出器の両方がこの欺瞞攻撃によって破られる可能性があることを実証します。 これまでの研究では、透かし付きの大規模言語モデルの出力は、特定のパターンを持つトークンを通じて追跡できます。 これらの特定のパターンは簡単かつ正確に検出できます。 ソフト ウォーターマーク テキストは、主に緑色のリスト内のトークンで構成されます。 攻撃者がこのグリーン リストを知っていれば、透かしの要件を満たすコンテンツを人工的に生成し、それを人間が生成したテキストに挿入することができます。これにより、検出器はテキストが AI によって生成されたことを検出します。 攻撃者の目的は、N 個の語彙の中で最も一般的な単語のグリーンリスト プロキシを計算することです。 研究者たちは実験でN=181という小さな値を使用しました。 攻撃者は、透かし入りの POT-1.3B10^6 回クエリを実行し、出力にペアで表示されるトークンを観察して N トークンを推定しました。 グリーン リスト値が高いトークンはグリーン リストに表示される場合があります。 (下図参照) 写真 研究者らは、攻撃者がグリーンリストエージェントに透かし入りの文章を提供することで、透かし入りの文章を作成するツールを構築するのを支援した。 このようにして、研究者は透かしモデルを簡単に騙すことができます。次の図はいくつかの例を示しています。 写真 下の図は、なりすまし攻撃後の透かし検出器の ROC 曲線の変化を示しています。 写真 参考文献: https://arxiv.org/abs/2303.11156 |
<<: 大規模な論文を読むための素晴らしいツールがここにあります! 67ページの論文を5秒で翻訳し、スクリーンショットを撮って直接質問し、Webページで試してみる
>>: Safetensors は、高速、効率的、安全、使いやすい新しいディープラーニングツールです。
マーク・アンドリーセンはかつてウォール・ストリート・ジャーナルに「なぜソフトウェアが世界を席巻してい...
ハブの紹介 Activeloop の Hub は、Numpy のような配列にデータを配置するオープン...
[[201737]]私はかつて、機械学習を使用してピグレットの世界で株価と変動を予測する空想的な例を...
[[189965]]ディープラーニングはコンピュータービジョンを変革しました。現在、ほとんどの問題...
現在、より成熟し、広く使用されているインテリジェント テクノロジーにはどのようなものがありますか? ...
[[344692]]最近、私のお気に入りの新進思想家の一人と高性能 AI と低性能 AI について議...
データと製品を組み合わせるトピック 1 は、データと製品の組み合わせです。Stitch Fix を例...
OpenAI の関係者は最近プレスリリースを更新し、AI テキスト検出ツールである AI Clas...
人間にとって画像を認識するのは簡単ですが、機械がそれを実現するには長い時間がかかりました。コンピュー...
昨日、北京大学量子材料センター(ICQM)の郭開珍、賈爽らがarXivに提出した論文には、同チームが...
米連邦地方裁判所のベリル・A・ハウエル判事は金曜日、AIによって生成された芸術作品は著作権保護を受け...
現在、世界最高齢の人は、ギネス世界記録に認定された118歳の日本人老人、田中カネさんです。田中選手の...