翻訳者 | 劉涛 レビュー | Chonglou AI ライティング検出器を使用したことがあるかもしれませんが、AI 検出がどのように機能するかを知りたいと思いますよね?私は AI 研究の専門家ではありません。しかし、私はこれをデータサイエンスの観点から説明することができます。 以下についてお話します:
AI検出とは何ですか?AI 検出では、複雑な機械学習と自然言語処理モデルを使用して、人間のテキストと機械のテキストを区別します。これには、既存のテキスト ライブラリでトレーニングされた人工知能検出ソフトウェアを使用して、新しいテスト資料からパターンを認識できる予測アルゴリズムを開発することが含まれます。次に、評価対象の資料が手動で作成されたか、自動で作成されたかの確率スコアが表示されます。 AI テキスト検出が重要な理由AI テキスト検出は情報の信頼性を確保するために重要であり、検索エンジン最適化 (SEO)、学術、法務分野でも重要な役割を果たすことができます。 AI コンテンツ ジェネレーターは、競争において間違いなく有用かつ不可欠です。しかし、それらは信頼性が低いことでも有名です。したがって、Google、学校、クライアントのいずれであっても、コンテンツに確信を持てることを望んでおり、レビューせずにオリジナルのコンテンツを送信するだけでは不十分です。 もし人々に以下のことが許されたらどうなるか想像できますか:
信頼はもはや存在しなくなります。 ほとんどの場合、人々はそれらの違いを知らないので、これらのツールを使用する必要があります。 AIテキスト検出の仕組みこれらのツールがどのように機能するかを詳しく見てみましょう。 しかし、ここでは 2 つの主要な概念があります。
これらは、上記の 2 つの概念を使用して AI コンテンツを検出するモデルをトレーニングするときに使用される、より一般的な手法の一部です。 分類器: AI検出のための分類ハット分類器は、ハリー・ポッターの分類帽子のようなもので、データをあらかじめ決められたクラスに分類します。 これらの分類器は、機械学習またはディープラーニング モデルを使用して、単語の使用法、文法、スタイル、トーンなどのさまざまな特徴を調べ、AI によって生成されたテキストと人間が書いたテキストを区別します。 各データ ポイントがテキスト エントリであり、特徴が軸を形成する散布図を想像してください。 そこで、 2つのクラスがあるとします。
テストするテキストはすべて、これら 2 つのクラスターのいずれかに分類されます。以下に、よりわかりやすくするために作成したグラフを示します。 分類子の役割は、2 つのクラスを分離する境界を形成することです。 使用される分類モデルに応じて、次のような例があります。
注:これらが何であるかを知る必要はありません。これらがさまざまな方法でデータを並べ替えるアルゴリズムであることを知っておくだけで十分です。 境界は、直線、曲線、またはその他のランダムな形状である可能性があります。 新しいテキスト (データ ポイント) をテストすると、分類子はそれらのテキストをこれらのクラスのいずれかに配置するだけです。 埋め込み:言葉のDNAスリリングなスパイ映画のように、すべての単語に独自の秘密のコードがあったらどうなるでしょうか? 人工知能 (AI) と言語理解に関しては、まさにこれが起こっています。 これらのコードは埋め込みコードと呼ばれます。本質的には、それらは単語の固有の DNA です。これらの埋め込まれたコードは、各用語の背後にある中核的な意味を捉え、各用語が文脈内で他の用語とどのように関連しているかを理解することによって、意味ネットワークを形成します。 これは、各単語を N 次元空間のベクトルとして表現し、いくつかの高レベルの計算を実行することによって実現されます。 2D、3D、または302934809D になります。 注: ベクトルは大きさと方向の両方を持つ量です。しかし、この説明では、グラフ上の座標として考えてください。 しかし、なぜベクトルなのでしょうか? コンピューターは言葉を理解できないからです。衝撃的ですが、これが現実です。したがって、まずベクトル化によって単語を数値に変換する必要があります。以下に表の例を示します。 注: ベクトル化されたテキスト値は、バイナリの 1 または 0 だけでなく、幅広い範囲の値を持つことができます。視覚化を容易にするためにこの表を作成しました。 以下は2D グラフ上にベクトルをプロットする別の例です。 3 次元の物体がどのようなものかは想像できると思いますが、4 次元の物体の説明は私に頼まないでください。4 次元の物体がどのようなものかは誰にもわかりません。しかし、数学的なアルゴリズムを通じて、コンピューターは数学的な魔法を使って 4 次元のオブジェクトをレンダリングすることができます。 まさにこれが Google の仕組みです。検索バーに何かを入力すると、それに驚くほど関連した結果が表示されるのはなぜでしょうか? しかし、人間が生成したテキストと AI を使用して生成されたテキストをどのように区別するのでしょうか? すべてのテキストをそれぞれの埋め込みベクトルに変換し、それを機械学習モデルに入力してトレーニングします。 モデルはこれらすべての関連付けを行い、実際の文言をまったく知らなくても、AI 生成テキストに共通するすべての「コード」を解明します。 しかし、人間が生成したテキストと AI を使用して生成されたテキストをどのように区別するのでしょうか? すべてのテキストをそれぞれの埋め込みベクトルに変換し、それを機械学習モデルに入力してトレーニングします。 モデルはこれらすべての関連付けを行い、実際の文言をまったく知らなくても、AI 生成テキストに共通するすべての「コード」を解明します。 困惑:AI生成テキストの試金石困惑度は、確率分布または言語モデルがサンプルをどれだけ正確に予測できるかを測る指標です。 AI 生成コンテンツ検出の文脈では、困惑度は AI 生成テキストを測定するための試金石として機能します。困惑度が低いほど、テキストが AI によって生成された可能性が高くなります。 それは、指紋照合を使って容疑者を特定する探偵のようなものです。 次の表で詳細を説明します。
爆発性:AI生成テキストの特徴バースト性とは、AI モデルによって生成される文の長さと複雑さの変動のことです。 あなたがレストランにいて、騒々しく賑やかな会話もあれば、静かで親密な会話もある会話で満ち溢れていると想像してください。これらの会話と同様に、人間が書いた文章には多くのニュアンスがあり、予測できないことがよくあります。 しかし、AI モデルによって生成された結果は、一般的に長さと複雑さの点でより一貫性があったのに対し、人間が書いた文章には、より多様性や「爆発」が見られました。 AI 検出器が文の長さ、構造、リズムの微妙な違いに気付いた場合、テキストが AI によって生成された可能性があるとしてフラグ付けされます。 以下の表にいくつかの例を示します。
AI検出の精度はどのくらいですか?はっきり言いますが、スコアが 100% であっても、100% 正確になることはありません。 それはまさにモデルの自信です。 AI 検出器がテキストを分析する場合、通常は、人間が書いたコンテンツか AI が生成したコンテンツかという違いだけで判断するのではなく、特定の資料の顕著な特徴に基づいて、各分類のスコアまたは確率を計算します。 たとえば、AI 検出器を使用してテキストを分析し、「AI」と「人間」にそれぞれ 0.7 と 0.3 のスコアが付けられたとします。 これらの数字は、検出器が、物質が同じタイプである確率と異なるタイプである確率の比率がおよそ 7:3 (70% 対 30%) であると判定したことを意味します。 したがって、最終的に特定のタイプが適切かどうかを判断するのは非常に簡単になります。 物事を「人間」対「AI」として分類するのではなく、確率指標を割り当てることで、予測の信頼性をより深く理解することができます。テキストを 2 つのカテゴリに分類することに加えて、テキストが人間によって書かれたものか AI によって書かれたものかを判断するには、多くの要素を考慮する必要があります。 使用される評価方法に確率スコアの計算が含まれる場合、これらのスコア間の相違の程度が AI モデルの予測の確実性に影響を与える可能性があります。 たとえば、AI が生成した作品と人間が完成させた作品に割り当てられたスコアに大きな差がない場合 (たとえば、それぞれ 0.51 と 0.49 のスコア)、それらの確率が大きく離れている場合 (たとえば、それぞれ 0.9 と 0.1 の確率差) よりも、それらの起源を検出することがより困難になります。 したがって、バイナリ結果を生成するにもかかわらず、決定には確率スコアの差に大きく依存する詳細な分析が含まれます。 注: 他の記事では、各単語が次の予測単語になる確率値や温度パラメーター (温度: 生成されたテキストのランダム性と創造性を制御するために使用されるパラメーターで、通常はソフトマックス関数を使用して実装されます) を計算することによって AI 検出器がどのように機能するかについて説明している場合があります。これは、AI 検出器ではなく、AI 作成者の作業方法を指します。これらの記事は検索意図を完全に誤解しています。 かなり長い段落ですが、これが私が最もよく説明できる方法です。 AI コンテンツ検出の展望はどのようなものですか?人工知能のさらなる進歩に伴い、機械生成コンテンツの洗練度は高まり続けており、そのようなコンテンツを効果的に検出するための独自の課題が生じています。したがって、開発プロセスに関わるすべての人は、この複雑さに対処する能力を維持するために、より高度で正確なツールを作成するために一生懸命取り組む必要があります。 AI によって生成された偽情報を正確に検出することは、オンライン情報の信頼性を維持するために非常に重要であり、これらの脅威に効果的に対抗する唯一の方法となります。 さらに、プライバシーの侵害、意志の侵害、この強力なテクノロジーの潜在的な悪用に関連する倫理的配慮にも特別な注意を払う必要があります。 AI検出を使用するのは誰ですか?検出に AI を使用することで最も恩恵を受けるグループは次のとおりです。 学校: 学生による AI 作成ソフトウェアの悪用を防止します。 企業: スパム、偽のレビュー、偽のニュースを排除します。 法執行機関: なりすまし、個人情報の詐欺、ネットいじめなどの犯罪行為を排除します。 ソーシャル メディア プラットフォーム: 誤った情報を拡散したり宣伝したりするボットや偽アカウントを削除します。 メディアと報道機関: フェイクニュースやプロパガンダを特定し、AI に過度に依存するライターを交代させます。 政府機関: 偽情報のキャンペーンやプロパガンダを根絶します。 よくある質問AI コンテンツ検出ツールには制限や欠陥がありますか?AI コンテンツ検出ツールにはいくつかの制限と欠陥があります。 AI によって生成されるコンテンツが増え続けるにつれて、テキストが人間によって生成されたかどうかを判断することがますます困難になり、その正確さは必ずしも完璧ではありません。 さらに、AI 検出器は、意図的に検出できないように設計された AI 生成コンテンツを識別するのが困難な場合があります。 AI 生成および検出技術の今後の発展によって、AI 検出の限界の範囲が共同で決定されます。 SEO で AI 検出を使用する理由Googleは最近のアップデートで、AI生成コンテンツに価値がある場合はスパムとはみなされなくなると述べたが、GoogleがAI生成コンテンツを検出できるかどうかについては依然として議論がある。 Google がいつ態度を変えてペナルティを課すか、あるいは課すかどうかは実際にはわかりません。そのため、ほとんどの SEO (検索エンジン最適化) では、安全性を確保するために AI 検出が依然として使用されています。 AI検出の精度はどのくらいですか?AI 検出では、検出されたテキストがトレーニング データとどの程度類似しているかを正確に判断することしかできません。単純な「はい」または「いいえ」の結果ではなく、信頼スコアを提供します。 結論はAI 検出について知っておくべきことはすべて説明しました。なぜそれが必要なのか、そのようなモデルをトレーニングする実際のプロセス、その精度、そしてその見通しについて説明します。 これがこのトピックをよりよく理解するのに役立つことを願っています。 翻訳者紹介51CTO コミュニティ エディターの Liu Tao 氏は、大規模な国有企業システムのオンライン テストと制御を担当しています。 原題: AI 検出器の仕組みの詳細な概要、著者: Brendan Aw |
>>: 人工知能とモノのインターネットのダイナミックな融合を探る(パート 2)
科学研究機関の世界総合ランキングでは、中国科学院、中国科学技術大学、北京大学がトップ10にランクイン...
[[184749]] 1. 人工知能の波が再び高まっている画期的な出来事:AlphaGoがイ・セド...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
Meta の「Segment Everything Model」(SAM) よりも高速な画像セグメン...
自動化された機械学習は、過去 1 年間で大きな関心を集めるトピックになりました。 KDnuggets...
Horizon Roboticsは1月22日、純粋な視覚ベースの自動運転アルゴリズムであるSpa...
さまざまな公共交通機関を頻繁に利用する人にとって、安全性と質の高い体験は最も重要です。人工知能やモノ...
ディープラーニングには大量の計算が必要です。通常、多数のノードを持つニューラル ネットワークで構成さ...
私は最近、BP アルゴリズムを体系的に研究し、この研究ノートを書きました。私の能力が限られているため...
[[212221]] Ele.meについてほとんどの人がテイクアウトを注文したことがあるでしょう。テ...
[[255980]]ついに待望の登場です! Alibaba は、主要なオープンソース プロジェクトで...
皆さんは多くの人工知能プロジェクトを見たり使用したりしたことがあると思いますが、そのほとんどは非常に...