Google の研究者が GPT-4 を使用してレビューシステムを破る AI-Guardian

海外メディアの報道によると、8月2日、Googleの研究者らは、OpenAIのGPT-4を研究アシスタントとして使用してAI-Guardianを回避する方法を実証した。

AI-Guardian は、画像に不適切なコンテンツが含まれているかどうかを検出するために使用される AI レビューシステムであり、画像が他の AI によって変更されているかどうかも識別できます。不適切なコンテンツや改ざんの兆候が検出されると、システムは管理者にアクションを起こすよう促します。

Google DeepMindの研究科学者であるニコラス・カルリーニ氏は論文の中で、GPT-4がAI-Guardianの保護手段を回避する攻撃方法を考案するように指示された経緯を明らかにした。この実験は、セキュリティ研究の進歩におけるチャットボットの潜在的な価値を実証し、GPT-4 のような強力な言語モデルが将来のサイバーセキュリティに及ぼす影響を強調しました。

Carlini 氏の研究では、OpenAI の大規模言語モデル GPT-4 を使用して AI-Guardian に対する攻撃戦略を開発する方法を調査しました。 AI-Guardian は元々、疑わしいアーティファクトを含む入力を識別してブロックすることで敵対的な攻撃を防ぐために開発されました。しかし、Carlini 氏の論文では、プロンプトに導かれた GPT-4 がスクリプトを生成し、AI-Guardian の検出メカニズムをトリガーせずに分類器を欺く画像調整を説明することで、AI-Guardian の防御を克服できることが示されています。

Carlini 氏の論文には、AI-Guardian の脆弱性を悪用する可能性のある、GPT-4 によって示唆された Python コードが含まれています。その結果、元の AI-Guardian 研究の脅威モデルでは、AI-Guardian の堅牢性は 98% からわずか 8% に低下しました。 AI-Guardian の作者らは、Carlini の攻撃が防御をうまく回避したことを認めた。

Nicholas Carlini 氏による GPT-4 を使用して AI-Guardian を倒す実験は、AI 対 AI の取り組みにおける重要なマイルストーンとなります。言語モデルを研究支援として使用して脆弱性を発見し、サイバーセキュリティ対策を強化する方法を示します。 GPT-4 の機能は将来のセキュリティ研究に有望な展望をもたらす一方で、人間の専門知識と共同作業の重要性も浮き彫りにしています。 AI 言語モデルが進化し続けると、サイバーセキュリティの分野に革命をもたらし、敵対的攻撃に対する防御の革新的なアプローチを生み出す可能性があります。

<<: AIとソフトウェアが5Gデータセンターの変革を推進する方法

>>: 交通における人工知能: スマートソリューションによる交通革命