研究者は特別な画像を使って人工知能を「毒する」

DALL-E、Midjourney、Stable Diffusion などの AI 生成アートツールの台頭により、激しい議論と論争が巻き起こっています。これらのシステムは、インターネット上で収集された膨大なデータセットでトレーニングされ、テキストプロンプトに基づいてフォトリアリスティックな画像やアートを作成できます。しかし、これにより著作権侵害やアーティストの作品の不正使用に関する大きな懸念が生じます。

そこで研究者たちは、クリエイターがデジタルアートに「毒」を加えることを可能にする、Nightshade と呼ばれる革新的な新技術を開発した。目的は、許可なく自分の作業を使用しようとする AI システムを妨害することです。

DALL-E 2 や Stable Diffusion などのツールは、ニューラルネットワークと呼ばれる一種の人工知能技術を使用します。これらは、キャプションやテキストの説明とペアになった画像の大規模なデータセットでトレーニングされます。これにより、テキストの概念と視覚的特徴の関係を学ぶことができます。

たとえば、モデルが「犬」というラベルの付いた、毛皮、4 本の足、尻尾などが描かれた何百万もの画像を見ると、それらの視覚パターンを「犬」という言葉と関連付けることを学習します。次に、「草の上に座っているかわいい子犬」のようなテキストプロンプトを与えると、子犬の新しいリアルな画像をゼロから生成できます。

アーティストの作品の撮影に関する懸念

モデルはより多くのデータでトレーニングされるにつれて、より優れた能力を発揮します。その結果、背後にいるテクノロジー大手は、アーティストの同意なしにインターネットから何百万枚もの画像を取得するに至った。しかし、多くのクリエイターは、自分の作品が許可や報酬なしに AI トレーニングに使用されていることに不満を抱いています。

これはアーティストにとってジレンマを生み出します。作品を公開して AI トレーニングが悪用されるリスクを冒すか、非公開にして露出を失うか? Instagram、DeviantArt、ArtStation などのプラットフォームは、AI システムのトレーニングデータの宝庫となっています。

Nightshade が AI モデルに毒を注入する方法

最近の研究論文によると、Nightshade は AI モデル自体を攻撃して破壊するという巧妙な解決策を提供しているとのことです。デジタルアートのピクセルにおけるこれらの微妙な変化は、人間には見えません。しかし、これらの調整により、AI が依存する画像の概念とテキストの手がかりが混乱します。

たとえば、Nightshade は犬の写真を修正して、AI モデルがそれを自転車や帽子と間違えるようにすることができます。十分な量の汚染された画像が AI のデータセットに入力されると、テキストと画像の間に奇妙なつながりがあるという錯覚が生じる可能性があります。

テストの結果、Nightshade によって Stable Diffusion などの AI モデルが完全にシュールかつ不条理なアートを生成できることが分かりました。例えば、50 個の毒物サンプルを採取した後、犬の画像が「タコ」のような多足の生き物に変わったり、漫画の顔が歪んだりした。「毒を盛られた」犬の写真を 300 枚取り込んだ後、Stable Diffusion は犬を作成するように求められたときに猫を出力しました。

Nightshade の攻撃は、ニューラルネットワークのブラックボックス特性を悪用します。大量のデータセットでは中毒の原因を追跡するのは困難です。つまり、有害なデータを削除するのは、干し草の山から針を見つけるようなものです。

攻撃は関連する概念間でも伝播します。そのため、「ファンタジーアート」の画像に悪影響を与えると、「ドラゴン」や「城」などの関連用語についても AI が混乱することになります。これにより、Nightshade 効果を手動で大規模にクリーンアップすることはほぼ不可能になります。

<<: OpenAI CEOアルトマン氏の突然の解任に関する分析

>>: Google Deepmind、楽器とボーカルで音楽を生成するLyria AIオーディオモデルを発表