1つのモデルが12種類のAI詐欺を打ち破り、あらゆる種類のGANとディープフェイクを打ち破り、オープンソース化

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

AIが作成した偽の写真でAIを騙すのはおそらく難しいでしょう。

今月発売されたばかりのNvidiaのStyleGAN2もハッキングされた。人間の目では判別が難しい偽の顔画像でも、AI によって正しく識別できます。

最新の研究によると、AI は特定の GAN によって生成された偽の画像を識別するように教えられれば、あらゆる種類の偽の画像を識別する能力を習得できるという。

GAN、Deepfake、超解像など、どのような方法で生成されたものであっても、AI合成画像であれば、汎用モデルで検出可能です。

さまざまな CNN の原理的なアーキテクチャは完全に異なりますが、偽造品の検出における検出器の共通の問題には影響しません。

AI の作業がトレーニングセットに含まれているかどうかに関係なく、適切な前処理と後処理、および適切なデータ拡張を使用して、画像が本物か偽物かを識別できる場合。

これはAdobeとカリフォルニア大学バークレー校の科学者らが発表した新しい研究だ。

一部のネットユーザーは、この研究を利用してKaggleの偽顔認識コンテストに参加すれば、最大50万ドルの賞金を獲得するチャンスがあると述べた。

しかし、彼らはそうしませんでした。代わりに、彼らは ArXiv にプレプリントを公開し、それが CVPR 2020 に収録されました。

最近、彼らは論文のコードを GitHub でオープンソース化し、読者がダウンロードできるようにトレーニング済みの重みを提供しました。

7万枚以上の偽画像が作成された

AI の偽造品識別能力をテストするために、論文の筆頭著者であるバークレー大学の学生 Wang Sheng-Yu 氏は、さまざまな CNN アーキテクチャ、データセット、損失をカバーする 11 のモデルを使用してさまざまな画像を生成しました。

これらのモデルはすべて、一連の畳み込み演算とアップスケーリング演算を通じて画像を生成するアップサンプリング畳み込み構造を備えており、これは CNN が画像を生成する最も一般的な設計です。

ProGAN、StyleGAN、BigGAN、BigGAN、GauGANなどがあります。これらのGANにはそれぞれ特徴があります。

ProGAN と StyleGAN は、カテゴリごとに異なるネットワークをトレーニングします。StyleGAN は、モデルに大きなピクセルノイズを注入して高周波の詳細を導入します。BigGAN は全体的なクラス条件構造を持ちます。GauGAN、CycleGAN、および StarGAN は画像変換を実行します。

GAN に加えて、画像を処理するニューラルネットワークは他にもあります。

カスケード改良ネットワーク (CRN) の敵対的トレーニングなしで知覚損失を直接最適化します。
条件付き画像変換モデルのための暗黙的最大尤度推定 (IMLE)
低照度時の露出不足に対応する SITD モデルを改良しました。
超解像モデル、すなわち第2次注意ネットワーク（SAN）
Faceswap は、顔を交換するオープンソースの DeepFake ツールです。

主流の画像処理 CNN モデルはすべて利用可能です。彼らは合計で7万枚以上の「偽の写真」を作成した。

これらの画像を生成するために使用されるアルゴリズムは非常に異なり、スタイルも異なりますが、CNN 自体の問題と GAN の制限の両方により、いくつかの固有の欠陥が常に存在します。

これは、一般的な CNN 生成コンテンツでは画像の表現力が低下するためであり、これらの研究のほとんどは、ネットワークがアップサンプリングとダウンサンプリングを実行する方法に重点を置いています。ダウンサンプリングは画像を圧縮し、アップサンプリングは画像を補間してより大きな解像度にします。

以前、Azulay、Weiss らによる研究では、畳み込みネットワークは古典的なサンプリング定理を無視し、ストライド畳み込みは変換不変性を低下させ、小さなオフセットが出力に大きな変動を引き起こすことが示されました。

さらに、Zhu Junyan氏のチームがICCV 2019で発表した論文では、GANの生成能力には限界があることが示され、事前トレーニング済みのGANでは生成できない画像構造が分析されました。

今年7月、コロンビア大学の張旭氏らはGANの「共通問題」をさらに発見した。一般的なGANに含まれるアップサンプリングコンポーネントは、アーティファクトを引き起こす可能性がある。

彼らは、これらのアーティファクトが周波数領域でのスペクトルの複製として現れ、それがスペクトログラムで非常に明白であることを理論的に実証しました。

たとえば、同じ馬の写真では、実際の写真の信号は主に中央領域に集中していますが、GAN によって生成された画像では、スペクトルグラフ上に 4 つの小さな点が表示されます。

そこで彼らは、ピクセルではなくスペクトルに基づいた分類モデルを提案し、偽造画像の判別において最先端の性能を達成しました。

ワン氏は、GAN だけでなく他の CNN でも画像を生成するときにスペクトル内に周期的なパターンが見られることを発見しました。

真贋を見分けるためのAIのトレーニング

生成されたデータセットには、11 個のモデルによって生成された偽の画像が含まれています。

ただし、この大規模なコレクションを使用して、真偽の分類器をトレーニングすることはできません。

実際のトレーニングセットには、 NVIDIA ProGANという 1 つのモデルのみが含まれており、これが鍵となります。

△ ProGAN過去作品展

チームは、このアプローチの方が現実世界のタスクに適応しやすいため、トレーニングに 1 つのモデルのみを選択したと述べています。

現実世界では、データの多様性は常に未知であり、トレーニングした AI がどのようなデータに一般化する必要があるかはわかりません。したがって、私たちはモデルによって生成された画像をトレーニングに使用し、AI の一般化能力の向上を支援することに重点を置いています。

他のモデルによって生成された作品は、一般化能力をテストするために使用されます。

（多くのモデルからの偽画像を大量にトレーニングに使用すると、一般化タスクが単純化され、一般化能力がどの程度強いかを観察することが難しくなります。）

具体的には、真偽分類器は ResNet-50 ベースのネットワークであり、ImageNet で事前トレーニングされ、その後 ProGAN の作業を使用してバイナリ分類用にトレーニングされます。

△ ProGANの原理

ただし、トレーニングセットは単一の ProGAN による成果ではありません。チームは 20 個の ProGAN を使用し、それぞれが LSUN データセット内のカテゴリを生成する役割を担いました。 ProGAN は 36,000 枚のトレーニング画像と 200 枚の検証画像を受け取ります。そのうち半分は偽の画像で、残りの半分は実際の画像です。

20 個の ProGAN の結果を合計すると、トレーニングセットには720,000 枚の画像が含まれ、検証セットには4,000 枚の画像が含まれます。

単一のデータセットのトレーニング結果を他のデータセットに拡張するために、チームは独自の方法を使用しました。

最も重要なのはデータの増幅です。まず、すべての画像を左から右に反転し、次にガウスぼかし、JPEG 圧縮、ぼかし + JPEG を使用して画像を処理します。

増幅の手段は特別なものではなく、増幅後にデータが処理された形で表示されるようにすることがポイントです。研究チームによれば、このアプローチは驚くべき一般化効果をもたらすという（下記参照）。

トレーニングが終わったら、結果を見てみましょう。

真実と虚偽を区別する

研究者は、分類器のパフォーマンスを測定する指標として、主に平均精度（Average Precision）を使用します。

複数の異なる CNN モデルによって生成された画像セットでは、ProGAN によってトレーニングされた分類器は優れた一般化を達成しました。

ほぼすべてのテストセットで、AP スコアは 90 を超えています。 StyleGAN のスコアのみがわずかに低く、88.2 です。

GAN であっても、敵対的トレーニングを必要とせず、知覚損失のみを最適化するモデルであっても、超解像度モデルであっても、Deepfake 作品であっても、すべて一般化できます。

研究チームはまた、さまざまな要因が一般化能力に与える影響をテストしました。

まず、データ拡張により一般化能力が向上します。たとえば、StyleGAN は 96.3 から 99.6 に、BigGAN は 72.2 から 88.2 に、GauGAN は 67.0 から 98.1 に改善されました。より直感的な表は次のようになります。左側には増幅はありません。

さらに、データ拡張により分類器もより堅牢になります。

第二に、データの多様性により一般化能力も向上します。 ProGAN は LSUN データセットで 20 種類の画像を生成したことを思い出してください。一般的に、トレーニングに使用する画像のカテゴリが多ければ多いほど、より良い結果が得られます。

では、もう一度考えてみましょう。このタイミングで突然新しいモデルが開発されたら、AIはそれに適応できるでしょうか？

ここで、チームはつい最近リリースされたばかりの NVIDIA StyleGAN2 を使用し、分類器が依然として十分に一般化できることを発見しました。

最後に、もう1つ質問があります。

AIが偽造画像を識別する仕組みは、人間が肉眼で識別する仕組みと同じですか？

研究チームは、画像が AI にとってどの程度偽物に見えるかを示すために「偽物度」スコアを使用しました。 AIが偽物だと判断するほど、スコアが高くなります。

実験結果によると、ほとんどのデータセットでは、AI が認識する偽造度と人間が認識する偽造度の間に明らかな相関関係はないことがわかりました。

BigGAN および StarGAN データセットでのみ、偽造スコアが高くなると、より明らかな欠陥が見られます。

より多くのデータセットではこのようなパフォーマンスは得られません。つまり、分類器は低レベルの欠陥を学習する傾向が強くなる一方で、肉眼で確認できる欠陥は高レベルの欠陥に傾向する可能性があるということです。

インストールと使用方法

論文について話した後は、GitHub に行ってこのモデルの威力を体験してみましょう。

この論文のソースコードは PyTorch フレームワークに基づいており、プロジェクトは CUDA に依存しているため、実行するには NVIDIA GPU が必要です。

まず、プロジェクトをローカルに複製し、依存関係をインストールします。

 pip インストール -r 要件.txt

膨大なトレーニングコストを考慮して、著者は重みとテストセットもダウンロード用に提供しています。これらのファイルはDropboxに保存されているため、国内ユーザーがダウンロードするのは不便です。公式アカウントでCNNに返信して、国内のネットワークディスクアドレスを取得できます。

ダウンロード後、これら 2 つのファイルを weights ディレクトリに移動します。

次に、これを使用して、画像が本物か偽物かを判断することができます。

 # モデルの重みをダウンロードする必要があります。
 python demo.py examples/real.png weights/blur_jpg_prob0. 1 .pth
 python demo.py examples/fake.png weights/blur_jpg_prob0. 1 .pth

独自の GAN を作成する能力がある場合は、それを使用してモデルの偽造能力をテストすることもできます。

 # 評価スクリプトを実行します。モデルの重みをダウンロードする必要があります。
 python eval.py

著者はこれを使用して 13 個の CNN モデルによって生成された画像を識別し、その一般化能力を実証しました。

スパークリング・オーサーズ・グループ

この記事の筆頭著者は、カリフォルニア大学バークレー校のWang Sheng-Yu氏です。同氏は現在、バークレー人工知能研究所 (BAIR) の大学院生であり、偽造画像の識別に関する専門家です。

彼が今年 Adobe と共同で執筆した別の論文「Photoshop スクリプトによる Photoshop 加工された顔の検出」では、写真が Photoshop で加工されて顔を細くしたり美しくしたりされているかどうかを検出でき、写真を元の外観に戻すことさえできる。

この記事のもう一人の著者であるリチャード・チャンも、上記の記事でワンと共同執筆しました。彼は2018年以前にバークレーで博士号取得を目指して勉強し、卒業後にアドビに入社しました。

この記事の責任著者は、かつて Zhu Junyan 博士の指導者であった Alexei Efros です。この記事で言及されている CycleGAN は、Zhu Junyan 博士によって作成されました。アレクセイは現在、カリフォルニア大学バークレー校のコンピュータサイエンス学部の教授であり、以前は CMU ロボティクス研究所で 9 年間教鞭をとっていました。