古代には魔法の鏡があり、今では顔認識機がある。マイクロソフトの傑作CVPR 2020は偽の顔を隠すことを不可能にする

[[316024]]

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

少し前に、ディープフェイク技術がインドの選挙に登場し、候補者の選挙資料に使用されました。この候補者は惨敗に終わったが、ディープフェイクによって点火されたAIによる顔変えの火は、徐々に熱を帯びる兆しを見せているということだ。

状況はますます悪化しているものの、関連するディープフェイク対策技術は比較的不足しています。最近、Microsoft Research Asia は、顔を入れ替えた画像を検出する Face X-Ray と呼ばれる手法を提案しました。

この技術は、「より一般的な顔偽造検出のための顔X線」という論文で発表されました。当該論文の研究者によると、このようなツールは顔を入れ替えた画像の悪用を防ぐのに役立つとのことです。

この技術は既存の方法とは異なり、どのようなアルゴリズムで合成された画像であっても「未知の」画像を正確に検出でき、また、対象を絞ったトレーニングを行わなくても検出できます。

トレーニングサンプル生成の概要

より具体的には、与えられた入力画像を異なるソースからの 2 つの画像の混合物に分解できるかどうかを示すグレースケール画像を生成します。結局のところ、ほとんどの顔交換方法では、生成された画像と既存の画像を組み合わせることになります。

つまり、Face X-Rayは合成画像かどうかを判定できるだけでなく、どの部分が合成であるかを指摘できる、つまり認識機能と解釈機能の両方を備えているということです。

上記のように、次の写真は明らかに合成されたものです。

アルゴリズムの中心的なアイデアは、各画像の一意のマーカーを識別することです。これらのマークにはさまざまな理由があり、アルゴリズムなどのソフトウェア要因やセンサーなどのハードウェア要因から生じる可能性があります。

市場にあるいくつかのバイナリ顔スワップ検出アルゴリズムと比較して、Face X-Ray は検出されていない顔スワップ画像をより効果的に識別し、混合領域を確実に予測できます。

バイナリ分類検出器実験との比較結果

しかし、この論文では、この方法は混合ステップに依存しており、完全に合成された画像には適していない可能性があり、敵対的なサンプルによって騙される可能性があることも指摘しています。

I. 関連研究

偽顔技術は日々進歩しています。多くのアルゴリズムが画像を合成することができ、合成された画像はますますリアルになっています。つまり、偽画像が悪用される可能性があるため、顔変更検出技術の研究は非常に重要です。

このタイプの検出技術は学術界で研究されてきましたが、そのほとんどは「バイナリ分類」検出方法です。98％の精度率を達成できますが、これらの検出方法はオーバーマッチングの影響を受けることが多く、異なるタイプの画像を処理するときに検出方法のパフォーマンスが大幅に低下することを意味します。

より具体的には、実際の人物と写真を区別できる技術は、生体検知、中国語では「ライブ証拠収集」と呼ばれています。現在の技術では、主に解像度、立体情報、目の動きなどに基づいて判別していますが、これは再撮影した写真と実際の人物から直接撮影した写真では、品質や解像度が異なるためです。

映像偽装に関しては、立体情報や光などを基に判別します。

[[316026]]

具体的な応用としては、Google はかつて Assembler と呼ばれる偽造写真対策ツールをリリースしました。このツールには 7 つの検出器があり、そのうち 5 つは米国とイタリアの大学の研究チームによって開発されました。これらの検出器は、合成、消去など、さまざまな種類の技術で処理された写真を検出する役割を果たします。

残りの2つの検出器は、Jigsawの自社チームによって開発された。そのうちの1つは、過去2年間に激しい議論を巻き起こしたAIによる顔の改変であるディープフェイクを識別するために設計されている。この検出器は機械学習を使用して、現実の画像とStyleGANテクノロジーによって生成されたディープフェイクを区別する。

偽の画像の場合は、ステッチの可能性がある領域をマークします。 Face X-Ray 方式では、合成画像の共通性、つまり画像のステッチ、つまり 1 つの画像を別の画像と混合することをターゲットにできます。画像内の混合の可能性がある領域を検出し、違いを分析し、画像マーカーを見つけて、合成画像かどうかを判断します。

2. 顔X線アルゴリズムの詳細

典型的なフェイススワッピング合成方法は、次の 3 つの段階で構成されます。

1.顔の領域を検出します。

2. 目的のターゲット顔を合成します。

3. 対象の顔を元の画像にブレンドします。

顔合成画像検出の既存の方法は、通常、第 2 段階に焦点を当て、データセットに基づいてフレームごとの教師ありバイナリ分類器をトレーニングします。この方法は、テストデータセットでほぼ完璧な検出精度を達成できますが、トレーニング中に見られなかった顔が入れ替わった画像に遭遇すると、パフォーマンスが大幅に低下します。 Face X-Ray の重要なステップは、画像からラベル付きデータを取得し、フレームワークを「自己教師あり」方式でトレーニングすることです。

ここでの自己教師は引用符で囲まれていることに留意してください。自己教師の従来の定義とは異なり、ここでの教師なしとは、顔を変えるデータベースからアルゴリズムをトレーニングしないことを意味します。前述したように、画像のラベル付けは主にハードウェアとソフトウェアの 2 つの側面から行われます。通常の画像では、ハードウェアとソフトウェアによって生成されるマークは一般に「周期的」または均一です。画像が変化するとこの均一性は崩れるため、マーカーを使用して合成画像かどうかを判断できます。具体的には、アルゴリズムレベルでは、合成画像は次のように定義されます。

フォーミュラ1

⊙ は要素ごとの乗算を表し、IF は顔の属性を提供する画像を表し、IB は背景を提供する画像を表し、M は操作領域を区切るマスクであり、各ピクセルのグレースケール値は 0.0 ～ 1.0 です。

フォーミュラ2

上記のように、Face X-Ray は画像 B として定義されます。入力が合成画像の場合、B は混合領域を表示します。入力が実画像の場合、B はすべてのピクセルに対して 0 になります。

本質的に、Face X-Ray の目的は、1 つの画像を異なるソースからの 2 つの画像に分解することです。結局のところ、異なるソースからの画像には、人間の目では検出できない微妙な違いがありますが、コンピューターでは検出できます。

言い換えれば、Face X-Ray はブレンド境界のみを考慮した画像の違いを見つける計算表現です。

次に「自己教師型」学習モジュールが続きます。この部分の難しさは、実際の写真のみを使用して対応するトレーニングデータを取得する方法を解決することにあります。主に3つの部分に分かれています。

1. 実画像が与えられたら、その実画像のバリエーションとなる別の画像を見つけます。顔のランドマークを一致基準として使用し、ユークリッド距離に基づいて検索します。

2. 「偽の」領域を区切るためのマスクを生成します。

3. 上記の最初の式で混合画像が得られ、次に 2 番目の式に従って混合境界が得られます。実際には、トレーニングプロセスの進行に応じてラベルデータが動的に生成され、フレームワークは自己教師方式でトレーニングされます。そのため、実画像レベルで操作するだけで、大量のトレーニングデータを生成することができます。

研究者らは、トレーニングプロセス中に、畳み込みニューラルネットワークに基づくフレームワークを採用しました。これは、ディープラーニングが極めて強力な表現学習機能を備えているためです。入力は画像、出力は Face X-Ray であり、予測された Face X-Ray に基づいて、画像が本物であるかどうかの混合確率が出力されます。さらに、予測には広く使用されている損失関数が採用されています。 Face X-Ray の場合、クロスエントロピー損失を使用して予測の精度を測定します。全体として、Face X-Ray は特定の顔操作技術に関連するアーティファクトの知識に頼る必要がなく、それをサポートするアルゴリズムは偽の画像を生成する方法を使用せずにトレーニングできます。

3. 実験

実験部分では、研究者らは Face X-Ray を Face Forensics++ と、実際の画像から作成された混合画像を含む別のトレーニングデータセットでトレーニングしました。トレーニングにはデータベース内の「実際の画像」のみが使用され、偽の画像は使用されませんでした。そのうち、Face Forensics++ は、DeepFake、Face2Face、Face Swap、NeuralTextures を含む 4 つの最先端の顔操作方法で操作された 1,000 を超えるオリジナルクリップの大規模なビデオコーパスです。

テスト部分では、4 つのデータセットを使用して Face X-Ray の一般化能力を評価します。 4 つのデータセットには、Face Forensics++、Deepfakedetection、Deepfake Detection Challenge、celeb-DF が含まれます。

一般化能力評価

まず、Xception と同じトレーニングセットとトレーニング戦略を使用して、Face X-Ray 検出モデルが評価されます。正確な顔のX線画像を取得するために、実際の画像を背景として使用し、顔を入れ替えた画像を前景として使用し、実際の画像と偽の画像のペアを提供します。公平な比較のために、バイナリクラスの結果も表示されます。結果は次の図に示されています。

一般化能力の評価、未知の顔スワップ検出では、分類器のみを使用するとパフォーマンスが低下します。

さらに、一般化能力も向上しており、その向上は主に次の 2 つの部分から生まれています。1. 操作固有のアーティファクトではなく、顔の X 線を検出することが推奨されます。 2. 実際の画像から多数のトレーニングサンプルを作成します。結果は、自己教師データのみを使用して高い検出精度を達成できることを示しています。

未知のデータセットのベンチマーク結果

この方法は最近リリースされた大規模データセットでテストされ、結果は AUC、AP、EER の観点から示されます。下の図に示すように、フレームワークのパフォーマンスはベースラインよりも優れています。他の顔を入れ替えた画像を使用すると、テストセットとは異なる分布であっても、パフォーマンスが向上します。

下の図は、さまざまな種類の顔を入れ替えた画像の視覚的な例を示しています。疑似顔と実際の画像との差を計算し、グレースケールに変換して正規化することで、基本的な事実が得られます。下の図に示すように、予測された顔のX線写真は事実をよりよく反映できます。

アルゴリズムによって予測された融合境界

現在の作業と比較する

最近の関連研究でも、一般化の問題に注目し、ある程度解決しようと試みています。 FWA は、実際の画像からネガティブサンプルを作成するために自己教師ありアプローチも採用しています。しかし、その目的は、DeepFake によって生成されたビデオにのみ存在する顔の歪みアーティファクトを特徴付けることです。

表3～表5は説明図ですので、表6は無視してください。

上記の表にある他の研究では、MTDS による検出と位置特定を同時に学習するだけでなく、固有の表現を学習しようとしています。比較した結果、Face X-ray は既存の SOTA を上回りました。

提案されたフレームワークの分析

自己教師ありデータ生成におけるデータ拡張の全体的な目標は、モデルがさまざまな改ざんされた画像を検出できるように、さまざまな種類の混合画像を大量に提供することです。

この部分では、著者らは 2 つの重要な強化戦略を研究します。a) 顔の X 線の形状に大きな変化をもたらすことを目的としたマスク変形、b) よりリアルなハイブリッド画像を生成するための色補正です。これら 2 つの戦略は、多様で正確なデータサンプルを生成するために重要であり、ネットワークのトレーニングにも役立ちます。

さらに、自己教師データ生成プロセス中に、異なるタイプのブレンディングを使用してテストデータを構築するために位相ブレンディング法が採用され、アルファブレンディングを使用してトレーニングデータが構築されるときにモデルが評価されます。結果は下の図に示されています。

もう一つ

Face X-Ray は「半合成」画像には素晴らしい効果を発揮しますが、2 つの制限もあります。1 つ目は、純粋に合成された画像の場合、マーカーを効果的に認識できないため、FaceX-Ray ではこの問題を解決できないことです。先ほど述べたとおりです。「この方法はブレンド手順に依存しており、完全に合成された画像には適さない可能性があります。」

2 番目の制限は、誰かがこのアルゴリズム専用に敵対的サンプルをトレーニングした場合、Face X-Ray も失敗する可能性があることです。

また、他の顔変化検出技術と同様に、この技術は画像解像度に敏感です。画像解像度が低いと、顔X線検出率も低くなります。

[[316030]]

左：郭柏寧。右：陳東

この研究に関して、AI Technology Reviewは、Microsoft Research AsiaのエグゼクティブバイスプレジデントであるGuo Baining氏と、Microsoft Research AsiaのシニアリサーチャーであるChen Dong氏にもインタビューしました。

Q: 完全に合成された画像や敵対的サンプルを正確に識別できない Face X-Ray の解決策は何ですか?

A: 合成画像の背景処理は一般的に粗いため、背景の詳細を検出することにはまだ研究段階であり、取り組む予定です。もう 1 つのアイデアは、実際の写真と偽の写真を比較してアルゴリズムをトレーニングすることです。一般的に、有名人やその他の顔写真には固有の属性 ID があり、この固有の属性 ID をデータトレーニングとして使用することで、アルゴリズムを改善することもできます。

Q: Face X-Ray は写真編集ツールを使用して変更された顔写真を認識できますか?

回答: Face X-Ray の焦点は、それが元の画像であるかどうかを判断することではなく、「真実」と「偽り」を比較することです。結局のところ、偽のビデオや写真は社会に大きな悪影響を及ぼします。 Q: アルゴリズムはどのように実装されていますか?いつアプリケーションに統合されますか?回答: 当社のアルゴリズムのブレークスルーは最近の進歩であり、特定のアプリケーションが実装されるまでにはしばらく時間がかかります。

<<: 自然言語処理のためのオープンソースツール12選

>>: TinyML を理解する: エッジでの超低消費電力機械学習