ブラックテクノロジー検出法: 心拍を信号として利用し、偽モデルを「発見」

偽の肖像ビデオ生成技術は、政治宣伝、有名人のなりすまし、証拠の捏造、その他のアイデンティティ関連の操作のためのリアルな偽の画像やビデオの使用など、社会に新たな脅威をもたらします。これらの生成技術の発展に伴い、高い分類精度を備えた、実証済みの効果的なディープフェイク検出方法がいくつか登場しました。しかし、ディープフェイク動画のソース（つまり、ディープフェイク動画を生成するモデル）に焦点を当てた研究はほとんどありません。

ビンガムトン大学とインテルの研究者らは、ビデオ内の生物学的信号を利用してビデオが偽物かどうかを検出する方法を提案した。この方法は、本物のビデオと偽のビデオを区別できるだけでなく、ディープフェイクビデオの背後にある特定の生成モデルを検出することもできます(生成モデルは、DeepFakes、Face2Face、FaceSwap、NeuralTex から選択されます)。

純粋にディープラーニングベースの方法の中には、CNN を使用して偽のビデオを分類しようとするものもあり、CNN は実際にはジェネレーターの残差を学習します。この研究では、これらの残差にはより多くの情報が含まれており、生物学的信号から分離することで偽造の詳細を明らかにできると主張している。この観察は、生物学的信号の時空間パターンは残差の代表的な投影として見ることができることを示唆しています。この観察を正当化するために、研究者らは本物のビデオと偽物のビデオから PPG ユニットを抽出し、最先端の分類ネットワークに入力して各ビデオの生成モデルを検出しました。

実験結果によると、この方法による偽造ビデオの検出精度は 97.29%、偽造ビデオの背後にある生成モデルの認識精度は 93.39% でした。

論文の宛先:

出典: http://arxiv.org/pdf/2008.11363.pdf

この論文の貢献は次のとおりです。

新しいディープフェイク動画ソース検出方法が提案され、ディープフェイク検出研究に新たな展望が開かれました。
私たちは新たな発見を提案します。生成されたノイズを生物学的信号空間に投影することで、各モデルに固有のアイデンティティを作成できます。
私たちは、本物と偽物のビデオを分類する既存の方法よりも優れた性能を持ち、偽物のビデオの背後にある生成モデル、つまりソース生成モデルを予測することもできる、高度な汎用ディープフェイク検出器を提案します。

生体信号を用いた偽動画の検出とその生成モデル

生体信号は、実際のビデオの真正性マーカーとして機能することが示されており、ディープフェイクの検出における重要な生体信号としても使用されています。ご存知のとおり、偽の動画に出てくる合成人間の心拍パターンは、本物の動画に出てくるものとは似ていません。この研究の主な発見は、これらの生体信号が各モデル残差の恒等変換を含む疑似心拍として解釈できるという事実に基づいています。これにより、ビデオの信憑性を判断するだけでなく、ビデオを生成したソースモデルを分類するためにも使用できるバイオ信号の新たな調査が実現しました。

そのため、この研究では、図 1 に示すように、ディープフェイク動画を検出し、ソース生成モデルを識別できるシステムを提案しました。

生体信号の特性を継続的に捉えるために、研究者らは新しい時空間ブロックである PPG ユニットを定義しました。時空間ブロックは、複数の生の PPG 信号と、固定ウィンドウから抽出されたそれらのパワースペクトルを組み合わせます。 PPG ユニットを作成するには、まず顔検出器を使用して各フレーム内の顔を見つける必要があります。

2 番目のステップは、安定した PPG 信号を持つ検出された顔 (図 1d) から関心領域 (ROI) を抽出することです。研究者らは、効率的な抽出のために、目と口の間の顔の領域を利用して、皮膚の露出を最大化しました。

顔のさまざまな領域からの PPG 信号には相関関係があるため、ROI を見つけてその相関関係を測定することが検出の重要なステップになります。

3 番目のステップでは、非線形 ROI を長方形の画像に合わせる必要があります。この研究では、ドローネ三角形分割[26]を使用し、各長方形に非線形アフィン変換を適用して、各長方形を補正画像に変換しました。

4 番目のステップでは、各画像を 32 個の等しいサイズの正方形に分割し、顔検出を妨げない ω フレームサイズの固定ウィンドウ内で各正方形の生の Chrom-PPG 信号を計算します (図 1e)。次に、より信頼性の高い PPG 信号を生成するため、補正された画像内の Chrom-PPG が計算されます。各ウィンドウには、ω × 32 個の生の PPG 値があります。

ここで、これらを 32 行 ω 列のマトリックスに再編成すると、図 1f と図 2 の下の行の上部に示すように、PPG ユニットの基礎が形成されます。

最後のステップでは、PPG ユニットに周波数領域情報を追加します。ウィンドウ内の各生の PPG 値のパワースペクトル密度を計算し、それを ω の大きさにスケーリングします。

図 2 の下の行は、同じウィンドウから生成されたディープフェイク PPG ユニットの例を示しており、最初の行は各ウィンドウの例のフレームです。

PPG ユニットを定義した後、研究者らは主な仮説を実証しました。ディープフェイクジェネレーターの残差を生物学的信号空間に投影すると、ディープフェイクの背後にあるソース生成モデルを検出するために使用できる独自のパターンを作成できるというものです。

実験

本研究で提案するシステムは、顔検出にOpenFaceライブラリ、画像処理にOpenCV、ニューラルネットワーク実装にKerasを使用して、Python言語で実装されています。

表 1 は、テストセットでの PPG ユニット分類結果を示しています。VGG19 は、4 つの異なる生成モデルを区別し、FaceForensics++ (FF) の実際のビデオを検出する際に最高の精度を達成しています (図 1f)。 DenseNet や MobileNet などの複雑なネットワークは、オーバーフィッティングにより非常に高いトレーニング精度を実現しますが、テストセットの結果は満足できるものではありません。

ビデオ分類に関しては、表 2 にプロセス内のさまざまな投票スキームが記録されています。研究者らはω=128を設定し、多数決、最高平均確率、最高平均確率2つ、および対数オッズ平均化を使用してVGG19のユニット予測結果を比較しました。

図3に示すように、5つのカテゴリのFF（本物のビデオ1つと偽のビデオ4つ）に対する提案手法の検出率は97.3％であり、生成されたモデルの検出精度は少なくとも81.9％です。

研究者らは、1) トレーニングセットに実際のビデオが含まれない、2) PPG ユニットにパワースペクトルが含まれない、3) 生物学的信号がない、4) 顔の ROI の代わりにフルフレームを使用し、ω = 64 で FF データセットの分割を定数に設定する、というさまざまな設定でトレーニングとテストを行いました。結果は表3に示されています。

前述の設定を使用して、提案された方法を異なるウィンドウサイズω = {64、128、256、512}フレームでテストします。結果は下の表4に示されています。

論文で提案されたアプローチが新しいモデルに拡張できることを実証するために、研究者らは FF 設定を単一のジェネレータデータセット CelebDF と組み合わせて、分析プロセスを繰り返しました。提案された方法は、データセット全体で93.69%、CelebDFデータセットで92.17%の検出精度を達成しており、この方法は新しいモデルに一般化できることを示しています（表5を参照）。

表 6 に、テストセットにおけるさまざまなモデルの精度を示します。結果から、本論文で提案された方法は、最も複雑なネットワークである Xception をも上回り、精度が 10% 高いことがわかります。

<<: 保険会社、パンデミックによりAI自動化を導入

>>: トラックに「透明マント」を装着し、自動運転車を衝突させる。これは誰がより早く攻撃できるかを競う競争だ