人工知能は、マルチドメイン畳み込みニューラルネットワークを通じて、JPEG二重圧縮画像内の偽造領域を特定します。

人工知能は、マルチドメイン畳み込みニューラルネットワークを通じて、JPEG二重圧縮画像内の偽造領域を特定します。

人工知能がマルチドメイン畳み込みニューラル ネットワークを介して JPEG 二重圧縮画像の偽造領域を特定 概要:攻撃者が画像を偽造する場合、ほとんどの場合、JPEG の再圧縮を実行します。さまざまな理論的仮定に基づいてさまざまな技術が開発されてきましたが、非常に効果的な解決策はまだ開発されていません。最近、画像フォレンジックの分野では、取得元の特定や偽造の検出など、さまざまなタスクを解決するために機械学習ベースの方法が登場し始めています。最後のケースでは、将来の目標は、検査対象の画像が与えられた場合に偽造領域を確実に特定できる、十分に訓練されたニューラル ネットワークを取得することです。これを念頭に置いて、私たちの論文では、畳み込みニューラル ネットワーク (CNN) を使用して単一または二重の JPEG 圧縮を明らかにし、特定する方法を分析することで、この方向への一歩を踏み出します。 CNN へのさまざまな種類の入力が検討され、さらに調査される潜在的な問題を実証するためにさまざまな実験が実行されました。

今日では、画像や動画が主要な情報源として広く普及したことにより、画像予測コミュニティでは、それらの信頼性と完全性に対する疑問が高まっています。写真に関係する文脈が異なります。雑誌、ソーシャル ネットワーク、保険実務、裁判の証拠。これらの画像は強力な編集ソフトウェアを使用することで簡単に変更でき、多くの場合、変更の視覚的な痕跡が残らないため、画像の完全性について確実に回答することが不可欠になります。画像フォレンジックは、資産が変更されたかどうかを画像のみから判断できる技術を開発することでこれらの問題に対処しますが、改ざんが発生した状況に関する局所的な知識が必要になる場合もあります。偽造パーソナライゼーションに関しては、これまでに特徴記述子に基づくもの[1、6、7]、不一致な陰影に基づくもの[10]、そして二重JPEG圧縮に基づくものの3つの主要な検出器のカテゴリーが研究されてきました。

マルチドメイン畳み込みニューラル ネットワークによる JPEG 二重圧縮画像内の偽造領域の特定 人工知能の貢献: 近年、畳み込みニューラル ネットワーク (CNN) などの機械学習とニューラル ネットワークは、複雑な統計的特徴を抽出し、その表現を効果的に学習する能力を示しており、画像認識や分類を含むさまざまなコンピューター ビジョン タスクで優れたパフォーマンスを発揮できます。多くの分野でこれらのネットワークが広く使用されていることから、マルチメディアフォレンジックコミュニティは、これらの技術的ソリューションが情報源の識別[20, 3]や画像やビデオの操作の検出に使用できるかどうかを理解するよう動機づけられ、導かれてきました。特に、Wang et al. [23]は、離散コサイン変換(DCT)係数のヒストグラムをCNNへの入力として使用し、単一または二重のJPEG圧縮を検出して改ざんされた画像を検出しました。 この背後にある主なアイデアは、CNNをトレーニングする前に画像コンテンツを抑制するための前処理モジュールを開発することです。[16]では、CNNアーキテクチャに前処理なしのパッチが提供されましたが、改ざんされた領域のダイヤモンドは改ざんされていました。画像フォレンジックの分野ではニューラル ネットワークへの関心が高まっていますが、ニューラル ネットワークで何が達成できるかについての真の理解はまだ初期段階にあります。

この論文はこの方向への一歩を踏み出します。私たちの目標は、検査対象の画像が与えられた場合に、単一または二重の JPEG 圧縮領域の存在を分析することで、偽造の可能性がある領域を確実に特定できるニューラル ネットワークをトレーニングすることです。具体的には、さまざまな種類の CNN ベースの方法が提案されており、ネットワークへのさまざまな入力が与えられています。まず、RGB カラー画像から空間領域ベースの CNN を使用して画像偽造検出を実行します。前処理も境界情報も使用されません。 CNN は、圧縮されていない単一 JPEG 圧縮画像と二重 JPEG 圧縮画像を区別し、主要な (隠れた) JPEG 圧縮を明らかにして、偽造された領域を見つけるようにトレーニングされました。第二に、[23]と同様に、DCT係数のヒストグラムをネットワークへの入力として用いる別の周波数領域ベースのCNNが導入される。提案された 3 番目の方法は、RGB パッチと DCT ヒストグラムに関する前の 2 つの入力情報を結合できるマルチドメイン CNN に基づいています。この研究の主な貢献は、画像偽造検出タスクにおける空間領域 CNN の使用と周波数領域との組み合わせの調査です。さらなる調査と改善を必要とする潜在的な問題を明らかにするために、さまざまな実験テストが実施されました。

マルチドメイン畳み込みニューラルネットワークによる JPEG 二重圧縮画像内の偽造領域の位置特定 AI CNN ベースのアプローチの提案 この研究では、スプライシング攻撃に関与する画像領域を検出する目的で、圧縮されていない単一または二重に圧縮された画像を識別する可能性を調査することを目的としています。これに加えて、私たちの 2 番目の目標は、二次圧縮を適用する前に、画像またはパッチに適用される主要な品質要因を明らかにすることです。このタスクを達成するために、ネットワークに与えられた入力データとネットワーク自体に基づいて、3 つの異なる CNN ベースの方法が設計されました。畳み込みニューラル ネットワークは、複数のカスケード接続された畳み込み層とプーリング層、およびそれに続く 1 つ以上の完全接続層で構成されます。提案されたアプローチでは、検討対象の各 CNN は、ネットワークのコンポーネントの組み立て方法と使用されるレイヤーの数の点で他の CNN と異なります。詳細は以下で説明します。データから直接識別機能を学習するには、トレーニング段階で一貫したラベル付き画像のセットが必要です。このため、検討したすべての方法では、異なるサイズの画像が異なるサイズのセグメントに分割され(重複せずに)、それぞれがネットワークに送られます。これらの方法は入力の点では異なりますが、ネットワークの出力は同じです。特に、3 つの異なる CNN は、非圧縮、単一圧縮、二重圧縮のパッチ (60 から 95 までの 7 つの品質係数、段階的に 5 を考慮) の 9 つのクラスを認識できます。

マルチドメイン畳み込みニューラル ネットワークによる JPEG 二重圧縮画像内の人工領域の特定 人工知能 空間領域 CNN: 空間領域ベース CNN と呼ばれる最初の CNN ベースのアプローチでは、ネットワークの入力は 3 つのカラー チャネル (RGB) 上の N × N サイズのパッチであり、前処理はまったく考慮されず、0 と 1 の間のデータの正規化のみが実行されます。まず畳み込みネットワーク[12]を設計し、それを図1(上)にまとめます。この特定のネットワークは、2 つの畳み込みブロックと 2 つの完全接続層で構成されています。各畳み込みブロックは、ReLU アクティベーションを伴う 2 つの畳み込み層とそれに続くプーリング層で構成されます。すべての畳み込み層は 3x3 のカーネル サイズを使用しますが、共有層のカーネル サイズは 2×2 です。過剰適合を防ぐために、トレーニング中に完全に接続されたレイヤーでユニットをランダムにドロップする Dropout を使用します。特に、このタイプの CNN は、考慮される二次品質係数 QF2 = 60:5:95 ごとにトレーニングされます。このようにして、QF2 の各値に対応する 8 つの異なる分類器が得られました。各分類器は、入力パッチに対して 2 レベルの分類を出力する必要があります。 1 つ目は、非圧縮パッチ、単一圧縮パッチ、二重圧縮パッチ間のクラス間分類です。二重圧縮パッチの場合、これに続いて QF1 の内部カテゴリ (60:5:95 の範囲、QF1=QF2 を除く) が続きます。したがって、9 つの通常クラス、1 つの非圧縮クラス、1 つの圧縮クラス、および各 QF1 の 1 つのクラスを出力することを選択します。その結果、CNN の最後の完全接続層は 9 方向ソフトマックス接続に送信され、各サンプルが各クラスに分類される確率が生成されます。損失関数として、カテゴリカルクロスエントロピー関数[22]を使用する。パッチのクラスを誤分類しながら、二重に圧縮されたパッチの内部タイプを誤分類するのは間違っていることに気付きました。したがって、クラス内エラーをクラス間エラーの 1/9 として重み付けするように損失を調整します。予備実験では、これによりクラス内分類の精度が向上しました。提案された CNN モデルは、非圧縮、単一圧縮パッチ、または二重圧縮パッチ (つまり、QF2 = 90、QF1 は 60 ~ 95) で構成されるトレーニング セットのラベル付きパッチ サンプルでトレーニングされます。テストフェーズでは、8 つのトレーニング済み CNN のうちの 1 つ (JPEG 形式の EXIF ヘッダーに保存されている品質係数に基づいて選択) を使用して、パッチ サイズのスライディング ウィンドウを適用して画像全体をスキャンし、各パッチにクラスを割り当てることで、テスト画像のパッチベースの特徴を抽出し、画像レベルでローカリゼーションを実行します。

マルチドメイン畳み込みニューラルネットワーク周波数領域CNNによるJPEG二重圧縮画像内の人工知能領域の特定:2番目に提案された方法では、周波数領域ベースのCNNが与えられたパッチに対して前処理を実行し、[23]で評価された係数の数を拡張するという考えに基づいてDCT係数のヒストグラムを計算します。詳細には、N×N スライスが与えられると、DCT 係数が抽出され、各 8×8 ブロックに対して、最初の 9 つの空間周波数がジグザグ スキャン順序で選択されます (DC はスキップされます)。各空間周波数 i,j に対して、量子化された DCT 値の絶対値の発生を表すヒストグラム hi,j が作成されます。具体的には、hi,j(m)は、m = (50..0, +50)のi,j DCT係数のヒストグラム内の値mの数です。したがって、ネットワークには合計 909 個の要素 (101 個のヒストグラム ビン × 9 個の DCT 周波数) のベクトルが入力として存在します。ここでも、前と同様に、8 つの CNN の配列がトレーニングされ、それぞれが 2 番目の圧縮品質係数 QF2 の異なる値に対応します。次に、特徴ベクトルを使用して各 CNN をトレーニングし、以前に定義した 9 つのクラス (非圧縮、単一圧縮、二重圧縮、QF2 は固定、主な品質係数は QF1 = 60:5:95 で変化) を区別します。提案された CNN モデルのアーキテクチャを図 1 (下図) に示します。 2 つの畳み込み層と、それに続く 2 つのプーリング接続と 3 つの完全接続が含まれます。入力データのサイズは 909x1 で、出力は 9 つのクラスの分布です。完全に接続された各層には 256 個のニューロンがあり、最後の層の出力は 9 方向ソフトマックスに送信され、各サンプルが各クラスに分類される確率が生成されます。私たちのネットワークでは、各層は活性化関数として正規化線形ユニット (ReLU) f(x) = max(0, x) を使用します。両方の完全接続層で、ドロップアウト手法が使用されます。

マルチドメイン畳み込みニューラル ネットワークによる JPEG 二重圧縮画像内の人工知能領域の特定 マルチドメイン CNN: 検討する 3 番目のアプローチは、マルチドメイン CNN です。このアプローチでは、3 つのチャネル パッチと、パッチ上で計算された DCT 係数のヒストグラムがネットワークへの入力として使用され、前の 2 つのアプローチが組み合わされます。図 2 に、最初の完全に接続された層まで空間領域ベースの CNN と周波数領域ベースの CNN で構成される提案ネットワークが示されています。マルチドメイン ベースの CNN は、R、G、B ドメインの特徴と DCT のヒストグラム間のパターン間関係を学習し、2 つのネットワークの完全接続レイヤー (各 256 次元) の出力を連結します。このようにして、最後の完全接続層には 512 個のニューロンがあり、出力は 9 方向ソフトマックス接続に送信され、ドロップアウト層を使用して各サンプルが各クラスに分類される確率が生成されます。したがって、前と同様に、QF2 の各値に対して 8 つの異なる 9 クラス分類器が設計されます。トレーニングとテストのフェーズは以前と同じように進行しました。

マルチドメイン畳み込みニューラル ネットワークによる JPEG 二重圧縮画像内の偽造領域の特定 人工知能 マルチドメイン 結論: この論文では、畳み込みニューラル ネットワークを使用してスプライシング偽造を検出するためのステップを提案しました。私たちは、圧縮されていない単一圧縮画像と二重圧縮画像を分類および特定する CNN の機能を調査し始めました。最新のケースでは、私たちの方法は元の圧縮品質係数を回復することもできます。我々は空間領域ベースの CNN とそれを周波数ベースの CNN と組み合わせることを提案し、それらをマルチドメインベースの方法に適用します。実験結果によると、空間領域は直接使用でき、周波数領域と組み合わせると、DCT 方式が通常は弱い状況 (QF2 < QF1 など) でも優れたパフォーマンスが得られることがわかります。未解決の問題がいくつか残っており、調査が必要です。まず、CNNアーキテクチャの選択は、より深いアーキテクチャが使用されるオブジェクト分類タスク[11、18]で見られるものとは大きく異なるパフォーマンスにつながる可能性があります。次に、より大きなデータセットを収集して、優れた CNN モデルをトレーニングするために必要なデータの量を調べる必要があります。私たちの結果は、空間情報が、有用な統計を構築するために少なくとも 64x64 のパッチを必要とする DCT 方法に役立つことを示しています。 3 番目に、CNN には、さまざまな種類の圧縮 (JPEG 2000 や非可逆 PNG など) を検出する機能が提供される必要があります。私たちの有望な結果は、ツールが以前の圧縮の微妙な特徴を検出し、再圧縮時に使用する最初の品質係数を予測することを学習できることを示しています。

<<:  音声対話とニューラルネットワークで構築された人工知能車両システム「WindLink 3.0」が正式に発売されました

>>:  AR は人工知能と見なされますか?この記事を読めば分かるだろう

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

大手各社が相次いで「敗北を認める」。自動運転の実用化に目途は立つのか?

[[263741]]自動運転は短期間で実現できるのか?数年前なら、大手各社はおそらく肯定的な答えを...

「Nvidia人工呼吸器」オープンソース:コンピュータアーキテクチャのマスターによって構築され、コストが98%削減され、黄仁訓が賞賛

この人工呼吸器は、コンピューターアーキテクチャの巨匠ビル・ダリー氏によって設計されました。コンピュー...

ビッグモデルの時代、周志華教授の「ラーニングウェア」の考え方を分析:小さなモデルでも大きなことができる

ビッグモデルの時代に入りつつあることは間違いありません。オープンソースやクローズドソースのさまざまな...

...

9つの一般的な畳み込みニューラルネットワークの紹介

畳み込みの目的は、入力から有用な特徴を抽出することです。画像処理では、さまざまなフィルターを選択でき...

新しいAI技術がアルツハイマー病の薬のターゲット発見に役立つ

人工知能は10年以上にわたって新薬の発見と開発に使用されてきました。しかし、最近の AI 技術と研究...

Baidu CTO 王海鋒氏のCNCC2019講演: ディープラーニングプラットフォームが産業インテリジェンスをサポート

10月17日から19日まで、2019年中国コンピュータカンファレンス(CNCC2019)が蘇州で開催...

...

待望のWeb顔認識ログインのフルバージョンが登場しました。気に入っています

[[436944]]この記事はWeChatの公開アカウント「Programmer Insider T...

ニューラルネットワークはなぜそれほど強力なのでしょうか?

普遍近似定理ニューラル ネットワークは非常に強力であることが知られており、ほぼすべての統計学習問題を...

スタンフォードグローバルAIレポート:人材需要は2年間で35倍に増加し、中国のロボット導入は500%増加

先ほど、スタンフォード グローバル AI レポートが正式に発表されました。スタンフォード大学は昨年か...

...

レア! Apple のオープンソース写真編集ツール MGIE が iPhone に登場?

写真を撮り、テキストコマンドを入力すると、携帯電話が自動的に写真の編集を開始しますか?この魔法のよう...

機械学習のトレーニングをより安価かつ効率的にする方法

さまざまなタスクに人工知能を導入する企業が増えるにつれ、AI モデルのトレーニングは費用がかかり、困...