1. はじめに近年、人工知能技術は活発な発展の傾向を示し、新たな科学技術革命と産業変革をリードする戦略的技術となっている。習近平総書記は「新世代人工知能の開発を加速することは、我が国が新たな科学技術革命と産業変革の機会をつかめるかどうかに関わる戦略的課題である」と強調した。人工知能技術は、経済と社会のあらゆる分野における知能の急速な発展を推進しています。しかし、「どんなコインにも長所と短所がある」。人工知能は社会生活にインテリジェントな利便性をもたらした一方で、個人のプライバシー漏洩、AI技術の乱用、公共の安全への危険などの問題も引き起こし、社会統治に新たな課題をもたらしている。 ディープフェイク技術は近年登場した技術で、人工知能などの新興技術を利用して音声、動画、画像、テキスト内容を操作し、誤解を招く効果を意図している。生成される偽の画像や動画は、対象の表情、動作、声の高さ、色合いなどの情報を模倣し、「本物と区別がつかない」、肉眼では判別が難しい画像や動画を生成する。これは「百聞は一見に如かず」という人々の認識を覆し、人工知能の安全性に対する国民の幅広い懸念を引き起こし、個人、社会、国家の安全に大きな技術的リスクをもたらす。 2. ディープフェイク技術2017年、米国のニュースサイト「Reddit」に「deepfakes」というユーザーが、技術的に改ざんし、動画内の俳優の顔を映画スターの顔に置き換えたポルノ動画を投稿した。これにより、「ディープフェイク」技術は人々の注目を集めた。ディープフェイクには、まだ世界的に認知され統一された定義はありません。2018 年の悪質偽造禁止法では、米国は「ディープフェイク」を「合理的な観察者が個人の実際の発言や行動の真の記録であると誤って認識するような方法で作成または変更された視聴覚記録」と定義しています。「視聴覚記録」とは、画像、動画、音声などのデジタル コンテンツを指します。この記事では、ディープフェイク技術を、ディープラーニングなどの新興技術を使用して、誤解を招く効果を生み出す目的で画像、動画、音声、テキストなどのデジタルコンテンツを作成または変更する技術とみなします。 図1 ディープフェイク動画 01動画ディープフェイク生成技術現在のビデオ画像のディープフェイク技術は、主にコンピュータービジョンの分野におけるディープラーニング技術の応用と開発から生まれました。偽造生成では主にディープ ニューラル ネットワークが使用されます。これには、オート エンコーダ ネットワーク AE (オート エンコーダ) と生成的敵対的ネットワーク GAN (生成的敵対的ネットワーク) の 2 つのカテゴリが含まれます。 初期のビデオ画像の偽造は、主にエンコーダー ネットワークとデコーダー ネットワークで構成されるオートエンコーダー ネットワークに依存していました。エンコーダーは顔の特徴を抽出して顔画像をエンコードして圧縮し、デコーダーは圧縮されたエンコード表現から元の顔を再構築します。ネットワークのトレーニング段階では、エンコーダー ネットワークは顔の主要な特徴をキャプチャすることを学習し、対応するデコーダー ネットワークを使用して学習した顔画像を再構築します。顔を偽造する場合は、任意の顔を統合エンコーダーに入力し、エンコードされた顔をターゲット顔のデコーダーでデコードするだけです。生成された顔画像は、入力ソース顔の表情と特徴的な属性を保持しながら、ターゲット顔の特徴を持ちます。 図2 自己符号化偽造生成プロセス 偽造品の現実感を向上させるために、オートエンコーダ ネットワークは実際のサンプル データの確率分布を意図的に近似する必要があり、その結果、ネットワークの一般化パフォーマンスが不十分になり、生成されたデータの現実感が制限されます。これらの問題を解決するために、一部の研究者は、GAN ネットワークを使用して偽造生成のリアリティを向上させることを提案しています。 GAN はゲーム理論を採用したネットワーク構造です。ネットワークは生成モデルと識別モデルの 2 つの部分で構成されています。トレーニングと学習のプロセスは、ジェネレータと識別器の間の相互ゲームのプロセスです。ジェネレータは、与えられた入力情報に基づいてサンプルデータをランダムに生成し、識別器は、生成されたサンプルデータが実際のトレーニングサンプルに属するかどうかを判断します。両者は敵対的トレーニングを通じてジェネレータの能力を向上させ、最終的にジェネレータが「本物と区別がつかない」データサンプルを生成できるという目標を達成します。 現在主流の動画ディープフェイク技術は、主にGANネットワークの考え方に基づいており、プーリング層を取り除いたDCGANネットワーク、EM(Earth-Mover)距離を導入したWasserstein GNAネットワーク、2つの異なるドメインの画像学習を使用するCycleGANネットワーク、進化戦略最適化ネットワークを導入したE-GANネットワーク、条件付き敵対的生成ネットワークを使用するpaGAN、カスケードネットワークと組み合わせたSCAN、大規模な敵対的生成ネットワークなど、さまざまなGANベースのバリアントネットワークが派生しており、顔の表情や特徴に対してより洗練された操作やレンダリングを実行し、よりリアルな顔画像を生成します。 現在、ディープフェイク動画は主に顔の属性の変更または生成に現れており、顔の再現、顔の置き換え、顔の属性の操作、顔の生成の4つの側面に分けられます。顔の複製とは、ソースアイデンティティの表情、顔の動き、頭や体の動きを利用して、ターゲットアイデンティティの対応する動きを駆動することを指します。ターゲットアイデンティティの顔は変更されず、特定の表情や動きが偽造またはターゲットの顔に転送され、ターゲットアイデンティティの表情や動きの偽造が実現されます。顔の置き換えとは、顔を変える偽造行為であり、身元の変更の目的を達成するために、元の身元の顔と対象の身元の顔を交換することを指します。顔属性の操作とは、対象のアイデンティティを変更する目的を達成するために、髪型、肌の色、年齢、人種など、対象のアイデンティティの顔属性を追加、編集、または削除することを指します。顔生成とは、モデルを使用して存在しない顔の画像を完全に作成することを指します。 図3 ディープフェイク生成の4つの主な形式 02 オーディオディープフェイク生成技術偽の音声生成とは、主に AI を使用して偽の音声を合成することを指し、通常はテキスト音声合成と音声変換の形をとります。 テキスト音声合成技術は、主に指定されたテキストから対応する音声データを生成するために使用されます。主な方法は、音声断片に基づく音声合成方法とパラメータ推定に基づく音声合成方法に分けられます。音声フラグメントベースの音声合成方法では、主に音声インデックス辞書内の事前に録音された音声フラグメントをソートすることによってオーディオが生成されます。パラメータ推定ベースの音声合成方法は、テキストを音声の主要なパラメータにマッピングすることにより、ボコーダに基づいて音声を合成します。 音声変換とは、ソース オブジェクトの声質をターゲット オブジェクトの声質に変換するプロセスを指します。人工知能技術の発展に伴い、さまざまな学者が画像やビデオ生成の技術的アイデアを借用し、オートエンコーダネットワーク、GANネットワーク、自己回帰モデルなどを導入して、よりリアルな実在の人物の音声データの合成を支援しています。 Santiago らは、音声ノイズをフィルタリングし、生成された音声の品質を向上させるために GAN ネットワークを導入しました。 Vasquez らは、スペクトログラムと、局所的および全体的な構造の両方を捉えることができるきめ細かい自己回帰モデルに基づくエンドツーエンドの音声生成モデルを設計しました。生成された音声コンテンツは、人間のイントネーションを再現できるだけでなく、実際の人間のように話すこともできます。 Baidu は、低次元のトレーニング可能なスピーカーエンコーディングを使用し、Deep Voice を拡張して DeepVoice2 を提案することで、テキストから音声への変換を強化し、単一のモデルで異なる音声を生成できるようにしています。 Pingらは、注意メカニズムに基づく完全畳み込みTTSモデルを提案し、それを拡張してDeep Voice3を生成しました。これにより、合成性能を低下させることなく、完全な並列計算を実現できます。 3. ディープフェイク検出技術01 ディープフェイク動画検出技術画像やビデオの偽造分野におけるディープ生成敵対ネットワークなどの技術の応用により、ビデオ画像の改ざんや合成の能力閾値はますます低くなっています。特に、顔の生成、顔の属性の変更、顔の置き換え、表情の操作など、さまざまなディープ偽造ツールの応用により、偽造されたビデオ画像の検出と識別がますます困難になっています。従来のビデオ画像の真正性の検出と識別方法だけに頼って、さまざまな偽造方法をサポートすることは困難です。 現在、ディープフェイク動画検出手法の研究者は、動画自体の画像特徴の分析に基づく手法と、データ駆動型のディープラーニング分析に基づく手法の2種類の手法を主に提案しています。 ビデオ画像自体の画像特性に基づく検出方法は、主に、ビデオ画像内の照明の不連続性、影の不連続性、幾何学的位置の不一致などの画像の物理的特性を分析することによって画像の真正性を識別することを含みます。また、ビデオ画像撮像装置センサーのノイズ差特性や色差特性を分析して、画像の真正性を判定する方法も提案されている。また、ビデオ画像の圧縮痕跡(DCT係数、ブロック効果など)や画像再サンプリング特性を分析して見つけ、ビデオ画像偽造の痕跡を見つける方法も提案されている。また、まばたきの頻度、脈拍、心拍数などの人間の生理学的信号特性の不一致や不一致を利用して、ビデオ画像の真正性を検出および判定することを提案する研究者もいる。このような特徴に基づく検出方法のほとんどは、肉眼で容易に認識できる特定の種類の偽造や改ざんの「痕跡」しか検出できず、テスト結果は比較的解釈可能です。 ディープラーニング技術の発展に伴い、研究者らはデータ駆動型のディープラーニング検出方法も提案しています。一部の研究者は、コントラスト損失関数を使用して大量の偽画像データと実画像データをトレーニングし、真画像と偽画像を効果的に区別する特徴表現を学習し、真画像と偽画像を分析および識別するという目的を達成することを提案しています。本物と偽物の差別化された特徴を分析・抽出し、分類器をトレーニングすることでディープフェイク画像を検出する方法もあります。また、畳み込みニューラルネットワーク、リカレントニューラルネットワーク、カプセルネットワークなどのさまざまなディープニューラルネットワーク構造を適用して、ビデオ画像の真正性を検出する方法もあります。 ディープフェイク技術は主に敵対的生成ネットワークに基づいているため、研究者は敵対的生成ネットワークによって生成された画像が自然な画像と色の分布が異なるかどうかにも大きな注目を払っており、さまざまな色の特徴に基づいた検出と識別の方法を提案しています。また、ビデオ画像を生成する際にさまざまなGANネットワークが残したネットワーク指紋の特徴を分類と識別の基礎として探すことを提案する人もいます。これは、さまざまな偽造方法を識別して追跡するために使用できます。このタイプの GAN 指紋特徴ベースの方法は、GAN の構造に依存します。GAN 技術の急速な発展に伴い、GAN 指紋ベースの方法によって抽出された GAN 指紋特徴は永続的かつ普遍的ではなく、この方法の一般化能力は不十分です。 図4. ディープフェイク画像検出の一般的なプロセス ディープフェイク動画の場合、現在の検出方法は依然として「顔を変える」技術の検出に重点を置いています。ビデオが圧縮されるとフレーム データが著しく劣化し、ビデオ フレーム グループ間のタイミング特性に一定の変化が生じるため、静的特徴に基づくほとんどのディープフェイク画像検出方法は、ディープフェイク ビデオの検出に直接使用することはできません。ディープフェイクモデルは静的な顔画像セットを使用してトレーニングされることが多いため、生成モデルは人間の顔に関する事前知識を適切にモデル化せず、まばたき、呼吸、心拍などの生理学的情報を正確に偽造することが困難になります。そのため、多くの研究者が、不自然なまばたきの動き、顔と頭の向きの不一致、顔領域の視覚的アーティファクトなどの特徴を利用してビデオの真正性を検出するなど、生理情報の合理性に基づいてディープフェイクビデオ検出を構築するさまざまな方法を提案してきました。一部の研究者は、偽造されたビデオでは、時空間領域での異なる照明とカメラの視点の下で顔と肌の完全な融合を実現することが難しいことにも気づき、ビデオフレーム間の不一致、光応答不均一性 (PRNU) パターンの違い、フレーム間のオプティカルフローの不連続性、顔と周囲領域の解像度の不一致に基づいて偽造された特徴の痕跡を検出する方法を提案しました。 図5. ディープフェイク動画検出の一般的なプロセス 02 ディープフェイク音声検出技術人工知能技術の応用により、音声合成・変換能力は絶えず向上しており、生成される音声はますますリアルになっています。人間の聴覚判断のみで主観的に判別することは困難です。そのため、悪意を持って使用される音声ディープフェイクを検出・識別する方法の研究がますます重要になっています。現在、ディープフェイク音声の検出と識別は、主に音声信号分析に基づく方法と、発話速度、声紋、スペクトル分布などの生体情報の特徴に基づくディープラーニング方式の 2 種類の方法で行われています。 当初、オーディオの真正性の検出と識別に関する研究は、主にオーディオ信号処理のアイデアに基づいていました。研究者は、スペクトル特性をモデル化し、定数Qケプストラム係数、正規化コサイン位相、修正群遅延などの方法を使用して検出と識別を行うことを提案しました。このタイプの方法は、特定のオーディオ処理技術を使用したオーディオ認識に効果的ですが、この方法の一般化パフォーマンスは低いです。 ディープラーニング技術の発展に伴い、データ駆動型のディープラーニング検出方法が徐々に研究者の注目を集めるようになりました。 Gomez-Alanis らは、軽量畳み込みニューラルネットワークとリカレントニューラルネットワークを融合して、光畳み込みゲートリカレントニューラルネットワークによって抽出された偽造音声深層特徴の検出方法を提案しました。 Liらは、メル周波数ケプストラム係数、定常Qケプストラム係数、FBankなどの複数の音響特徴を統合するマルチタスク学習検出のアイデアを提案しました。 Monteiro らは、音声を視覚的なスペクトログラムとして表現し、時間畳み込みネットワークを使用してスペクトログラムの明瞭度を識別および分析し、音声が偽造されているかどうかを判断することを提案しました。 偽造音声の検出は、従来の信号処理方法からディープラーニング方法へと進化し、音声偽造対策の分野で一定の成果を上げていますが、既存の方法は依然として特定の攻撃タイプに依存しており、未知のタイプの攻撃の検出の一般化を改善する余地がまだ多くあります。 つまり、人工知能技術の発展と応用の深化に伴い、ディープフェイク検出技術は個人のプライバシーの保護、公共の安全の維持、司法の公正の促進においてその重要性をますます示しており、社会のあらゆる分野から十分な注目を集めるべきである。 |
<<: 次世代AIの成功は効果的なパイロット戦略から始まります
>>: ChatGPTがついにオンラインになり、回答のソースを提供できるようになりました
予想外のことが起こらなければ、人類は人工知能の時代へと急速に進んでいくだろう。ウェイター、宅配便業者...
マイクロソフトは8月30日、今年5月にBing Chat向けサードパーティプラグインを導入すると発表...
機械学習は主に教師あり学習、教師なし学習、強化学習に分けられます。ただし、各手法の適用分野はそれぞれ...
11月28日、北京国家会議センターでFlink Forward Asia 2019が開催されました。...
[[206942]]国内外の権威ある20の機関のEconomic Information Daily...
AIGC には、がんの治療に役立つ可能性など、驚くべき用途を含め、多くの潜在的な用途があります。 M...
アニメーションといえば、1923年に設立された企業帝国、ディズニー。アニメーション会社としてスタート...
自動運転車は自動車の知能化の究極の目標であると広く考えられていますが、自動車技術のさまざまな段階の発...