ディープフェイクを即座に排除しましょう!マイクロソフト北京大学、AIによる顔変更ツールと偽顔検出ツールを提案

ディープフェイクを即座に排除しましょう!マイクロソフト北京大学、AIによる顔変更ツールと偽顔検出ツールを提案

顔認識の「槍と盾」が同時発売! Microsoft Research Asiaと北京大学は最近、FaceShifterとFaceX-Rayを提案する2つの重要な学術論文を共同で発表しました。前者は、忠実度が高く、遮蔽を考慮したAIによる「顔変更ツール」であり、後者は偽造された顔画像の一般的な検出ツールです。業界をリードするパフォーマンスを実現しながら、必要なデータ量も大幅に少なくなっています。

最先端の AI と機械学習アルゴリズムは、場所や物体のリアルな画像を生成できるだけでなく、ある人物の顔のアバターを別の人物に交換することも得意です。一方、研究者たちはディープフェイク画像を検出できる認識ツールも絶えず開発しています。機械学習による画像認識の分野で「槍と盾」の戦いが激化している。

最近、マイクロソフトリサーチと北京大学の研究チームが同時に「槍」と「盾」を作成した。彼らが発表した2つの論文では、それぞれFaceShifterとFace X-Rayを提案している。前者は忠実度が高く、遮蔽物を認識できる顔変更ツールであり、後者は偽造された顔画像を検出できるツールである。

研究者らは、どちらの方法も、パフォーマンスを犠牲にすることなく、既存の複数のベースライン方法と比較して業界をリードする結果を達成し、従来のアプローチよりも大幅に少ないデータしか必要としないと述べている。

1. Sharp Spear: 忠実度の高い顔交換ツール FaceShifter

この新しいツールは 2 層フレームワークを採用しています。これまで、顔を変えるアプリケーションの主な難しさは、顔の特徴を抽出し、2 つの画像の特徴と属性を 1 つに組み合わせることでした。GAN に基づく最近の研究は大きな進歩を遂げていますが、高精度でリアルな画像結果を合成するにはまだ課題が残っています。

研究者らは、高精度かつ遮蔽条件下で顔の交換を実現できる、FaceShifter と呼ばれる新しい 2 部構成のアーキテクチャを提案しました。最初の部分では、ターゲット属性を完全に適応的にマイニングして統合することにより、高解像度の顔変更画像を生成します。新しい属性エンコーダーを使用して、マルチレベルターゲットの顔の属性を抽出し、適応型注意非正規化 (AAD) レイヤーを備えた新しいジェネレーターを使用して、合成顔画像の特徴と属性を統合します。

アーキテクチャの 2 番目の部分は、顔の遮蔽の問題に対処することに重点を置いており、これには新しい Heuristic False Acknowledgement Refinement Network (HEAR-Net) が含まれます。トレーニング後、画像の異常領域は、手動で注釈を付けることなく、自己教師方式で復元できます。新しい顔画像に対する広範な実験により、他の方法と比較して、私たちのモデルによって生成された顔変更画像は、見た目がよりリアルで魅力的であるだけでなく、元の画像の特徴をより多く保持していることが示されました。

第一段階のAEI-Net構造。 AEI-Net は、アイデンティティ エンコーダー、マルチレベル属性エンコーダー、および AAD ジェネレーターで構成されています。 AAD ジェネレーターは、AAD レイヤー上に構築されたカスケード AAD ResBlk を使用して、複数の機能レベルで画像の特徴と属性の情報を統合します。


HEAR-Netと第二段階の世代効果

FaceSwap、Nirkin、FaceForensics++、DeepFake、IPGAN などのモデル生成効果との比較。私たちのモデルは、ソース画像の顔の形状をよりよく保存し、ターゲットプロパティ(照明、画像解像度)にもより忠実です。


既存の顔を変えるモデルとの性能比較

2. Jiandun: 偽の顔画像を検出するツール「Face X-ray」

一般的な顔交換合成方法は、1) 顔領域の検出、2) 目的のターゲット顔を合成、3) ターゲット顔を元の画像に融合、という 3 つの段階で構成されます。顔合成画像検出の既存の方法は、通常、第 2 段階に焦点を当て、データセットに基づいてフレームごとの教師ありバイナリ分類器をトレーニングします。この方法は、テスト データセットでほぼ完璧な検出精度を達成できますが、トレーニング中に見られなかった偽の画像に遭遇すると、パフォーマンスが大幅に低下します。

既存の方法とは異なり、Face X-Ray では操作に関する事前の知識や人間の監督は必要なく、代わりに、特定の入力画像を異なるソースからの 2 つの画像の混合物に分解できるかどうかを示すグレースケール画像を生成します。研究者らは、ほとんどの方法には変更した顔を既存の背景画像に溶け込ませるという共通のステップがあるため、このアプローチが機能すると主張している。すべての画像には、ハードウェア (センサーやレンズなど) またはソフトウェア (圧縮や合成アルゴリズムなど) によって導入された独自のシグネチャがあり、これらのシグネチャは画像間で類似している傾向があります。

Face X-Ray は、特定の顔操作技術に関連するアーティファクトの知識に依存せず、偽の画像を生成する方法を使用せずに、Face X-Ray を動かすアルゴリズムをトレーニングできます。

一連の実験で、研究者らは Face X-Ray を Face Forensics++ でトレーニングしました。Face Forensics++ は、4 つの最先端の顔操作方法で操作された 1,000 を超えるオリジナル クリップを含む大規模なビデオ コーパスと、実際の画像から構築されたハイブリッド画像を含む別のトレーニング データセットです。彼らは、4 つのデータセットを使用して FaceX-Ray の一般化能力を評価しました。

前述の FaceForensics++ コーパスのサブセット、Google が公開した数千のビジュアル ディープフェイク ビデオのコレクション、ディープフェイク検出チャレンジの画像、視覚的なアーティファクトが削減された 408 本の実際のビデオと 795 本の合成ビデオのコーパスである Celeb-DF。

結果は、Face X-Ray が検出できない偽造画像を効果的に識別し、混合領域を確実に予測できることを示しています。研究者らは、この方法は混合ステップに依存しているため、完全に合成された画像には機能しない可能性があり、敵対的サンプルによって騙される可能性があると指摘している。それでも、これは顔の偽造を検出するための汎用的なツールに向けた有望な一歩です。

著者について

これら 2 つの記事の著者は、Microsoft Research Asia (MSRA) のビジュアル コンピューティング チームのメンバーです。チーム メンバーのほとんどは、USTC や北京大学などの国内の名門大学を卒業しています。また、MSRA でインターンシップの経験があり、フェローシップ賞も受賞しています。インターネット上の公開情報に基づいて、これら 2 つの記事の著者を紹介します。

李玲志

[[312059]]

北京大学で修士号、北京交通大学で経営学学士号を取得。過去 1 年間、私は MSRA ビジュアル コンピューティング グループで研究インターンとして働いてきました。彼の研究対象はコンピュータービジョン、機械学習、ディープラーニングです。特に生成モデルとディープフェイク検出の分野に興味があります。

包建民

[[312060]]

MSRA ビジュアル コンピューティング グループの研究者。彼は以前、2014年と2019年に中国科学技術大学でLuo Jiebo教授とLi Houqiang教授の指導の下、理学士号と博士号を取得しました。彼の研究対象はコンピュータービジョンと機械学習です。私は顔の検出、認識、合成、GAN に特に興味があります。

張 婷

[[312061]]

MSRA のビジュアル コンピューティング グループの上級研究員。 2017 年 7 月に MSRA に入社する前、彼は 2012 年に中国科学技術大学で学士号、2017 年に博士号を取得しました。彼は 2013 年から 2017 年まで MSRA でインターンシップを行い、2015 年に MSRA フェローシップ賞を受賞しました。彼の現在の研究の関心は、コンピューター ビジョンのためのディープラーニングに焦点を当てています。

ヤン・ハオ

[[312062]]

2017 年末に MSRA ビジュアル コンピューティング チームに加わりました。彼は以前、清華大学ソフトウェア学院で学士号と博士号を取得しました。研究対象には、顔、肖像画、3D 画像の理解と合成が含まれますが、これに限定されません。

チェン・ドン

[[312063]]

2015 年 7 月に MSRA ビジュアル コンピューティング チームに参加しました。彼は以前、2010年に中国科学技術大学で学士号、2015年に博士号を取得しています。彼は 2010 年から 2015 年まで MSRA でインターンシップを行い、2013 年に MSRA フェローシップ賞を受賞しました。

ウェン・ファン

[[312064]]

MSRA ビジュアル コンピューティング グループの主任研究員。

郭柏寧

[[312065]]

Microsoft Research Asiaのエグゼクティブバイスプレジデント。グラフィックスとイメージングの分野の研究を担当。郭博士はコーネル大学で修士号と博士号を取得し、北京大学で学士号を取得しています。彼は、電気電子技術者協会 (IEEE) のフェローであり、また、計算機協会 (ACM) のフェローでもあります。彼の研究対象には、コンピュータ グラフィックス、コンピュータ視覚化、自然なユーザー インターフェイス、統計学習などがあります。テクスチャマッピングモデリング、リアルタイムレンダリング、ジオメトリモデルの分野で達成された研究成果は特に優れています。

<<:  2019 年の NLP における最先端のブレークスルーを振り返る

>>:  素晴らしい操作です!たった5行のコードで画像認識AIが作れる

ブログ    
ブログ    

推薦する

...

...

汎用人工知能までどれくらい遠いのでしょうか?

汎用人工知能はどのくらい遠いのでしょうか? どのくらいの速さで進歩しているのでしょうか? 現在、人間...

機械学習とディープラーニングとは何ですか?ファイザン・シャイクがお手伝いします

概要: この記事では、機械学習とディープラーニングの定義と応用についてわかりやすい言葉で紹介するとと...

AI、機械学習、ディープラーニングのつながりと違いを1つの記事で理解する

急速に変化する今日のテクノロジーの世界では、人工知能 (AI)、機械学習 (ML)、ディープラーニン...

...

AIとMLに対する5つの潜在的な致命的な脅威とその解決方法

[[267669]] [51CTO.com 速訳] 人工知能(AI)と機械学習(ML)は、この時代の...

日本音楽著作者団体連合会は、政府に対し、AI規制に関する議論を直ちに組織し、クリエイターの参加を求めるよう求める声明を発表した。

日本音楽著作者協会連合会(FCA)は6月15日、AIによる著作権の活用についての見解を公式サイトで発...

オックスフォード大学とケンブリッジ大学は「顔面を叩き」、ChatGPTの使用を許可し、段階的にチュートリアルも教えた。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

DeepMind Google 研究者の推奨: 拡散モデルの効率と生成品質の向上のヒント

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

AIを使って内部脅威を特定することの倫理

マイノリティ・リポートのトム・クルーズを覚えていますか? AI は将来のリスクを示唆する従業員の行動...

顔認識技術の応用に関する法的規制

新興技術の発展とビジネス、公共福祉、社会統治などの分野におけるその応用をどのように促進、保護、規制す...

ゲームの背後にあるAIストーリー:小規模サンプル学習と転移学習

2019年、人間と機械のゲームバトルにおいて、Open AI Fiveが圧倒的なパフォーマンスでD...

これらの 10 個のオープンソース機械学習ツールを使用したことがありますか?

機械学習開発者として、あなたは多くの機械学習リソースに遭遇したことがあるかもしれません。今日は、オー...