「ZAO」かっこいいですね！ディープフェイクを使って顔を変える方法

最近、SNS上で「ZAO」と呼ばれるAI顔変換ソフトが話題になっている。人気が出る一方で、多くの疑問も生じている。詳細は「ZAO が 3 日で Apple の無料リストのトップに躍り出た、このままでは Apple は消滅する」をご覧ください。

アプリに写真をアップロードするだけで、好きなスターになれます。夢のような話に聞こえますが、実現可能なのです。

AI顔変えアプリ「ZAO」は敷居ゼロで操作も簡単…流行る遺伝子を持っている。しかし、一夜にして人気が出ましたが、その後、急速に広まり、わずか 24 時間で禁止されました。

9月3日、ZAOは公式に謝罪声明を発表した。 ZAOは、個人の顔の生体認証特徴情報を保存せず、支払いリスクを発生させないと表明した。同社は個人情報保護とデータセキュリティを非常に重視している。

「ZAO」の謝罪に関する話題はすぐに人気検索リストのトップに躍り出たが、それが引き起こしたプライバシー保護論争と反省は収まっていない。その後、工業情報化部はZAOに聞き取り調査を行い、自己点検と是正を実施し、法律に従って個人情報を収集および使用するように要求しました。

プログラマーとして、顔を変えるソフトウェアの使い方を知らないことをどうやって我慢できるでしょうか? ここでは、ディープフェイクを使用して素手で顔を変える方法を説明します。

ディープフェイクを使って顔を交換するにはどうすればいいですか?

ディープフェイクツールキットを入手する

git クローン https://github.com/deepfakes/faceswap.git

依存パッケージを完了します。

pip インストール tqdm
pip インストール cv2
pip で opencv-contrib-python をインストールします
pip で dlib をインストール
pip keras をインストール
pip テンソルフローをインストール
pip install tensorflow-gpu (マシンに GPU がある場合)
顔認識をpipでインストールする

サンプルの収集

ここでは新垣結衣さんのサンプルを選びました。100枚の写真をダウンロードするのに長い時間がかかりました。

もう一人の方はキャリー・マリガンさんです。画像を探すのが面倒だったので、「グレート・ギャツビー」の動画をそのままキャプチャして、ffmpegで画像に変換しました。全部で70枚くらいあります。

顔を掴む

サンプルを収集した後、次のコマンドを使用してサンプル画像の顔をキャプチャします。

./faceswap.py 抽出 –i 入力フォルダー/ –o 出力フォルダー/

これを行う理由は、私たちの主な焦点は顔の置き換えであるため、顔の特徴を取得するだけでよく、他の環境要因は顔の置き換えにほとんど影響を与えないからです。

顔の取得プロセスが完了すると、すべての顔画像を取得できます。ここでは、不適切なサンプル (下図の 49_1.jpg など) を手動で選別して削除することができます。

顔検出アルゴリズムHOG

ここで、顔の特徴抽出アルゴリズム HOG (Histogram of Oriented Gradient) について簡単に説明します。

厳密に言えば、HOG は実際には特徴であり、コンピュータービジョンと画像処理におけるオブジェクト検出に使用される特徴記述要素です。 HOG 特徴と SVM 分類器を組み合わせたものは、画像認識で広く使用されています。

顔検出の簡単なプロセスは次のとおりです。

① まず、プロセスを簡素化するために、画像を白黒で表現します（顔を検出するためにカラーデータは必要ないため）。

②次に画像上の各ピクセルを1つずつスキャンします。各ピクセルについて、そのすぐ隣のピクセルを検索します。次に、この点の周りの暗闇の変化の方向を見つけます。

例えば、下の図に示すように、この点の周囲の明るい方向から暗い方向への方向は左下隅から右上隅に向かうため、そのグラデーションの方向は次の矢印で示されるようになります。

③前のステップが完了すると、画像内のすべてのピクセルを対応するグラデーションで表現できるようになります。これらの矢印は、画像全体の明るい部分から暗い部分への傾向を示しています。

これらのピクセルを直接分析すると（つまり、色ごとに分析すると）、非常に明るいポイントと非常に暗いポイントの値（RGB値）は間違いなく大きく異なります。

ただし、明るさの変化の方向のみに関心があるため、カラー画像と白黒画像から得られる最終結果は同じになり、問題解決のプロセスが大幅に簡素化されます。

④ しかし、これらすべてのグラデーションを保存するとメモリを大量に消費するため、画像全体を複数の小さな正方形に分割し、その中にいくつの異なるグラデーションがあるかを計算します。

次に、最も同一の勾配を持つ方向を使用して、この小さな正方形の勾配方向を表します。これにより、元の画像が非常に単純な表現に変換され、顔の基本的な構造がより単純な方法でキャプチャされます。

⑤画像のHOG特徴量を計算した後、この機能を使用して、多数の画像をトレーニングして得られたHOG特徴量を比較することができます。類似度が一定の閾値を超えると、顔が検出されたとみなされます。

トレーニングを始める

2 つの顔の顔情報を抽出した後、次のコマンドを直接使用してモデルのトレーニングを開始します。

 ./faceswap.py トレイン -A faceA_folder/ -B faceB_folder -m models/

ここで、-m はモデルが保存されるフォルダーを指定します。プレビューモードを有効にするには、コマンドに -p パラメータを追加することもできます。

トレーニングプロセス中は、いつでも Enter キーを押してトレーニングを停止することができ、モデルはターゲットフォルダーに保存されます。

トレーニングに使用されるディープラーニングフレームワークは Tensorflow であり、チェックポイントを保存するメカニズムを提供します (もちろん、コードで使用する必要があります)。

トレーニングを停止した後は、上記のコマンドを使用して、以前のトレーニングで取得した重みパラメータをいつでも読み取り、トレーニングを続行できます。

顔を変換する

モデルをトレーニングした後（損失値が低い）、次のコマンドを使用してターゲットイメージ上の顔を交換できます。

 ./faceswap.py –i 入力画像フォルダ/ -o 出力画像フォルダ/ -m モデル/

ここでの例はビデオなので、まず次のコマンドを使用して、ビデオを固定周波数で画像に変換できます。

 ffmpeg –i video.mp4出力/video-frame-%d.png

次に、顔変換操作を実行します。最後に、変換された顔画像を組み合わせてビデオを作成します。

 ffmpeg –i video-frame-%0d.png -c:v libx264 -vf “fps=25, format=yuv420p”出力.mp4

以下は、顔を入れ替えた 2 つの画像です (サンプル A、画像 110 枚、サンプル B、画像 70 枚、トレーニング時間 6 時間)。

うーん...効果はあまり良くありません...サンプルサイズを増やしてトレーニング時間を延長することをお勧めします。

顔を変換するプロセス

顔を変換するプロセスについて簡単に説明しましょう。ここでは AutoEncoder (畳み込みニューラルネットワーク) が使用され、入力画像に基づいて画像を再構築します (つまり、画像に基づいて画像を生成します)。

ここで AutoEncoder モデルが行うことは、まず Encoder を使用して画像を処理し (畳み込みニューラルネットワークが特徴を抽出)、画像を圧縮して表現することです。その後、デコーダーは画像を復元します。

特にディープフェイクでは、1 つのエンコーダーと 2 つのデコーダーを使用します。トレーニング部分では、実際に 2 つのニューラルネットワークをトレーニングします。両方のニューラルネットワークは同じエンコーダを共有しますが、デコーダは異なります。

まず、エンコーダーは画像を顔の特徴に変換します (畳み込みニューラルネットワークを通じて顔の詳細を抽出します)。デコーダーは、この顔の特徴データを使用して画像を復元します。

ここで、この変換の品質を判断するための誤差関数（損失関数）があります。モデルのトレーニングのプロセスは、この損失関数（値）を最小化するプロセスです。

最初のネットワークは画像 A のみでトレーニングされ、2 番目のネットワークは画像 B のみでトレーニングされます。エンコーダーは、画像を顔の特徴値に変換する方法を学習します。

デコーダー A は、顔の特徴値を通じて画像 A を再構築する方法を学習するために使用され、デコーダー B は、顔の特徴値を通じて画像 B を再構築する方法を学習するために使用されます。

したがって、トレーニング中は、両方の画像を同じエンコーダーに送信しますが、画像を復元するために 2 つの異なるデコーダーを使用します。

このようにして、最終的に画像 B から取得した顔を使用し、Encoder を使用して特徴を抽出し、A の Decoder を使用して復元すると、A の顔と B の表情が得られます。

<<: データから洞察まで、IBMは企業の人工知能への取り組みを加速します

>>: エンタープライズ AI の 4 つのトレンド: 現在地と今後の方向性

「ZAO」かっこいいですね！ディープフェイクを使って顔を変える方法

学ぶ価値のある Github 上の 7 つの AI プロジェクト

ロボットは「常識」を知っており、物事をはるかに速く見つけることができます。CMU は新しいセマンティックナビゲーションロボットを開発しました。

機械学習に関する9つの誤解

AI 生成コードを使ってみませんか?人気のコパイロットの「リスク評価」を実施した人がいた

ゼロコード機械学習の秘密

130 億個のパラメータを持つモデルをトレーニングするには GPU がいくつ必要ですか?マイクロソフト: 1つで十分

CVPR'24の結果が発表され、中国の博士課程学生による3つの論文がベルサイユ賞を受賞しました！当局はネットユーザーを怒らせるためにミームを投稿した

AIと機械学習が建設業界にもたらす変化

Python 開発者ガイド: 機械学習に役立つ 10 の実践方法!

推薦する

Megvii Technology: 人工知能が携帯電話の「視覚」革命をリード

Reddit で強く推奨: 20 時間の体系的なディープラーニングと強化学習コース | 無料

人工知能の仮想火災は死体の山を残した

ロボットの開発について冷静に考える：ロボットは本当にあなたの仕事を奪うのでしょうか？倫理的価値観の再構築のきっかけとなるか?

人工知能が台頭しています。インテリジェントセキュリティの開発はどのように進んでいますか?

追跡！フレーム！明らかにする！秘密！ついにボストンダイナミクスのロボットの詳細が明らかになった

再帰アルゴリズムの時間計算量について十分に理解していない

公安部経済調査局長：経済犯罪を研究するにはビッグデータアルゴリズムを使う必要がある

マスク氏の最新インタビュー：自動運転、AI、テスラのヒューマノイドロボットについて

蘇寧における知識抽出分野におけるディープラーニングの試みと実践