この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 顔の交換がこれほど高解像度になったことはかつてありませんでした。 最も人気のあるオープンソースのディープフェイクモデルであるDeepFakeLabは、今年のアップデートでは最大解像度が320×320しかありません。 ディズニーとETHZによるこの新しいディープフェイクは、高い滑らかさという素晴らしい伝統を維持するだけでなく、解像度を一気に1024×1024に上げています。 ディープフェイクの解像度レベルがメガピクセルに達したのもこれが初めてだ。 顔面移植手術を受けた今でも、眉毛はどれもはっきりと見えます。 アニメーションの画質は若干低下していますが、鮮明さを確認するには静止画像を使用してください。 ネットユーザーが思わず「ガチョウ娘が泣いている」と叫んだのも無理はない。 特殊効果のための高解像度ディープフェイクこれまで、ディープフェイク技術の改良は、解像度の向上よりも、顔の入れ替え効果を滑らかにすることに主眼が置かれていました。 ただし、解像度が 320×320 の場合、携帯電話で表示すると顔の交換効果がスムーズで完璧に見えるかもしれませんが、大画面に切り替えると欠陥が明らかになります。 解像度を向上させるために、ディズニーの研究では主に、段階的にトレーニングされる多方向コーム ネットワークを導入し、光とコントラストを維持してビデオによく見られる非現実的なジッターを減らし、時間的に安定したビデオ シーケンスを生成するハイブリッド メソッドを含む、完全な顔交換パイプラインを提案しました。 具体的には、以下のステップに分かれます。
段階的に訓練された多方向コームネットワークネットワーク アーキテクチャの点では、ディズニーは「コーム モデル」と呼ばれる単一のエンコーダと複数のデコーダのソリューションを採用しました。 つまり、ネットワークのエンコード部分は共有され、デコード パスは P 個のドメインに分割されます。 これにより、1 つのモデルで複数のソースとターゲットのペアを同時に処理できるようになります。 さらに、実験では、多方向トレーニング モデルは双方向モデルと比較して表現の忠実度を向上できることが示されています。 多方向エンコーダーを使用すると、異なる照明条件下での異なる ID または同じ顔に対応するさまざまな出力を生成できます。 もう 1 つの利点は、双方向ネットワークと比較して、単一のネットワークを使用したトレーニング時間を大幅に短縮できることです。 ネットワークのトレーニングには漸進的なメカニズムが採用されています。 まず、高解像度の入力データをダウンサンプリングして粗い低解像度の画像を作成し、それを最初のトレーニングに使用します。その後、高解像度の画像が徐々にトレーニングに追加され、ネットワークの容量が徐々に拡大されます。 時間的アーティファクトの除去目に見える時間的アーティファクトを排除するために、研究者らはランドマークの位置特定アルゴリズムを安定化する方法も提案した。 具体的には、最初に顔が検出されて位置合わせされ、顔の境界ボックスの幅 w がマークされます。 次に、画像平面内の異なる方向に βw ピクセルを摂動させることにより、元の境界ボックスが n 回再初期化されます。 研究者らは、1024×1024 の解像度で、β = 0.05 および n = 9 の場合、目に見えるすべての時間的アーティファクトを除去できることを発見しました。 光とコントラストを保つブレンド方法ただし、顔が完全に整列し、ポーズと表情が完全に一致したとしても、不正確な照明などの問題により、顔の交換効果が不調和に見える可能性があります。 たとえば、明らかな継ぎ目が現れます。 この問題に対処するため、研究者らは光とコントラストを保存するマルチバンド混合法を採用し、境界平滑化効果が顔の内側のみに伝播して顔の外側の輪郭が平滑化されないようにしました。 一般的に使用されるポアソンブレンディング法と比較すると、この方法は、ターゲットの顔画像とソースの顔画像の照明が異なる場合にアーティファクトを除去するのに優れています。 では、この高解像度ディープフェイクの効果はどのように評価されるべきでしょうか? 直接比較してみましょう: ディープフェイクがまもなく大画面に登場しかし、研究者らは、この高解像度のディープフェイクには依然として限界があるとも指摘した。 示されている例からわかるように、ほとんどの顔画像はカメラを向いています。 誇張した表現、極端な角度、照明では、依然としてぼやけやアーティファクトが発生します。 しかし、解像度の向上により、ディープフェイクに新たな商業的可能性がもたらされます。 ディズニーはかつて、スターウォーズ映画「ローグ・ワン」で特殊効果による顔を変える技術を使用し、故人となった俳優ピーター・カッシングとキャリー・フィッシャーをスクリーンに戻したことがある。 しかし、従来の特殊効果技術を使用すると、数秒の映像を取得するのに通常数か月かかり、非常にコストがかかります。 対照的に、ディープフェイクは、元のモデルを構築した後、数時間以内に顔を入れ替えた動画の制作を完了することができます。 ディープフェイク技術が映画に登場する日もそう遠くないかもしれない。 ポータル論文の宛先: |
<<: ケーススタディ | 埋め込みに基づく特徴セキュアな計算
>>: 企業がビジネスでAIOpsをどのように活用しているか
概要2014年にWeChatが紅包機能を開始した後、多くの企業が独自の紅包機能の開発を開始しました。...
近年、人工知能 (AI) は、ディープラーニング、コンピューター ビジョン、自然言語処理などの技術革...
1分以内に、10日間の高精度な世界天気予報が提供されます。 ChatGPT に続いて、別の AI モ...
導入Weiboは多くの人が利用するソーシャルアプリケーションです。毎日Weiboを閲覧する人は、オリ...
現在、AI チップ市場全体はディープラーニングを中心に展開しています。ディープラーニング (DL) ...
C# のデータ構造とアルゴリズムで線形リストを構築するためのクラスは何ですか? C# のデータ構造と...
春節休暇の到来とともに、全国の主要都市の鉄道駅、空港、地下鉄などの公共の場所が、防疫・抑制の重点エリ...
[[275567]]週末に集中的に流行した後、顔を変えるソフトウェアZAOの人気はようやく落ち着きを...
先週の発表に続き、OpenAI は本日、GPT ストアの立ち上げを正式に発表しました。写真昨年 11...