偽造AIがまた進化しました!たった一枚の写真で、スピーチと歌のビデオが自動的に生成されます

偽造AIがまた進化しました!たった一枚の写真で、スピーチと歌のビデオが自動的に生成されます

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

数え切れないほどの「ショートビデオ」を作成し、多くの有名人になりすましてきた有名な顔変更ツールであるディープフェイクが、今度は次元削減攻撃を受けた。

この新しい AI は、ビデオを改ざんするのではなく、静止写真を直接ビデオに変換します。

シュワルツェネッガーの写真はこんな感じです。

話し始めました:

ラッパーの2パック・シャクール:

口を開けることができます:

顔の静止写真があれば、それが誰であっても、この新しい AI によって、どんな声でも追加して発音することができます。

もちろん、話すだけでなく、100年以上前に生きていた「ロシアの邪悪な僧侶」ラスプーチンにビヨンセのHaloを歌わせるなど、歌うことも問題ありません。

声と性別は完全に一致していないが、絵と歌の組み合わせはなんとも言えない不気味さを感じさせる。

この AI は写真に合わせてリップシンクするだけではありません。話している人に喜び、怒り、悲しみ、幸せなどさまざまな感情を抱かせることもできます。

ハッピー:

悲しい:

揚げ髪:

これらの眉毛、これらの視線、これらの顔の筋肉は、顔面麻痺に苦しむ多くの俳優を救うでしょう!

この研究は、インペリアル・カレッジ・ロンドンとサムスンによるものです。研究者らは、本物と偽物の区別が難しい 24 本のビデオで構成されるチューリング テストも用意しました。簡単なテストを受けたところ、正しく推測できたのは半分程度だけでした。

言い換えれば、AI が生成した「本物と偽物の孫悟空」は、人間を騙すには十分だということです。

任意のテキストを入力して動画の登場人物の唇の形を変えるスタンフォード大学のこれまでの研究や、サムスンの話し顔を変える研究と比較すると、実装の難易度ははるかに高いと言える。

多くのネットユーザーが衝撃を受けた。

今はラスプーチンがヘイローを歌っていますが、将来メキシコでトランプ風の選挙運動が行われるのでしょうか?怖いですね。

テクノロジーメディアのThe Vergeも次のようにコメントしています。

こうした研究は、噂や政治宣伝に利用されるのではないかと常に人々を心配させており、これはアメリカの議員にとって本当に頭痛の種となっている。もちろん、政治分野における脅威はそれほど深刻ではないと主張することもできますが、ディープフェイクは確かに一部の人々、特に女性を傷つけています。彼女たちの同意なしに恥ずかしく屈辱的なポルノビデオを作成するためにディープフェイクが利用されたのです。

また、この技術が普及すれば、悪いことをする人たちに隠蔽する口実を与えることになると考える人もいる。

この技術が成熟し、トランプが実際に何か悪いことをしている短いビデオが出てきたら、トランプはそれを偽のビデオだと簡単に言うことができるだろう。

ハハ、それは素晴らしいですね。将来、悪者が捕まったら、「それは真実じゃない、偽のビデオだ」と言えるでしょう。

マルチディスクリミネータ構造

1 枚の写真から一貫性のあるビデオを作成するにはどうすればよいでしょうか?研究者たちは、これには時間的生成敵対ネットワーク (Temporal GAN) の助けが必要だと考えています。

論理的に考えると、生成された偽のビデオをリアルにするには、画面上で少なくとも次の2 つの要素が満たされる必要があることは理解しにくいことではありません。

まず、顔画像は高品質である必要があり、次に、会話の内容と一致し、唇や眉毛などの顔の特徴の位置を調整する必要があります。複雑な顔キャプチャ技術を使用する必要はありません。今では、機械学習の手法のみを使用して人間の顔を自動的に合成できます。

その秘密は、2018 年に提案された Temporal GAN (時間的生成敵対ネットワーク) にあります。

これは、静止画像と音声から顔のビデオを生成する、エンドツーエンドの音声駆動型顔アニメーション合成モデルです。

Temporal GAN には 2 つの識別子があります。1 つはフレーム識別子で、生成された画像が鮮明で詳細であることを保証します。もう 1 つはシーケンス識別子で、聞こえた音に反応して対応する顔の動きを生成しますが、効果はそれほど良くありません。

Temporal GANモデルの模式図

時間的 GAN を使用したエンドツーエンドの音声駆動型顔アニメーション

https://arxiv.org/abs/1805.09313

本研究では、研究者らはこの時間的生成敵対ネットワークを借用し、2つの時間的識別器を使用して生成されたビデオに対してオーディオとビジュアルの対応を実行し、リアルな顔の動きを生成しました。

同時に、モデルはまばたきなどの新たな表情を自発的に生成するように促されます。

ということで、音声ベースの顔合成モデルの最新バージョンがここにあります。このモデルは時間ジェネレータ3 つの識別子で構成されており、構造は次のとおりです。

これはよく組織化された分業構造です。ジェネレーターは、単一の画像とオーディオ信号を入力として受け取り、それを 0.2 秒の重複フレームに分割する役割を担います。各オーディオ フレームは、ビデオ フレームの中央に配置する必要があります。

このジェネレーターは、コンテンツ エンコーダー、アイデンティティ エンコーダー、フレーム デコーダー、およびノイズ ジェネレーターで構成されています。さまざまなモジュールが埋め込み可能なモジュールに結合され、デコード ネットワークを通じてフレームに変換されます。

このシステムは、それぞれ独自の役割を持つ複数の識別子を使用して、自然なビデオのさまざまな側面をキャプチャします。

フレーム ディスクリミネーターは、フレームが本物か偽物かを判断し、話者の顔の高品質なビデオ再構築を実現する 6 層の畳み込みニューラル ネットワークです。

シーケンス ディスクリミネータは、フレームが自然な動きを示す一貫したビデオを形成することを保証します。

同期ディスクリミネータは、オーディオとビジュアルの同期の要件を強制し、画像とオーディオを同期する方法を決定します。 2 つのエンコーダを使用してオーディオとビデオの埋め込み情報を取得し、ユークリッド距離に基づいて判断を行います。

同期識別子の構造は次のとおりです。

それだけです。高価な顔キャプチャ技術は必要ありません。必要なのは、写真とオーディオ クリップを組み合わせてスムーズで一貫性のあるビデオを作成するこのようなネットワークだけです。

30以上のCVPR論文の著者

この研究には、インペリアル・カレッジ・ロンドンのiBUGグループに所属し、知的行動の理解に焦点を当てた Konstantinos Vougioukas、Stavros Petridis、Maja Pantic の 3 人の著者がいます。2 人目と 3 人目の著者も、英国の Samsung AI センターの従業員です。

筆頭著者のコンスタンティノス・ヴーギオカスは、2011年にパトラス大学で電気工学とコンピュータ工学の学士号を取得した後、エディンバラ大学に進学し、人工知能の修士号を取得しました。

[[268730]]

現在、Konstantinos Vougioukas は、インペリアル・カレッジ・ロンドンの Maja Pantic 教授 (本記事の 3 番目の著者) の指導の下で博士号取得を目指しており、主な研究分野は人間の行動の合成と顔の行動の合成です。

マヤ・パンティッチ教授は、iBUG チームの責任者であり、ケンブリッジのサムスン AI センターの研究ディレクターです。彼女は、表情分析、人間の姿勢分析、感情および社会的シグナル分析に関する250 本以上の論文を発表しており、引用数は 25,000 回を超えています。

[[268731]]

2005 年以来、Maja Pantic は学生を指導して 30 件を超える CVPR (ワークショップを含む) 論文を発表してきました。

マヤ・パンティッチ教授のホームページ:

https://ibug.doc.ic.ac.uk/people/mpantic

ポータル

GAN によるリアルな音声駆動型顔アニメーション

https://arxiv.org/abs/1906.06337

プロジェクトのホームページ:

https://sites.google.com/view/facial-animation

GitHub:

https://github.com/DinoMan/speech-driven-animation

<<:  優れたオープンソースの音声認識/音声テキスト変換システム 5 つ

>>:  AIアプリケーションの実践と業界のエンパワーメントに焦点を当てたWOT2019グローバル人工知能カンファレンスが成功裏に終了しました。

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

4Paradigm が分子特性予測のための生成型 3D 事前トレーニング済みモデルを開発

論文タイトル: 分子特性予測のための自動 3D 事前トレーニング論文リンク: https://arx...

データ構造とアルゴリズムの比較 バックスペースを含む文字列!

[[441739]]バックスペースで文字列を比較するLeetCode の問題へのリンク: http...

顔認識カメラはあなたの顔を盗みますが、なぜ「精密マーケティング」に使われるのでしょうか?

今年3月15日にCCTVで暴露された事件は、オフラインのショッピング施設に入ったことのある人全員に衝...

将来、AIは人類を脅かすと思いますか?人工知能の未来はどうなるのでしょうか?

AIは現在どのように発展しているのでしょうか?テクノロジーの発展があまりにも速く、人工知能があらゆ...

自己一貫性を利用して大規模モデルの推論能力を向上させたGoogleは、ベンチマークの数学問題の75%を解決しました。これはGPT-3よりも20%高い数値です。

言語モデルはさまざまな NLP タスクで目覚ましい成功を収めていますが、その推論能力は不十分な場合が...

TSMC、7nmチップの商業生産を開始

TSMCのCEOである魏哲佳氏は、TSMCの7nm生産能力の増加が予想よりも遅いという最近の憶測を否...

DxRアルゴリズムのアイデアに基づいて設計されたルーティングアイテム配置構造の図

まず、タイトルには、検索構造ではなく、ルーティング項目の配置構造と書かれています。つまり、この構造を...

...

追跡!フレーム!明らかにする!秘密!ついにボストンダイナミクスのロボットの詳細が明らかになった

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

企業が生産性向上のためにAIを活用しようとする中、最高AI責任者の必要性が高まっている。

Foundry の 2023 年 AI 優先事項調査では、組織内で AI および AIGC テクノ...

...

AIファイナンスブームの背後にはアリババとスタートアップ企業独自の狙いがある

中国の人工知能分野の二大大手であるMegvii TechnologyとSenseTime Techn...

Python とディープニューラルネットワークを使用して画像を認識する方法は?

[[219378]]見れば分かります。わずか 12 行の Python コードで、独自のマシン ビ...

エッジAIデバイスの選び方

エッジ コンピューティングは、最も話題になっているテクノロジ トレンドの 1 つになりました。こうし...

機械学習によるよりスマートなユーティリティ管理

エネルギー、ガス、水道、廃棄物管理などの公共事業では、すでにインフラストラクチャを最適化し、需要と供...