この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 数え切れないほどの「ショートビデオ」を作成し、多くの有名人になりすましてきた有名な顔変更ツールであるディープフェイクが、今度は次元削減攻撃を受けた。 この新しい AI は、ビデオを改ざんするのではなく、静止写真を直接ビデオに変換します。 シュワルツェネッガーの写真はこんな感じです。 話し始めました: ラッパーの2パック・シャクール: 口を開けることができます: 顔の静止写真があれば、それが誰であっても、この新しい AI によって、どんな声でも追加して発音することができます。 もちろん、話すだけでなく、100年以上前に生きていた「ロシアの邪悪な僧侶」ラスプーチンにビヨンセのHaloを歌わせるなど、歌うことも問題ありません。 声と性別は完全に一致していないが、絵と歌の組み合わせはなんとも言えない不気味さを感じさせる。 この AI は写真に合わせてリップシンクするだけではありません。話している人に喜び、怒り、悲しみ、幸せなどさまざまな感情を抱かせることもできます。 ハッピー: 悲しい: 揚げ髪: これらの眉毛、これらの視線、これらの顔の筋肉は、顔面麻痺に苦しむ多くの俳優を救うでしょう! この研究は、インペリアル・カレッジ・ロンドンとサムスンによるものです。研究者らは、本物と偽物の区別が難しい 24 本のビデオで構成されるチューリング テストも用意しました。簡単なテストを受けたところ、正しく推測できたのは半分程度だけでした。 言い換えれば、AI が生成した「本物と偽物の孫悟空」は、人間を騙すには十分だということです。 任意のテキストを入力して動画の登場人物の唇の形を変えるスタンフォード大学のこれまでの研究や、サムスンの話し顔を変える研究と比較すると、実装の難易度ははるかに高いと言える。 多くのネットユーザーが衝撃を受けた。
テクノロジーメディアのThe Vergeも次のようにコメントしています。
また、この技術が普及すれば、悪いことをする人たちに隠蔽する口実を与えることになると考える人もいる。
マルチディスクリミネータ構造 1 枚の写真から一貫性のあるビデオを作成するにはどうすればよいでしょうか?研究者たちは、これには時間的生成敵対ネットワーク (Temporal GAN) の助けが必要だと考えています。 論理的に考えると、生成された偽のビデオをリアルにするには、画面上で少なくとも次の2 つの要素が満たされる必要があることは理解しにくいことではありません。 まず、顔画像は高品質である必要があり、次に、会話の内容と一致し、唇や眉毛などの顔の特徴の位置を調整する必要があります。複雑な顔キャプチャ技術を使用する必要はありません。今では、機械学習の手法のみを使用して人間の顔を自動的に合成できます。 その秘密は、2018 年に提案された Temporal GAN (時間的生成敵対ネットワーク) にあります。 これは、静止画像と音声から顔のビデオを生成する、エンドツーエンドの音声駆動型顔アニメーション合成モデルです。 Temporal GAN には 2 つの識別子があります。1 つはフレーム識別子で、生成された画像が鮮明で詳細であることを保証します。もう 1 つはシーケンス識別子で、聞こえた音に反応して対応する顔の動きを生成しますが、効果はそれほど良くありません。 △ Temporal GANモデルの模式図 時間的 GAN を使用したエンドツーエンドの音声駆動型顔アニメーション https://arxiv.org/abs/1805.09313 本研究では、研究者らはこの時間的生成敵対ネットワークを借用し、2つの時間的識別器を使用して生成されたビデオに対してオーディオとビジュアルの対応を実行し、リアルな顔の動きを生成しました。 同時に、モデルはまばたきなどの新たな表情を自発的に生成するように促されます。 ということで、音声ベースの顔合成モデルの最新バージョンがここにあります。このモデルは時間ジェネレータと3 つの識別子で構成されており、構造は次のとおりです。 これはよく組織化された分業構造です。ジェネレーターは、単一の画像とオーディオ信号を入力として受け取り、それを 0.2 秒の重複フレームに分割する役割を担います。各オーディオ フレームは、ビデオ フレームの中央に配置する必要があります。 このジェネレーターは、コンテンツ エンコーダー、アイデンティティ エンコーダー、フレーム デコーダー、およびノイズ ジェネレーターで構成されています。さまざまなモジュールが埋め込み可能なモジュールに結合され、デコード ネットワークを通じてフレームに変換されます。 このシステムは、それぞれ独自の役割を持つ複数の識別子を使用して、自然なビデオのさまざまな側面をキャプチャします。 フレーム ディスクリミネーターは、フレームが本物か偽物かを判断し、話者の顔の高品質なビデオ再構築を実現する 6 層の畳み込みニューラル ネットワークです。 シーケンス ディスクリミネータは、フレームが自然な動きを示す一貫したビデオを形成することを保証します。 同期ディスクリミネータは、オーディオとビジュアルの同期の要件を強制し、画像とオーディオを同期する方法を決定します。 2 つのエンコーダを使用してオーディオとビデオの埋め込み情報を取得し、ユークリッド距離に基づいて判断を行います。 同期識別子の構造は次のとおりです。 それだけです。高価な顔キャプチャ技術は必要ありません。必要なのは、写真とオーディオ クリップを組み合わせてスムーズで一貫性のあるビデオを作成するこのようなネットワークだけです。 30以上のCVPR論文の著者 この研究には、インペリアル・カレッジ・ロンドンのiBUGグループに所属し、知的行動の理解に焦点を当てた Konstantinos Vougioukas、Stavros Petridis、Maja Pantic の 3 人の著者がいます。2 人目と 3 人目の著者も、英国の Samsung AI センターの従業員です。 筆頭著者のコンスタンティノス・ヴーギオカスは、2011年にパトラス大学で電気工学とコンピュータ工学の学士号を取得した後、エディンバラ大学に進学し、人工知能の修士号を取得しました。 現在、Konstantinos Vougioukas は、インペリアル・カレッジ・ロンドンの Maja Pantic 教授 (本記事の 3 番目の著者) の指導の下で博士号取得を目指しており、主な研究分野は人間の行動の合成と顔の行動の合成です。 マヤ・パンティッチ教授は、iBUG チームの責任者であり、ケンブリッジのサムスン AI センターの研究ディレクターです。彼女は、表情分析、人間の姿勢分析、感情および社会的シグナル分析に関する250 本以上の論文を発表しており、引用数は 25,000 回を超えています。 2005 年以来、Maja Pantic は学生を指導して 30 件を超える CVPR (ワークショップを含む) 論文を発表してきました。 マヤ・パンティッチ教授のホームページ: https://ibug.doc.ic.ac.uk/people/mpantic ポータル GAN によるリアルな音声駆動型顔アニメーション https://arxiv.org/abs/1906.06337 プロジェクトのホームページ: https://sites.google.com/view/facial-animation GitHub: https://github.com/DinoMan/speech-driven-animation |
<<: 優れたオープンソースの音声認識/音声テキスト変換システム 5 つ
>>: AIアプリケーションの実践と業界のエンパワーメントに焦点を当てたWOT2019グローバル人工知能カンファレンスが成功裏に終了しました。
サイバーセキュリティは AI と ML の進歩の恩恵を受けています。今日のセキュリティ チームは、疑...
この高さ3メートルの巨大ロボットは、ボストン・ダイナミクスのロボット犬より20年以上も前の1980年...
[[345484]]誰もが Google 翻訳をよく知っているはずですが、ほぼすべての既知の言語を私...
[51CTO.comより] 業務を再開する企業が相次ぐ中、新型コロナウイルス肺炎の流行は「輸入症例...
正月休みが終わり、心身ともに仕事に復帰できましたか?新年を迎え、私のように、お金を稼ぐために働きたい...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
TL;DR — 優れた機械学習アプリケーションを構築することは、ミシュランの星を獲得した料理を作るよ...
なぜ組織は機械学習のガバナンスに苦労するのでしょうか? 組織の機械学習ガバナンスに取り組もうとすると...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
2050年には人類は「不死」になる!このトピックを見て驚きましたか?驚きましたか?不死は、すべての...
AI は学習を望まない人々に取って代わるのでしょうか? 日常的に AI が使われる時代では、AI ...
[51CTO.com からのオリジナル記事] 運用保守作業は、初期の手動運用保守から自動化運用保守、...