AIは、群衆の中でディープフェイクされたのはあなただけだと認識します

AIは、群衆の中でディープフェイクされたのはあなただけだと認識します

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

ディープフェイクの出現以来、私はもはや「百聞は一見に如かず」という考えを信じる勇気はありません。

もし誰かがアテナ・チューの顔をヤン・ミーに、あるいはアクアマンの顔をシュー・ジンジャンに置き換えたとしても、誰もがただ笑い飛ばすだろう。

[[338919]]

△画像出典:Weiboユーザー@慢三与偏偏

しかし、もし著名人がディープフェイクによって、すべきでない発言や行動をさせられたら、考えただけでも恐ろしいことだ。

世界が破滅するのを防ぎ、世界平和を維持するために、(犬の頭)今、アリババセキュリティチューリングラボもディープフェイクを「包囲して抑制する」列に加わりました。

私たちは、顔が置き換えられている限り、複数の人物が映っているライブ動画を正確に識別できるディープフェイク検出アルゴリズムS-MILを開発しました。

複数インスタンス学習に基づくディープフェイク検出方法

悪魔は1フィートの高さですが、道は10フィートの高さです。ディープフェイクとディープフェイク検出技術の戦いは、実はかなり以前から始まっていました。

ただし、既存のディープフェイク検出方法は、主にフレームレベルの検出とビデオレベルの検出の 2 つのカテゴリに分けられます。

フレームレベル ベースの方法では、コストの高いフレームレベルの注釈付けが必要です。ビデオレベルのタスクに変換する場合は、フレームレベルの予測をビデオレベルの予測に適切に変換するための巧妙な融合方法を設計する必要もあります。単純な平均値や最大値では、検出漏れや誤検出につながる可能性が高くなります。

しかし、LSTM などのビデオレベルの検出方法は、ディープフェイク ビデオを検出する際に時系列モデリングに重点を置きすぎるため、ディープフェイク ビデオの検出効果に一定の制限が生じます。

△ディープフェイク攻撃の一部、4人のうち1人だけが顔を入れ替えられた

これらの問題を解決するために、アリババセキュリティチューリングラボの研究者は、ビデオレベルの注釈のみでディープフェイク作品を検出できる、マルチインスタンス学習に基づくSharp-MIL(S-MIL)手法を提案しました。

基本的な考え方は、ビデオ内で顔が改ざんされている限り、そのビデオはディープフェイクビデオとして定義されるというものです。これはマルチインスタンス学習の考え方と一致しています。

複数インスタンス学習では、バッグは複数のインスタンスから構成されます。インスタンスの 1 つが正であればバッグは正であり、そうでなければ負です。

S-MIL は、マルチインスタンス学習で顔と入力ビデオをそれぞれインスタンスとバッグとして検出します。

さらに、出力層から特徴層に複数のインスタンスの集約を進めることで、集約の柔軟性が高まり、一方では、偽造検出の目的関数を使用してインスタンスレベルの深層表現の学習を直接誘導することで、従来のマルチインスタンス学習が直面する勾配消失問題が軽減されます。

具体的には、アルゴリズムは 3 つの主要な部分で構成されています。

まず、入力ビデオ内のサンプリングされたフレームに対して顔検出を実行し、抽出された顔を CNN に送り、インスタンスとして特徴を取得します。

インスタンス設計に関しては、従来のマルチインスタンス学習の設定と同様に、インスタンスは互いに独立しています。

しかし、ディープフェイクは単一フレームの改ざんであるため、同じ顔でも隣接するフレームでは次のようなジッターが発生します。

この目的のために、研究者らは、ディープフェイクの検出を支援するために、フレーム間の一貫性を特徴付ける時空間インスタンスを設計しました。

具体的には、テキスト分類で一般的に使用される 1 次元畳み込みとさまざまなサイズのカーネルを使用して、入力された顔シーケンスを複数の視点からエンコードし、最終的な検出のための時空間インスタンスを取得します。

言い換えれば、2 番目のステップは、エンコードされた時空間インスタンスを抽出して、異なる時間カーネル サイズの時空間パケットを形成することです。これらのパケットは一緒に使用され、ビデオを表します。

最後に、これらのパッケージに対して S-MIL を実行し、すべてのパッケージのフェイクスコアを計算します。このようにして、ビデオ全体の最終的なフェイクスコアを取得し、ビデオがディープフェイクであるかどうかを判断できます。

S-MIL は次のように定義されます。

このうち、piとp(i)^(j)はそれぞれi番目のパッケージとパッケージ内のj番目のインスタンスの正のクラス確率、Mはパッケージ内のインスタンスの数、wはネットワークパラメータ、h(i)^(j)はパッケージi内のインスタンスjに対応する特徴です。

既存のフレームラベル付きデータセットでは、同じビデオ内に本物の顔と偽物の顔が混在するサンプルが少ないため、研究者らは部分的な攻撃データセットFFPMSも構築しました。

FFPMS には、4 種類のフェイク ビデオ (DF、F2F、FS、NT) とオリジナル ビデオを含む合計 14,000 フレームが含まれており、フレーム レベルのラベルとビデオ レベルのラベルの両方が付けられています。

検出効果がSOTAに達する

研究者らは、DFDC、Celeb、FFPMS データセットで S-MIL を評価しました。

実験結果によると、偽の顔の重みは比較的高いことが示されており、これは、ビデオレベルのラベルのみが必要な場合にこの方法が偽の顔をうまく見つけることができ、ある程度の説明可能性を持っていることを意味します。

さらに、この方法はビデオ検出において最先端の結果を達成できます。

<<:  アルコールで動く88mgのマイクロロボットは2時間連続稼働可能

>>:  Microsoft Flight SimulatorはAIを使って15億の建物を復元、宮殿がオフィスビルに変わる際にバグが発生

ブログ    
ブログ    
ブログ    

推薦する

機械学習を使用して、GPU と TPU で高速化できる O(N) 複雑度のソート アルゴリズムを構築します。

[[238409]]ソートは、コンピュータ サイエンスにおいて常に最も基本的なアルゴリズムの 1 ...

人工知能のための 6 つの無料オープンソース ツール! 3 分で機械学習を始めましょう!

オープンソースでは、自分のアイデアがいかに独創的であったとしても、他の誰かがすでにそのコンセプトを実...

ディープラーニングベースの検出および認識アルゴリズムをSAR画像のインテリジェントな解釈に適用する

近年、AlphaGo が囲碁で人間のプレイヤーを圧倒したことで、人工知能技術は一般に知られるようにな...

新しいアルゴリズムと産業チェーン市場が立ち上げられ、ArcSoft Open Platformは「技術の開放+産業のエコロジー」の新たな段階を切り開きます。

現在、業界のビジュアル AI に対する焦点は最先端技術から産業エコロジーへと移行しており、これはビ...

ワシントンポスト紙の李開復氏のコラム:お金を与えることでAI失業危機は解決するのか?シリコンバレーの大物は世間知らずすぎる

AI革命が到来し、それは最良の時代になるかもしれないし、最悪の時代になるかもしれない。それが良いこと...

今後5年間の人工知能における5つのブレークスルー

会話ができるスマートスピーカーであれ、自分で絵を描くことができるバーチャルアーティストであれ、農家が...

人工知能はモバイルインターネットデバイスを変えようとしている

安価な高速インターネット、安全なクラウド ストレージ、モバイル ソリューション、低コストのデバイスの...

...

機械学習はサイバーセキュリティをどのように向上させることができるのでしょうか?

今日では、機械学習に大きく依存せずに強力なサイバーセキュリティ ソリューションを展開することは不可能...

ガートナー: 高等教育における人工知能

人工知能 (AI) は高等教育に大きな進歩を遂げており、何らかの形で AI を導入した教育機関は、学...

アルトマンがOpenAIに復帰、イリヤはどこへ行くのか、内部抗争の理由は信じられない

OpenAI シリーズは終わりに近づいていますが、イースターエッグがあるとは思っていませんでした。ま...

2020年職場のAIスキルランキング:TensorFlowが人気上昇、Pythonが最も人気、マーケティング部門も学習中

2020年まで残り1ヶ月となりました。最近、オンライン教育ウェブサイトのUdemyは、受講生のコース...

...

AIはプログラマーの仕事を破壊する最初のものとなるでしょうか?プログラマーの90%は就職が難しくなっていると考えており、大学生もキャリアプランの調整が必要

一夜にしてプログラマーは仕事を見つけられなくなるようですね?海外メディアのマザーボードとブラインドが...

人間の審判が解雇される?冬季オリンピックのテストマッチで選手の得点をつけた人物はAIだった

2021年の欧州選手権でイングランドはデンマークを破り、初めて欧州選手権決勝に進出した。歴史に名を残...