言葉はもっと欺瞞的だ！ MITの最新研究：DeepFakeによる顔の加工はペンを使った編集ほど良くない

DeepFake は発売以来、潜在的な「悪質な AI」としてリストアップされてきました。

有名な「ガドットの頭部を変えるポルノ」にしろ、ディープフェイクを使って声を変えるさまざまな銀行振り込み詐欺にしろ、ディープフェイクに関するニュースはネガティブな背景から逃れられないようだ。

しかし、MIT の最新の研究によると、偽のテキスト情報の破壊力は偽の画像やビデオよりもはるかに大きいことが示されています。

これは、同じ内容がテキスト形式ではなくビデオで提示された場合、人々は偽の情報に騙されやすくなるとこれまで信じられていたコミュニケーション分野の古い見解とは対照的です。

ディープフェイクはまだ初期段階

超現実的な視覚効果技術の最近の進歩により、政治演説のディープフェイク動画が近いうちに本物と視覚的に区別がつかなくなるのではないかという懸念が高まっている。

しかし、視聴覚情報が人々のフェイクニュースに対する感受性にどのような影響を与えるかについての実証的な研究はほとんど行われていない。

最近、MITメディアラボの科学者たちは、5,727人に対して、実際の政治演説クリップ16本と、DeepFakeによって加工・改ざんされたスピーチクリップ16本を見せた。

サウンドクリップは、字幕付きのビデオなど、テキスト、ビデオ、オーディオの配置として表示されます。

論文リンク: https://arxiv.org/pdf/2202.12883.pdf

被験者にはコンテンツの半分が偽物であると伝えられ、どのクリップが偽物だと思うか尋ねられました。

テキストのみを見せられた場合、回答者は嘘を見分ける能力がランダムに推測するよりもわずかに優れていました (57% の精度)。

回答者は、キャプション付きのビデオを見せられた場合、推測の精度が向上し（66%）、ビデオと音声の両方を見せられた場合、さらに正確に推測できました（82%）。

つまり、被験者は、トランスクリプトを読むときよりも、ビデオを見たり音声を聞いたりしたときの方が、イベントが実際に発生したかどうかをより正確に識別することができました。

この調査結果はまた、平均的な人がディープフェイク同期によって生じた視覚的な歪みを識別できる場合もあるが、常に識別できるわけではないことを示唆している。

論文の著者らによると、被験者の判断の根拠は、内容そのものよりもむしろ内容の表現方法に大きく左右されるという。

被験者の音声付き動画の判断率は音声なし動画よりも正確で、音声なし動画の判断率は音声なし動画よりも正確でした。これは、動画、音声、テキストという3つの媒体のうち、音声と動画にはコンテンツそのものに加え、話者のさまざまな小さな表情、動き、声のパターンなどの微妙な違いも含まれているからです。

観察者がこれらの微妙な違いを観察できない場合、実際の音声と書かれたテキストに基づいて AI が生成した音声を判別する精度は、コイントスと同じくらいしか得られません。

「政治演説の偽造ビデオは偽造記録よりも見破りやすいという発見は、『百聞は一見に如かず』という忘れられがちな格言を再び活気づける必要があることを強調している」と著者らは述べた。

しかし、この研究には明らかな限界がある。研究者が生成したディープフェイク素材は超リアルではないのだ。

研究者らは次のように警告している。「本当に危険な偽動画は、通常のアルゴリズムによってランダムに生成されたディープフェイク動画ではなく、慎重に処理され、極めて説得力のある単一の動画である可能性がある。」

大統領ディープフェイクデータセットの32本の動画

現在の状況では、この警告は特に重要です。東ヨーロッパの紛争で、一方が他方の大統領が降伏を宣言するディープフェイク動画を作成するのではないかと国民は長い間疑っていた。

こうした懸念は理解できますが、現在広まっているさまざまな虚偽情報では、DeepFake 技術が使用されていることはほとんどありません。

USA Today のファクトチェックチームのメンバーによると、混乱の時代には、偽造者は古い音声や動画素材を探して編集し、現在のニュースを装って投稿するそうです。このタイプの偽造は、DeepFake よりもはるかに簡単です。

たとえば、あるTikTok動画はウクライナで最近起きた爆発を映していると主張していたが、実際の情報源は1月に遡る。

この研究が明らかにしているように、ディープフェイクは公開イベントの結果に影響を与える可能性がありますが、完全な嘘や単純なカットや編集の方が、偽情報を拡散するより顕著な形態です。

もちろん、これはディープフェイクに危険がないという意味ではありません。

ただ、より原始的な欺瞞技術の方が脅威となる可能性があるだけです。

補足実験

発話や様相の条件によって正確性が大きく異なるのとは対照的に、被験者の自信のレベルはそれほど変化しませんでした。

記録では、被験者の平均信頼度は 81% でした。被験者の自信は、ビデオと音声で提示されたスピーチに対してそれぞれ 6% と 9% 増加しました。すべてのコンテンツを被験者に提供すれば、信頼度は 12% 向上します。

つまり、被験者がビデオや音声を通じてより多くの情報を受け取るにつれて、加重精度、信頼度、捏造されたスピーチの識別、実際のスピーチの識別が平均して向上しました。

しかし、研究者たちは字幕が結果に大きな影響を与えていないようだということを発見した。

被験者の反応時間の平均は 24 秒で、ビデオの平均長さより 3 秒長くなりました。無音の字幕付きビデオの平均反応時間は 31 秒で、他のすべての条件よりもわずかに長くなりました。

7 つのパラダイム条件すべてにおいて、被験者は本物のコンテンツよりも偽のコンテンツに速く反応しました。そのうち、テキスト、ビデオ、オーディオはそれぞれ 3.8 秒、2.5 秒、3.7 秒です。

さらに研究者らは、被験者が他のすべてのモダリティ条件と比較して、トランスクリプトの信憑性を識別する際に大きな偏りがあることを発見した。

下の図 (a) は、被験者のトランスクリプトの正確さが、無音の字幕付きビデオの正確さよりも低いことがほとんどであることを示しています。同様に、c は、音声付きのビデオに対する被験者の正確さが、無音の字幕付きのビデオに対する被験者の正確さよりも一貫して高かったことを示しています。対照的に、パネル b は字幕ありと字幕なしの被験者のパフォーマンスの異質性を示しています。

32のスピーチのそれぞれについて、被験者による書き起こし、無音ビデオ、音声付きビデオの判断の正確さ

全体的に、情報媒体は識別精度に影響を与えました。被験者は、音声付きのビデオを無音のビデオよりも正確に判断し、無音のビデオをテキストのトランスクリプトよりも正確に判断しました。同時に、研究者らは、被験者が判断を下す際に、内容そのものよりも、話者の言語スタイル、微妙な表情、動き、その他の視聴覚的手がかりに頼っていることを発見した。

捏造された発言とそうでない発言を評価することの難しさの非対称性は、「嘘つきの配当」を悪化させます。これは、メッセージが捏造される可能性が高いため、一般の人々がすべてのメッセージが捏造されていると疑うようになり、それによって嘘つきが本当の否定的なニュースに対する責任を回避できるようになるという考えです。

しかし、研究者たちは、演説が政治家の本来の公的なイメージと一致しない場合、参加者の視覚的な手がかりへの依存度が低下することを発見した。話し手の発言が、話し手に対する被験者の期待とどの程度一致するかを、研究者は「期待違反ヒューリスティック」と呼んでいます。

さらに研究者らは、反省的推論が被験者の視覚情報への依存度に影響を与えることを発見した。被験者の認知反省テストの低いスコアは、視覚的手がかりへの依存不足とコンテンツへの過剰依存に正の相関関係があった。

簡単に言えば、愚かで考えの少ない人ほど、政治家が話しているときの表情や動きを観察せずに、政治家の演説の内容をそのまま信じてしまう可能性が高くなります。

見分ける方法

MITの研究者らは、10万本のDeepFake動画と公開されているKaggleコンペティションの19,154本の動画からDeepFakeを検出するための一連のニューラルネットワークをトレーニングした。

研究者らは機械学習モデルのパフォーマンスに基づいて、誤分類される可能性が最も高い 3,000 本のビデオを選択しました。これらのビデオは、機械学習モデルが区別するのが難しいだけでなく、人間が本物か偽物か区別するのも困難です。

研究者たちは、ディープフェイク編集された動画を何度も視聴することで、人々の判断力が向上すると考えている。そこで前述の「Detect Fakes」というウェブサイトが開設され、何千本もの高品質なDeepFakeや本物の動画が公開された。

どれが偽物かを見分けるのに単一の手がかりに頼ることはできませんが、次の 8 つの点に注意することができます。

顔に注目してください。DeepFake はほとんどの場合、顔の改変です。
頬と額に注目してください。肌は滑らかすぎたり、しわが多すぎたりしていませんか?皮膚は髪や目と同じ速度で老化しますか?ディープフェイクは、ある意味では矛盾している傾向があります。
目と眉毛に注目してください。影は適切な場所に現れていますか?ディープフェイクは現実の物理現象を再現できないことが多い。
メガネに注意してください。ぎらつきはありませんか、それともぎらつきが強すぎませんか?動くとグレアの角度は変わりますか?再び、DeepFake は物理学の弱点を実証しています。
顔の毛に注目してください。本物のように見えますか?ディープフェイクでは、もみあげやあごひげを追加したり削除したりすることがありますが、通常は不自然に見えます。
顔のほくろに注目してください。本物のように見えますか?
まばたきに注意してください。それは正常ですか、それとも過剰ですか?
唇の大きさと色に注目してください。唇は顔の他の部分と一致していますか?

<<: 9つのディープラーニングアルゴリズムの紹介

>>: なぜ今でもMocha DHT-PHEVのような電源ソリューションが必要なのでしょうか?