ディープフェイクの検出が得意なのは誰でしょうか?人間か機械か？

翻訳者 |陳俊

レビュー | Chonglou

Deepfakesと呼ばれる詐欺アプリをご存知ですか？そこから生み出される様々な虚偽の情報は、人類社会のあらゆる側面を脅かしています。人工知能技術が進歩するにつれ、虚偽のコンテンツを識別する能力を早急に向上させる必要があります。では、フェイクニュースの信憑性をテストするといった実際の使用例になると、人間と機械のどちらがそのようなタスクに適しているのでしょうか?

ディープフェイクの危険性

人工知能技術の急速な発展に伴い、ディープフェイクの危険性が高まっていることは否定できません。その害悪を大まかにまとめると次のようになります。

虚偽の情報: ディープフェイクによって生成された動画や音声は、フェイクニュースなどの虚偽の情報を広く拡散させる可能性があります。
なりすまし: ディープフェイクは、個人になりすますことで、他人の評判を傷つけるだけでなく、知り合いを騙す可能性があります。
国家安全保障: ディープフェイクは終末のシナリオを作り出すだけでなく、敵対国の指導者が紛争を煽動するビデオや音声を捏造することもできます。
市民の不安: 紛争当事者は、特定のグループの間で怒りや市民の不安を煽るために、偽の映像や音声を使用することもあります。
サイバーセキュリティ: サイバー犯罪者はすでに AI 音声複製ツールを使用して、被害者に馴染みのある説得力のあるメッセージを送信しています。
プライバシー侵害: ディープフェイク技術を悪用すると、本人の同意なしに人物の肖像の特徴を取得する可能性があります。
真実と虚偽を区別するのは困難です。諺にあるように、虚偽が真実であるように見せかけられると、真実は虚偽になります。正確な情報が真実で信頼できるものかどうかさえ判断できません。

ますます説得力のあるディープフェイク情報に直面して、それを検出して識別するための強力なツールとプロセスが必要であることがわかります。 AI によって生成されたコンテンツを識別するように設計されたアルゴリズムは、この分野では検出ツールとして、また人間の判断を強力に補助するものとして使用できます。

アルゴリズムは人間よりも優れたディープフェイク検出が可能か？

現在、さまざまな国のテクノロジー大手や研究グループは、ディープフェイクがもたらす深刻な脅威に対する対策の研究開発に多大なリソースを投入しています。 2019年には、 Meta 、Microsoft、Amazonなどの企業がディープフェイク検出コンテストで最も正確な検出モデルに100万ドルの賞金を提供した。

公開されているビデオデータセットでテストした結果、最高のパフォーマンスを発揮したモデルは82.56%の精度を達成しました。しかし、同じモデルを新たに生成された10,000 本のビデオで構成される「ブラックボックスデータセット」でテストしたところ、最高のパフォーマンスを発揮したモデルでも精度はわずか65.18%にとどまりました。対照的に、一般的に、人間の検出の精度は、AI ディープ検出ツールの精度と同等かそれ以上です。

2021年に米国科学アカデミー紀要（PNAS）に掲載された研究によると、一般的な人間検出器の精度は、業界をリードするディープフェイク検出ツールよりもわずかに高いことが判明しました。しかし、この研究では、人間の検出器と AI モデルが犯しやすい間違いの種類は同じではないことも判明しました。

さらに、シドニー大学の興味深い研究によると、私たちの脳は意識的よりも無意識的にディープフェイクを識別する方が効果的だということが分かりました。

ディープフェイクの視覚的手がかりを検出する

新興科学であるため、ディープフェイク検出の原理は比較的複雑であり、必要な分析方法はビデオの性質によって異なります。例えば、 2020年には、北朝鮮の指導者をターゲットにした偽のディープフェイク動画が世界中で広まりました。最も効果的な検出方法は、口の動き (ビゼーム) と音声 (音素) を分析して矛盾を見つけることです。

マサチューセッツ工科大学 (MIT) は、人間の専門家、一般ユーザー、AI アルゴリズムによる分析を容易にするために、ディープフェイク動画の識別に役立つ 8 つの推奨事項を定義しました。

顔に注目してください。ハイエンドのディープフェイクは、ほとんどの場合、顔の修正から始まります。
頬と額に注目してください。肌は滑らかすぎるように見えますか、それともしわが多すぎますか?皮膚は髪や目と同じ速度で老化しますか?ディープフェイクの顔は、ある意味では不自然に見えるかもしれません。
目と眉毛に注目してください。影は予想した場所に現れますか?結局のところ、ディープフェイクでは、自然のシーンの物理的特性を完全に再現することはできないかもしれません。
メガネに注目してください。ギラギラした部分はありますか？グレアスポットが強すぎませんか？人が動くとグレアポイントの角度は変わりますか？同様に、ディープフェイクは自然光の物理的性質を完全には表現できない可能性があります。
ひげが本物に見えるかどうかに注目してください。キャラクターのひげはリアルに見えますか?ディープフェイクでは、あごひげ、もみあげ、口ひげなどの毛が追加されたり削除されたりすることがあり、その結果、顔の毛の変化が自然ではなくなります。
顔のほくろに注意してください。あなたの顔にあるほくろは本物に見えますか？
まばたきに注意してください。まばたきの回数が少なすぎたり、多すぎたりしていませんか?
唇の動きに注目してください。リップシンクベースのディープフェイクは唇の動きを自然に見せることができるのでしょうか?

実際、最新の人工知能による深層偽造防止検出ツールは、上記の要素を総合的に分析したものに過ぎず、製品によって成功率は異なります。もちろん、データサイエンティストは、画面上のスピーカーの顔の自然な血流を検出するなど、新しい手法を常に開発しています。そして、これらの新しい方法は、明らかに人間の専門家には一目では認識できないか、少なくとも気づかれない。

ディープフェイクにおける音声の手がかりの検出

前述の視覚的な手がかりと比較すると、ディープフェイク音声の検出はまったく異なる課題です。動画によって提供される視覚的な手がかりに加えて、ディープフェイクの検出は音声分析にも大きく依存しています。もちろん、場合によっては、メタデータ検証などの他の方法でも関連するヘルプが提供されることがあります。

ユニバーシティ・カレッジ・ロンドンが2023年に発表した研究によると、人間の専門家は英語と中国語のディープフェイク音声を73%の精度で検出できることが判明した。ディープフェイク動画と同様に、人間の専門家は、具体的に何が間違っているのか明確に説明できない場合でも、AI が生成した音声の不自然な発話パターンを直感的に検出できることが多いです。最も一般的な音声サインと手がかりを以下にまとめました。

不明瞭な発音
滑らかな表現の欠如
背景や邪魔になるノイズ
一貫性のない声や言葉遣い
音に「飽和感」が欠けている
過度に脚本化された配信形式
一見完璧（偽の動き、言葉の訂正、咳払いなどを含む）

同様に、さまざまなアルゴリズムは、上記の側面に基づいて音声のディープフェイク信号を効果的に分析することもできます。 USENIX の調査により、人工知能による声道再構築では自然な発話パターンをシミュレートできないことが判明しました。研究では、AI音声生成器によって生成された音声は狭い声道（ストロー程度の大きさ）にしか適合せず、人間の発話の自然な動きが再現されていないと結論づけられた。一方、ホルスト・ゲルツ研究所による以前の研究では、英語と日本語の本物と偽物の音声を混ぜたものを分析し、本物の音声と偽物の音声の高周波数の微妙な違いを明らかにした。

人間の専門家と AI 検出モデルはどちらも声帯と高周波数の不一致を検出できますが、高周波数の違いに関しては AI モデルの方が理論的にはより正確です。

人間もアルゴリズムもディープフェイクに騙されるが、騙される方法は異なる

研究によると、人間と最新の人工知能検出ツールの認識精度は、テストパラメータに応じて通常50%から90%の間であることがわかっています。つまり、人間も機械もディープフェイクに騙される可能性があるが、主な違いは、それらが混乱の影響を受けやすいかどうかである。たとえば、マサチューセッツ工科大学（MIT）の研究では、認知能力の違いにより、人間は世界の指導者や著名人のディープフェイク画像を識別する能力が AI モデルよりも優れていることが判明しました。この研究では、複数の人物が登場する映像シーンを扱う場合、AI モデルは人間に比べて大幅に劣ることも判明した。この研究は、根本的には、アルゴリズムが単一の話者の映像の基本的な特徴に基づいてトレーニングされることが多いためである可能性があると考えている。

逆に、同じ研究では、人間の視聴者を意図的に欺くために使用される可能性のある低品質の映像（ぼやけた、粗い、薄暗い環境など）を処理する場合、AI モデルが人間よりも優れたパフォーマンスを発揮することがわかりました。同様に、前述の最新の AI 検出方法では、特定の顔の領域の血流状態を監視することもできます。これは人間にはない分析能力なのかもしれません。

まとめ

ご覧のとおり、AI ディープフェイク検出ツールが進化し続けるにつれて、ディープフェイクコンテンツ自体の品質も向上し続けるでしょう。極端なシナリオでは、AI の欺瞞能力が人間の現在の検出能力を超えると、人間の判断力がディープフェイクに対抗する唯一の手段になるかもしれません。

今日、誤った情報の兆候を理解し、それをどのように認識するかは私たち一人ひとりの責任です。 AI 詐欺やセキュリティの脅威から身を守ることに加え、オンライン上の虚偽の情報についての洞察や調査結果を議論し、共有する義務もあります。

翻訳者紹介

51CTO コミュニティの編集者である Julian Chen 氏は、IT プロジェクトの実装で 10 年以上の経験があります。社内外のリソースとリスクの管理に長けており、ネットワークと情報セキュリティの知識と経験の普及に重点を置いています。

原題:ディープフェイクをうまく検出できるのは人間か機械か? 、著者: アーロン・ブルックス

<<: WAVE SUMMITが今年もやって来ました！ AI 開発者の饗宴がこの寒い冬を盛り上げます!

>>: 6つのトラックと10のテクノロジー: インテリジェントボディと3D生成がAIを活性化し、空間コンピューティングがターミナル変革を切り開く

ロボットが家庭に入り、人工知能の夢はもはや高価ではない

ブログ

いくつかの単純な負荷分散アルゴリズムとそのJavaコード実装

ブログ

コレクション | データアナリストがよく使用する機械学習アルゴリズム 10 個!

ディープフェイクの検出が得意なのは誰でしょうか?人間か機械か？

ディープフェイクの危険性

アルゴリズムは人間よりも優れたディープフェイク検出が可能か？

ディープフェイクの視覚的手がかりを検出する

ディープフェイクにおける音声の手がかりの検出

人間もアルゴリズムもディープフェイクに騙されるが、騙される方法は異なる

まとめ

翻訳者紹介

ロボットが家庭に入り、人工知能の夢はもはや高価ではない

いくつかの単純な負荷分散アルゴリズムとそのJavaコード実装

コレクション | データアナリストがよく使用する機械学習アルゴリズム 10 個!

なぜ顔認識に嫌悪感を抱くのですか?

Forbes: 14 人の技術専門家が、将来 AI によって混乱が生じる業界を予測しています。

マイクロソフトがOpenAIを救わなければならなかった6つの理由

クック氏は大量生産に資源を投入する気はなく、他の部門からも疑問視され、嘲笑されている。アップルの自動車製造への道は暗い。

人工知能で最前線の医療従事者を守る

推薦する

MITの研究チームがスマート着替え補助ロボットの衝突防止アルゴリズムを改良

Googleの2018年度PhDフェローシップが発表され、選ばれた8人の中国人学生は全員国内の大学を卒業した。

ブロックチェーンコアアルゴリズムのコンセンサスメカニズム

生産性を高める 13 の AI ツール

海外メディア：TikTokは米国の規制当局の支援を得るためにアルゴリズムを公開する予定

OpenAI は Google のトップエンジニアを引き抜くために年間 1,000 万ドルという高額な給与を提示している?北京大学のAI博士課程の学生が卒業前に100万ドルのオファーを受ける

「大学受験5年間・シミュレーション3年間」の大型模型版が登場！ 6141 の数学の問題、マルチモーダルの問題

ディープラーニングを使用した DGA (ドメイン生成アルゴリズム) の検出

OpenAIがSoraを発表: 現実を再定義する画期的なビデオ生成モデル

Go 向けに設計された機械学習ライブラリ Gorgonia: TensorFlow や Theano のライバル