AIによる顔の変形の背後にある技術的な戦い

AIによる顔の変形の背後にある技術的な戦い

[[275567]]

週末に集中的に流行した後、顔を変えるソフトウェアZAOの人気はようやく落ち着きを取り戻した。使用されている技術は新しいものではないが、顔合成動画を一般ユーザーにこれほど身近なものにしたのはこれが初めてだ。

合成動画の利用規約やセキュリティ問題が広く批判されたため、ZAOは世論の渦に巻き込まれ、瞬く間に人気を集めてから疑問の声が上がるまで24時間もかからなかった。

しかし、ZAOに対する懸念やボイコットでは、一般の人々のプライバシーとセキュリティに対するリスクを解決することはできません。顔合成技術が誕生した日から、人々はその技術が悪用されるのではないかと心配し続けました。

顔合成は、現在人気の人工知能分野のほんの一分野に過ぎません。この技術は人類に多くの新しい体験と利便性をもたらす一方で、個人の多くの権利や利益の侵害を懸念させるものでもあります。

人間が作ったテクノロジーがますます強力になり、全能にさえなるにつれて、人間の領域と独自性をどのように維持するかが検討する価値のある問題になります。今日、人工知能の発展は、多くの人々の最も楽観的な予測を超えて加速しています。パンドラの箱が開かれたのです。

したがって、ZAO に関する懸念は、誰もが心に秘めている最も基本的な疑問を反映しています。人工知能がますます全能になった場合、人間はそれにどう対処すべきでしょうか?産業変革の新たな局面において、人間のプライバシーやその他の権利はどのように保護されるのでしょうか?

テクノロジーを正しく使用する方法は標準的な答えがない質問ですが、上記の質問に答えるための鍵となります。

プライバシーに関する懸念が浮上

ZAOは画面を独占している唯一のアプリケーションソフトウェアではない

友人の輪の中には、ZAO の前身となるものがたくさんあります。Faceu、Zuji、Tiantian Ptu などです。ZAO と同様に、かつて画面を支配していたこれらのアプリケーションは主に画像関連であり、その多くはユーザーに個人的な写真をアップロードすることを要求していましたが、これほどの規模で論争や疑問を引き起こしたことはありませんでした。

ビデオを合成する機能は、ZAO が世間の議論を巻き起こす鍵です。それ以前の画像アプリのゲームプレイは静止画像に基づいており、ZAO は一般ユーザー全員にビデオの顔交換機能を提供した最初のアプリでした。

コンピュータビジョン研究に携わる業界関係者によると、ZAO アプリケーションの技術的な難度はそれほど高くないという。「コンピュータビジョン技術において、0 が最も簡単で 10 が最も難しいとすると、顔画像があれば別のポーズの画像を生成することができますが、これは 3 点または 4 点の難度かもしれません。ビデオ合成には、1 枚だけではなく一連の画像を生成する必要があるため、難度は 5 点または 6 点にすぎません。実際、高度なブレークスルーはありません。」

実際、コンピュータービジョンの分野では、画像を生成する技術は古くから存在しており、Aの顔を切り取ってBの顔に貼り付けることもできますし、Photoshopでも同じことができます。ディープラーニングの助けを借りてのみ、Photoshop 画像を迅速かつ大量にプログラムできます。ビデオ顔合成では、まずビデオ シーケンスのすべてのフレームを生成し、次に検出またはビデオ シーケンス テクノロジを追加して合成顔ビデオを生成します。

合成ビデオは多くの人々の心理的根幹に触れます。ビデオも偽造される場合、真実をどうやって見分けることができるのでしょうか?

今年6月に改ざんされたマーク・ザッカーバーグのビデオにしろ、アメリカ人女優の顔を移植したポルノビデオにしろ、ビデオの信憑性と安全性について国民が不安を抱くには十分だ。例えば、犯罪者が子供の声を偽装して親を脅迫したケースもある。顔合成の助けを借りれば、ビデオ認証では真実を判断できなくなる。一部のネットユーザーは「携帯電話番号と顔画像があれば、犯罪者はテクノロジーを使って合成し、あなたに代わって家族と話すことができる」と指摘している。

ほとんどの人は上記のような極端な状況に遭遇することはありませんが、顔認識の広範な応用により、顔合成に想像力の余地が広がりました。顔合成が携帯電話のアプリケーションに搭載され、誰もが利用できる技術になると、同様の懸念が間違いなく拡大するでしょう。セキュリティ、支払い、出席、犯罪捜査などの分野では、ますますリアルで完璧な顔合成技術は、確かに多くのセキュリティリスクをもたらすでしょう。

幸いなことに、顔認識をめぐる攻防戦はすでに始まっています。多くの遭遇を経て、技術がアップグレードされた顔認識はそう簡単には破られません。

「テクニカルな攻撃と防御」

顔の合成は、コンピューター ビジョン研究のサブ領域にすぎません。機械が物体を理解できるようにするための科学として、コンピューター ビジョン研究は長い間行われてきました。 1966 年、人工知能科学者ミンスキーは学生たちに課題を与えました。それは、カメラを通してコンピューターが見たものを伝えるプログラムを書くというものでした。これは、コンピューター ビジョンの最も初期のタスク記述であると考えられています。今日、コンピューター ビジョンが数多くの斬新で興味深いアプリケーションを生み出すことができる理由は、ディープラーニングの発展と密接に関係しています。

2006 年、ディープラーニングの第一人者である Geofrey Hinton 氏が「ディープ ビリーフ ネットのための高速学習アルゴリズム」と題する論文を Science 誌に発表し、これが今日まで続く人工知能の波の原動力となりました。

国内産業におけるディープラーニングの普及は百度と深く関係している。

2013年1月、百度はロビン・リー氏を学長に、中国の「千人計画」の国家専門家であり、現在ホライゾン・ロボティクスの創設者でもあるユー・カイ氏を副学長に据えたディープラーニング研究所(IDL)の設立を正式に発表した。 2014 年、IDL の Deep Speech プロジェクトにより、騒音環境での音声認識の精度が 81% に向上しました。当時、同じ環境における Bing、Google、Wit.AI などの最高認識率はわずか 65% でした。これは、国内の産業分野におけるディープラーニングの応用モデルであり、ディープラーニングに対する人々の注目を喚起しました。

このおかげで、AI関連のアプリケーションはここ数年で急速に成長しました。その中でも、顔認識は最も応用範囲が広い技術の一つです。現在、顔認識は金融、セキュリティ、出勤管理などの分野で広く使用されています。例えば、ユーザーがインターネット金融会社からお金を借りる場合、プラットフォーム側がまず行う必要があるのは「本人確認」です。お金に直結するため、偽顔攻撃をブロックすることが極めて重要になります。

人々が心配しているシナリオの 1 つは、ZAO が使用する顔合成技術です。合成顔はセキュリティ上の問題を引き起こすのでしょうか?この問題は研究者の注目を集めており、研究者たちは顔認識のセキュリティを向上させるために多くの試みを行ってきました。

2018年7月、Megvii Technologyの製品ディレクターであるPeng Jianhong氏は、オンライン公開授業で次のように述べました。顔認識の分野で現在最も普及している攻撃方法は、画像攻撃(正当なユーザーの紙に印刷された写真、カラー印刷された写真、携帯電話に保存されている写真などを使用して欺く、非ライブ攻撃)、ビデオ攻撃(事前に録画されたビデオを再生し、まばたき、頭を向ける、口を開けるなどのアクションコマンドを使用して欺く、ライブ攻撃)、3Dマスク攻撃(事前に偽造されたマスクを使用して欺く、非ライブ攻撃)などです。

研究者が最も注目しているのは、モーション生体検出、ビデオ生体検出、カラー生体検出、デュアルアングル生体検出などの生体攻撃に対処できる検出スキームです。

Megviiの顔認識ソリューション

● モーションライブネス検出: ユーザーは、UI プロンプトに従って、うなずいたり首を振ったりするなどのランダムな動きをする必要があります。各ランダムな動きは、コンピューター サーバーから送信されます。コンピューターは、顔の品質検出、顔のキー ポイントの感知と追跡、3D 顔姿勢などの技術的な詳細を通じて、顔認識の精度を向上させます。

● ビデオ生体検出: 主にモバイル H5 シナリオで、UI によって提供されるコンテンツに基づいて、ユーザーが 4 桁の数字を読み取る必要があります。コンピューターは、クラウド認識、音声同期検出などの方法を使用して、検出された顔が本物かどうかを判断します。

● カラフルな生体検知:反射光の3次元画像化原理に基づき、3Dソフトで合成した動画や画面の再撮影などの攻撃を排除します。強い光の環境では、カラフルな生体の検出効果があまり良くないため、生体攻撃の閾値を上げるために、ユーザーは最後に簡単なうなずきをする必要があるかもしれません。

● デュアルアングル生体検出:ユーザーは正面の自撮り写真と横向きの自撮り写真を撮影する必要があります。この検出方法は、ユーザーが 1 ~ 2 秒のビデオを撮影するのと同等です。コンピューターは 3D モデルを再構築して、ビデオ内の人物が実際の人物であるかどうかを判断します。

● サイレント生体検出: ユーザーは何もする必要はなく、3 ~ 4 秒間自然にカメラに向き合うだけです。実際の人間の顔は完全に静止しているわけではなく、まぶたや眼球の動き、瞬き、唇や頬の周りの伸縮などの微細な表情があるため、コンピューターはそのような特徴を利用して欺瞞を防ぐことができます。

顔認識技術は比較的成熟したレベルにまで発展している

生体検知の方法は企業によって異なります。最も一般的に使用される方法はモアレです (モアレはデジタル カメラやスキャナなどのデバイスの感光素子に現れる高周波干渉縞です。高周波の不規則な縞模様により画像がカラフルに見えます)。しかし、偽造マスクではモアレパターンは認識できません。現時点では、効果的に傍受する唯一の方法は、人間の顔のマスクの写真を大量に機械に入力し、機械にマスクの特徴を見つけさせ、それをモアレパターンと組み合わせることです。

Megvii TechnologyのPeng Jianhong氏はまた、クラウド内の大量の顔データに基づいてトレーニングされたFMPディープニューラルネットワークは、オンラインデータに基づいてリアルタイムのフィードバックと調整を提供し、それによって認識精度を継続的に向上させ、偽装やマスク攻撃を効果的に識別できると述べた。

上記の検出方式により、コンピュータは検出された顔が本物の顔か偽造された顔攻撃であるかを判断できます。

「人間の顔以外にも、

本当の防衛線を維持するための他の武器は何ですか? 「

あなたがあなたであることを証明するものは、あなたの顔だけではありません。顔認識に加えて、個人識別の分野で適用できるさまざまな生体認証技術が存在します。

生体認証は一般的に、人体の固有の生理学的および行動的特性を利用し、光学、音響、バイオセンサー、生物統計学の原理などのハイテク手段を密接に組み合わせて個人を識別するために使用されます。生体認証は、紛失しない、忘れにくい、偽造防止性能に優れているなどの特徴から研究者の注目を集めており、その中でも指紋認証、虹彩認証などの認証方法が広く利用されています。

● 指紋認識:識別された物体の指紋を分類・比較して判断します。現在、中国では指紋認識産業チェーンが完成しています。例えば、指紋チップの設計を手掛ける上場企業であるG​​oodix Technologyや、Silead、Feinger、Mindray Microなどの国内指紋認識チップメーカーがあります。

● 虹彩認識:虹彩は胎児期に形成され、生涯を通じて死ぬまで変化しないため、非常に強い安定性を持ち、それが本人認識の唯一性を決定します。そのため、目の虹彩に基づいて本人認識を行うことができます。現在、虹彩認証は、その超高精度と使いやすさにより、金融、医療、セキュリティ検査、セキュリティ、特殊産業の出席およびアクセス制御、産業制御などの分野で広く使用されています。代表的な国内メーカーとしては、中科紅覇、紅星科技、巨紅光電、武漢紅石、島大華などがある。

虹彩認識技術は人の身元を確認するために使用できる

● 歩行認識:歩行姿勢によって人を識別することを目的としています。人間の動作を必要とせず、偽装も難しいため、遠距離での本人確認に特に適しています。歩行認識のための取得装置はシンプルで経済的であり、監視カメラのみで済みます。現在、国内の歩行認識分野の企業の中で最も有名なのはGalaxy Dropです。

● 声紋認識:声紋認識とは、音声信号を電気信号に変換し、コンピューターで識別するプロセスです。話者識別(犯罪捜査の範囲を絞り込むなど)と話者確認(銀行取引など)の2種類があります。声紋認識と抽出は便利で低コストであり、遠隔操作に適しています。しかし、環境ノイズの影響を受けやすく、シナリオによっては声紋の特徴を抽出するのが難しいなどの欠点もあります。そのため、音声認識は現在、スピーカーなどのスマート ハードウェアなど、ID セキュリティの要件がそれほど高くないシナリオで主に使用されています。現在、iFlytek、AISpeech、Cloud Voiceなどの国内企業が対応する声紋認識技術を発表している。

私たちが日常的に使っているWeChatも音声認識技術を採用している

● 手のひら静脈認識:まず、静脈認識装置で指、手のひら、手の甲の静脈画像を撮影し、撮影した手のひら静脈分布図をコンピュータシステムに保存して認識します。手のひら静脈認識は使いやすく、識別が速く、精度も高いです。しかし、手のひら静脈認識製品は、小型化が困難、製造コストが高い、収集機器に特別な要件があるなどの欠点があるため、現時点では広く使用されていません。現在、国内でよく知られている企業としては、富士通、同源微智能科技、志邁科技などがあります。

上記の認識方法はそれぞれ異なる形で映画に登場しています。たとえば、「ミッション:インポッシブル5」では、「歩行認識」がトム・クルーズとその乗組員が情報を得るための最大の障害となりました。

前述の生体認証技術にはそれぞれ限界がありますが、破られないものではありません。AI技術が急速に発展している現在、顔認識などの一部の認識方法はより大きな課題に直面しています。

Quantum Bitによると、スタンフォード大学、プリンストン大学などの大学による最新の研究では、任意のテキストがあれば、ビデオ内の登場人物のセリフを自由に変更できることが示されています。さらに、キーワードを変更した後、キャラクターの唇の動きを信じられないほど正確に一致させることができ、改ざんの痕跡はまったくありません。AIは声を偽ることもできます。

技術の進歩によって私たちはより多くの防御力を手に入れましたが、同時により多くの弱点も露呈しました。

「AI倫理は無視できない」

顔を変えるソフトウェアZAOは、人工知能時代のプライバシーの問題をより徹底的に明らかにしています。ユーザーが顔写真をアップロードしたり、顔を変えるビデオを作成してソーシャルネットワークに投稿すると、他人の肖像権、名誉権、著作権を侵害する可能性があるだけでなく、「透明人間」になり、プライバシー権が失われることを意味します。

WeChat創設チームのメンバーであり、Alipayの元シニアプロダクトマネージャーであるLu Shushen氏は、写真の漏洩はすでに公然の秘密であると語った。ユーザーが Apple または Android のどちらのスマートフォンを使用しているかに関係なく、理論的には、ユーザーがカメラを開いたり、アプリでカメラを選択して一定期間使用したりすると、ユーザーのアルバム内のさまざまな写真はアプリ運営者にとって秘密ではなくなります。ユーザーの携帯電話番号と写真が同時にアプリに漏洩する問題は長年問題となっていたが、この情報セキュリティの問題はほとんど注目されてこなかった。

「誰もができることは、実は限られています。ID カードの表面と裏面の写真を携帯電話のアルバムに保存している場合は、ローカルとクラウドの両方のバックアップを忘れずに削除してください。」

Faceu、Zuji、Tiantian Ptuと同様に、WeChatモーメンツを賑わせてきたZAOの人気も遅かれ早かれ衰えることは予想できる。しかし、最先端のAI技術を一般大衆にもたらしたため、プライバシーとセキュリティに関する論争も巻き起こし、AIの今後の方向性について人々がより激しく議論するようになった。

テクノロジーの優位性を信じる人々の目には、人工知能技術が今後も進歩し、広く利用されれば、特に人間が真に推論して問題を解決し、知覚や自己認識さえも持つ強力な人工知能マシンを創り出すことができれば、人類社会への利益は莫大なものとなるだろう。現実的な観点から見ると、人工知能技術の発展は確かに人類に実質的な利益をもたらしました。

しかし、これらのメリットには代償が伴います。ZAO が巻き起こした論争は、人工知能技術の B 面のほんの一部に過ぎません。この強力で未知の力に直面して、人工知能の倫理をめぐる議論は止むことはありません。

人工知能に関する倫理的な議論には、主に以下のトピックが含まれます。

1つはアルゴリズムによる差別です。アルゴリズムによる意思決定は、実際には過去のデータを使用して将来の傾向を予測する一種の予測です。アルゴリズム モデルとデータ入力によって予測結果が決まります。しかし、アルゴリズムは客観的ではなく、むしろ差別的である場合もあります。たとえば、一部の画像認識ソフトウェアは以前、黒人を「チンパンジー」や「類人猿」と誤って分類していました。

マイクロソフトがツイッターで立ち上げたチャットボット「Tay」は、ネットユーザーとのやり取りの中で、性差別と人種差別を併せ持つ「悪い子」になったことがあった。これは、より深刻な問題を浮き彫りにしている。間違った入力は間違った出力につながり、間違った出力はフィードバックとして、さらにエラーを深めるのだ。

過去の差別はアルゴリズムに根付いて将来さらに強化される可能性があります。つまり、悪循環です。

2つ目はプライバシーに関する懸念です。多くの人工知能システムは学習アルゴリズムを訓練するために大量のデータを必要とするため、データはAI時代の「新しい石油」となり、新たなプライバシーの懸念をもたらしています。

一方で、ディープラーニングの過程で大量の機密データが利用された場合、後からそのデータが漏洩してしまうリスクがあり、他方では、大量のデータが様々なサービス間で取引され、データが新たな商品となることを考えると、個人の個人データに対する制御や管理も弱まることになる。

3つ目は、AIに対する人道的扱いをどのように定義するかです。自律型知能ロボットがますます強力になるにつれ、人間社会においてロボットがどのような役割を果たすべきなのかはまだ不明です。

さらに、教育用、介護用、サービス用のロボットが、子供、高齢者、患者の世話をする人間を支援するケースが増えています。これらの相互作用が人間の行動に与える影響についても、さらなる研究が必要です。

4番目は、責任と安全の保証です。イーロン・マスク氏とスティーブン・ホーキング氏は以前、強力な人工知能や超人工知能が人類の生存を脅かす可能性について人々に警戒するよう警告していたが、科学界と一般大衆の間でこの問題についての議論と理解は未だ表面的である。

マスク氏は、人工知能技術が将来人類を破滅させる可能性があると繰り返し警告している。彼はかつてこう言った。「人工知能の鍵は、それがロボットではなく、コンピュータアルゴリズムであるということだ。ロボットは単なるセンサー部品の集まりだが、人工知能は強力なネットワークを構成する。アルゴリズムが制御不能になった場合、人間と人工知能は協力してそれを制御することができる。しかし、集中化された大規模な人工知能システムが世界を支配しようと決意すると、私たちはそれを止めることができないだろう。」

このため、マスク氏は、人工知能によってもたらされる「世界の終わり」に備えるよう人々に呼びかけた。彼は、人間と機械が共生する「AI人間」という有機体に融合し、「AI独裁」の出現を効果的に防ぐことができると示唆した。

偶然にも、英国の理論物理学者スティーブン・ホーキング博士も生前、人工知能の発展は人類の絶滅を意味する可能性があると警告していた。

2014年、ホーキング博士はBBCのインタビューで次のように語った。「私たちはすでに原始的な形の人工知能を持っており、それらは非常に有用であることが証明されています。しかし、人工知能の完全な開発は人類の終焉につながると思います。人間によって開発された人工知能は、自ら進化し、加速度的に自らを再設計します。生物のゆっくりとした進化の限界により、人間はそれに対抗できず、最終的には取って代わられるでしょう。」

最近の世界人工知能会議で、ジャック・マー氏とイーロン・マスク氏が「ダブル・ホース」対話を行った。対照的に、ジャック・マー氏は今日の人類社会で起こっている変化に関心があり、一方マスク氏は人類の将来の運命について懸念に満ちている。

マスク氏は、自分は生まれつき楽観的でも悲観的でもないが、それでも人間と人工知能の将来については悲観的な姿勢を保っていると述べた。「人工知能は最も賢い人間よりも賢いかもしれない。コンピューターは人間のデジタルフラックスを何十万倍も上回る方法で互いにコミュニケーションできる。コンピューターは間違いなく人間を非常に退屈だと思うだろう」。同氏は、人間が人工知能に勝てないのであれば、人工知能とチームを組むことができると示唆した。

ジャック・マー氏は非常に楽観的だ。彼は人工知能が脅威だとは考えていない。「人間は非常に賢いので、人工知能が怖いものだとは思いません。人工知能は優れていて興味深いものであり、私たちはそれを受け入れるでしょう。今日多くの問題に解決策はありませんが、将来は解決策が見つかるでしょう。若者が解決策を持っているでしょう。」

人工知能と人間は今後どのように共存していくのか。マスク氏が予測した悲観的な結末になるのか、それともジャック・マー氏が予測した楽観的な結末になるのか。近い将来にその答えは見えない。

世界をプログラムとして捉えると、私たち一人ひとりの選択が世界を動かすアルゴリズムとなり、プログラムの将来の方向性を決定します。そして、画面を席巻しているZAOは、羽ばたく蝶なのかもしれません。

<<:  メリット、PyTorch中国語版の公式チュートリアルはこちら

>>:  28歳で普通のエンジニアからAIに転職すべきか?

ブログ    
ブログ    

推薦する

GenAI Security: Microsoft Copilot でデータ侵害を防ぐ方法

Microsoft の Copilot は、世界で最も強力な生産性向上ツールの 1 つと言われていま...

マイクロソフトがML.NETクロスプラットフォーム機械学習フレームワークをオープンソース化し、AIをさらに一歩前進させる

現地時間5月7日、米国シアトルでMicrosoft Buildカンファレンスが開催され、マイクロソフ...

「コピー+貼り付け」に別れを告げ、ディープラーニングOCRに基づくPDFからテキストへの変換を実現

[[403226]]従来の講義には通常、PDF スライドのセットが付属します。一般的に、このような講...

...

Sora のようなモデルをトレーニングしたいですか? You YangのチームOpenDiTが80%の加速を達成

2024年初頭のキング爆弾として、ソラの出現は追いつくための新たな目標を設定しました。ヴィンセントビ...

未来の生活に革命をもたらす5つのテクノロジートレンド

テクノロジーは、絶え間ない進歩と常に変化する可能性により、私たちの日常生活に組み込まれるようになりま...

...

...

フォークス写真ツール:顔認識システムを密かに汚染

海外メディアの報道によると、インターネットには数十億枚の写真が溢れており、その多くは放置されたアカウ...

Java と Python のアルゴリズムとデータ構造に関する面接の質問

Uber や Netflix などの企業でプログラミング、コーディング、ソフトウェア開発の職に応募す...

...

...

アルゴリズムの練習とプログラミング学習に最適な 6 つの Web サイト

Google や Facebook のアルゴリズムを理解しなければ、面接に合格することはできません。...

...

この戦略は不安定なGANを安定させるのに役立ちます

敵対的生成ネットワーク (GAN) は、非常に幅広い応用が期待できる非常に強力なタイプのニューラル ...