あなたの顔データはどこに保存されますか?

あなたの顔データはどこに保存されますか?

AI顔変換ソフト「ZAO」やMegviiのキャンパス顔認識をめぐる論争に続き、17万件の顔データがオンラインショッピングモールで公開販売されているというニュースが「相次いで」報道され、人間の顔は突如「危険物」となった。

顔認識が普及し、顔データを収集するチャネルがますます広範囲になるにつれて、顔データがどこに行き着くのか疑問に思う人が増えています。

人々が顔を使って携帯電話のロックを解除したり、支払いをしたり、高速鉄道駅や空港に出入りしたりする時代では、あなたの顔が研究者のデータセットやダークウェブの闇取引に使われたり、ディープフェイクされて別の体に埋め込まれたりするかもしれません...

顔データはどこに行くのか?データセットは隠れた危険になるかもしれない

AI 時代では、テクノロジー企業は数十億枚の顔画像でトレーニングすることで顔認識アルゴリズムを改良します。あなたの顔はおそらく「トレーニング サンプル」の 1 つです。では、ソフトウェア企業は通常、どのようなチャネルから顔画像を入手してアルゴリズムに「フィード」するのでしょうか。

初期の頃は、顔認識はまだディープラーニングの段階に入っておらず、顔データの収集は依然としてプライバシーの面で問題がありました。研究者は、顔データを収集してデータベースに含める前に、ボランティアの同意を得る必要がありました。たとえば、イェール大学の計算視覚制御センターが作成したイェール顔データベースには、15 人のボランティアの画像が 165 枚しか含まれていません。

しかし、後期になると、特にディープラーニング技術の急速な応用と普及により、数百人のボランティアの顔はデータトレーニングにとってはほんの一滴となり、顔データの収集は制御不能になり始めました。

顔データセットは通常、Microsoft の MS Celeb 1M などの画像認識コンテスト用に準備されます。2016 年に Microsoft がリリースしたこのデータベースには、10 万人の著名人と約 1,000 万枚の顔画像が含まれており、当時最高レベルの画像認識コンテストの 1 つであった MSR IRC に提供するために使用されました。

また、業界の「ゴールドスタンダード」として知られる顔認識アルゴリズムテスト FRVT もあり、これは米国国立標準技術研究所 (NIST) が提供する顔データセットによってサポートされています。

現時点では、学術研究目的の顔データセットはまだ制御可能な範囲内ですが、後期段階では、これらの顔データが何に使用され、データトレーニング以外にどこに行くのかを誰も制御できません。

検索エンジンに「顔データセット」というキーワードを入力すると、インターネット上のリソースをダウンロードするのと同じように、大量の顔データベースをダウンロードできることがわかります。クリックしてダウンロード ソフトウェアにジャンプするだけで、数 GB の顔データ パケットが「あなたのもの」になります。

何千ものラベル付き顔データがこんなに簡単に入手できると考えると恐ろしいです。すると、データセット内の顔はどこから来るのかという疑問が生じます。

Meike.com は、顔データを多く含む、よく使われる顔データセットを大まかに数えました。公開組織の観点から見ると、そのほとんどはテクノロジー企業と大学です。データの取得チャネルは 3 つあります。1. インターネット データのクローリング、2. Yahoo が所有するオンライン写真アルバム Flickr から、3. 通信社、商業企業などです。

これらの顔データセットの一部には注釈が付けられており、顔のキーポイント検出、顔の表情、顔の年齢と性別、顔の姿勢などの情報がカバーされています。

ほとんどのデータセットが公開される際には、非営利の補足契約が締結され、画像がクリエイティブ コモンズ ライセンス (CC 契約) に基づいて撮影および検索されていることが強調されます。CC 契約によると、写真は学術研究で再利用できます。ただし、許可を与えるのは写真に写っている人物ではなく、著作権所有者です。ただし、データセットが公開されると、公開組織はその使用を制御できなくなります。

そうでなければ、マイクロソフトは、世界最大の公開顔認識データベースがメディアによって広く暴露された後、それをひっそりと削除することはなかっただろう。その後、デューク大学の Duke MTMC モニタリング データ セットとスタンフォード大学の Brainwash データ セットという 2 つの学術機関も関連データ セットを削除しました。

本来は学術研究を促進することを目的とした顔データセットは、他のチャネルから取得された顔データと同様に、商業化され悪用されるリスクがあります。

顔データの売買を例に挙げると、2016年にはネットユーザーが淘宝で顔データを購入しているという話題が知乎に掲載されていました。顔データはオンラインショッピングモール以外にも、顔データを販売している商業企業からも入手できます。例えば、Vigilant Solutionsという企業は、顔認識ソフトウェアのトレーニング問題を「解決」するために使用できる1500万の顔を提供しています。

これらの顔写真がどこから来ているのかについてですが、おそらく上記の経路に関連していると思われます。また、公開データセットを直接ダウンロードして転売している可能性もあります。

顔データが販売されるか、顔データセットに流入するかに関係なく、結局のところ、その後のアプリケーションは完全に制御不能になります。

「裸の」顔データ、防ぐのが難しいリスク

初期の頃はボランティアのインフォームドコンセントを得てのみ顔データを収集していましたが、後期には個人のプライバシーを完全に放棄し、知識共有契約に従うという名目でクローラープログラムを直接使用していたため、ソーシャルプラットフォームやインターネットアルバムに写真をアップロードする際に、これらの写真がこの契約に含まれていたことを知らない人がたくさんいました。

少し前に騒動を巻き起こしたZAOと同様に、ぎっしり詰まった利用規約の中には、目立たない一列に「ZAOとその関連会社、およびZAOユーザーに、全世界で完全に無償、取り消し不能、永久、再許諾および再許諾可能な権利を付与することに同意する」という条項が並んでいた。その後の騒動がなければ、あなたの顔データはひっそりと「販売」されていただろう。

現在、顔を収集する方法は数多くあります。政府機関のセキュリティニーズに加えて、多くの商業シナリオでも顔認識の使用が必要です。たとえば、大規模な会議に参加するには、主催者が事前に顔認識システムに入力する個人の写真を提供する必要があります。ホテルに宿泊するには、顔認識による確認が必要です。一部のソーシャル アプリは、アップロードされた写真の顔を自動的に識別してマークします。また、フォト アルバム アプリケーションを装ったソフトウェア プログラムの中には、実際には顔情報を収集するソフトウェア プログラムもあります...

フェイスブックは以前、「何百万人ものユーザーの生体認証データを本人の同意なく違法に収集・保存した」として訴えられた。今年9月、フェイスブックは圧力を受け、ユーザーの写真やタグの提案にデフォルトで顔認識機能を使用しないことを選択した。

自分の顔が写った写真をクラウドにアップロードした場合、最終的に顔データが適切に保存されるかどうかは誰にも保証できません。プラットフォームにアップロードすると、必然的にクラウドに保存されるかどうかが問題になります。クラウドに保存する場合、データは最終的にどこに行くのでしょうか? リスクは何でしょうか?

実際、顔データセットのソースチャネルから、顔写真をインターネットにアップロードするリスクが非常に高いこともわかります。

これに先立ち、メディアは、国内の顔認識企業で大規模なデータ漏洩が発生し、氏名、身分証明書番号、写真など250万人以上のデータにアクセス可能だったと報じた。

今年初め、米国税関・国境警備局が収集した旅行者の写真やナンバープレートがアウトソーシング会社によって漏洩され、漏洩したデータはダークウェブに掲載され、無料でダウンロードできる状態となっている。

同様のニュースが後を絶たないため、顔データによるリスクも非常に高い。個人情報が販売されたり、公開されたりする場合には、顔を変えるソフトウェアを使って、例えばあなたの顔を短編動画のヒロインに変えるなど、金融詐欺や不適切な状況に利用される可能性がある。さらに、顔認識システムにおける人種差別や偏見をめぐる論争も大きな論争を引き起こしている。

人間の顔を守るための戦い:収集は簡単だが監視は難しい

時には、技術と応用が矛盾する状態になることがあります。一方では、アルゴリズムは大量の顔データの最適化を必要とし、より正確で安全かつ効率的な認識をもたらし、欺瞞行為の可能性を回避します。他方では、アルゴリズムを最適化する過程で顔データの安全性と非悪用を保証することは困難です。アルゴリズムを現場に適用すると、顔データが再び無制限に収集され、最終的にジレンマに陥ります。

顔認識を研究しているテクノロジー企業は、CV4大企業からGoogle、Microsoft、Amazon、Alibabaなどのテクノロジー大手まで数多くあります。彼らはテクノロジーを使って社会の効率性を高めていますが、世論の渦にも巻き込まれています。

つい最近、アリペイが顔認証決済の推進に3年間で30億元を投資すると発表した後、WeChatも顔認証ハードウェア機器の推進に100億元の補助金を出すと報道されました。顔認証が通常の本人認証方法となると、顔のセキュリティ保護がますます重要になります。

しかし、顔データは収集しやすいものの、規制が非常に難しい。国内外で顔データの安全性を懸念する声が上がっている。米国のサンフランシスコとサマービルは、公共の場での顔認識技術の使用を禁止する法案を可決した。サンフランシスコは、警察やその他の政府機関による顔認識技術の使用を禁止している。この画一的な管理アプローチは、ある程度リスクを回避しますが、症状のみを治療し、根本的な原因は治療しません。

中国では、教室への顔認識の導入や顔を変えるソフトウェア「ZAO」の流行により、顔データのセキュリティ問題に多くの人が注目し始めている。最近、関係部門が顔認識分野における関連財務基準を発表し、顔情報の収集、伝送、保管、利用に関するセキュリティ管理要件を明確にするというニュースがありました。

実際、顔データを保護する方法に関しては、3 つの側面しかありません。個人のセキュリティ意識の向上に加え、顔データを収集する営利企業も技術的な手段を通じてデータのセキュリティを保護する必要があり、規制当局は制度レベルから関連法規制や基準の施行を加速させる必要がある。

悲観的に言えば、テクノロジーは諸刃の剣です。ルールや制約によって特定のリスクを軽減することはできますが、売買が行われる場所では必ず害が生じます。テクノロジーがそれを必要とする限り、あなたの顔データがどこに行き、何に使われるのかは誰にも分からないかもしれません。

<<:  ニューラルネットワークにおけるさまざまな損失関数の紹介

>>:  顔を変える技術の悪用に対抗するため、Googleはディープフェイクと戦うための大規模なデータセットを公開

ブログ    
ブログ    

推薦する

李碩:AIは産業知能の波を促進する

2020年12月29日、2020年産業インターネットイノベーション大会(第4回)が盛大に開幕しました...

Transformer ニューラル ネットワーク モデルを 1 つの記事で理解する

こんにちは、皆さん。私は Luga です。今日は、人工知能 (AI) エコシステムに関連するテクノロ...

...

清華大学のAI学生が顔を見せて歌う、この応用は将来に期待される

最近、清華大学初のAI学生がついにその本性を現した。伝えられるところによると、彼の名前は華志兵。清華...

国家人工知能実験区の数は 8 つに増えました。なぜこの 5 つの都市が選ばれたのでしょうか?

丑年の最初の仕事週に、国家人工知能イノベーションおよび応用パイロットゾーンの数が増加しました。工業情...

Google Brain の最新の操作は「レトロ」: 畳み込み注意は不要、画像分類は SOTA に近い

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

人工知能市場の収益は今年1560億ドルに達する見込み

調査によると、人工知能(AI)ソリューションは現在急速に成長している市場であり、2020年までに1,...

...

CatBoost: XGBoost よりも優れた GBDT アルゴリズム

[[242113]] [51CTO.com クイック翻訳] インターネット アルゴリズムには、推奨シ...

目に見える機械学習: ニューラルネットワークをゼロから理解する

機械学習に関する古いジョークがあります。機械学習は高校のセックスのようなものです。誰もがやっていると...

...

このデータ サイエンスの間違いに注意し、30 時間以上の無駄な作業を回避しましょう...

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

世界を支配するトップ 10 のアルゴリズムをご存知ですか?

Reddit に、私たちの現代生活におけるアルゴリズムの重要性と、どのアルゴリズムが現代文明に最も...

...