新しい顔認識ツール: 少ないデータでも「国際的な顔」を認識

最近、アマゾンの顔認識ツールが米国議会議員28名を犯罪者と誤って照合し、注目を集めた。顔認識ツールはなぜこのようなエラーを起こすのでしょうか?実は、機械も人間と同じように、見知らぬ外国人を見ると「顔認識障害」を起こします。「地元の人」しか認識できず、他の国や地域の「外国人」の認識精度は低いのです。この問題をどう解決するのでしょうか？

研究と検証のために公開されている個人情報を引用。画像はDeng Weihong氏のチーム提供

[[280604]]

研究チームがこの問題を議論している。写真は鄧偉宏氏のチーム提供

重要なのは、顔認識ツールが世界中の住民の顔をできるだけ多く認識できるようにすることですが、このプロセスを実現するのは簡単ではありません。北京郵電大学の鄧維宏教授は中国科学日報に対し、顔認識ツールの開発においては、使用されるトレーニングデータがより完全であればあるほど、精度は高まると語った。しかし、各国・各地域で国民の個人情報の保護が厳しくなっているため、こうした情報を収集することがますます困難になってきています。トレーニングデータが存在しないということは、顔認識ツールが「知人」のみを認識することを意味し、トレーニングデータに含まれていない人物の認識精度は低くなります。

最近、鄧偉鴻の研究チームによる研究が新たな進展を遂げました。チームは、国や地域をまたいだ認識バイアスが現在の顔認識アルゴリズムの一般的な問題であることを明らかにし、バイアスの程度を評価する顔データセットRFWを構築し、認識バイアスを減らして対象領域の認識能力を向上させる情報最大化適応型ニューラルネットワークを提案しました。 10月27日、IEEE主催の国際コンピュータビジョン会議（ICCV）にて、関連する研究成果が発表されました。

顔認識ツールの地理的難しさ

畳み込みニューラルネットワークは人工知能の代表的なアルゴリズムの一つであり、強力な画像表現学習機能を備えています。 2012年、コンピュータービジョンの分野で深層畳み込みニューラルネットワークが登場しました。この登場により顔認識の発展が大きく促進され、顔認識分野の主流技術となりました。

現在、世界の顔認識ツールのほとんどは、深層畳み込みニューラルネットワーク技術に基づいて開発されていますが、この技術の顔データのソース領域は西洋人の顔の特徴に基づいています。異なるターゲット領域、つまり異なる国/地域の住民の顔情報認識ニーズに直面した場合、多くの場合「ニーズを満たすことができません」。

鄧偉宏氏は、ベンチマークライブラリの不足により、この分野の研究は長い間遅れていると述べた。顔認識ツールは、たとえローカルでは高い認識率を誇っていたとしても、世界規模で人間を正確に認識することは困難です。その結果、顔認識ツールは地域性が非常に強くなります。

この研究を推進するために、鄧偉宏の研究チームは、顔認識における偏りを科学的かつ客観的に評価するための新しいテストライブラリであるRFWを構築しました。

研究者らは、RFW データベースに基づいて、Microsoft、Amazon、Baidu、Megvii の商用 API と、学術界で最も先進的な 4 つのアルゴリズムを検証しました。

「こうした識別バイアスは確かに存在し、地域によっては誤り率が欧米諸国の2倍にも達する」と鄧偉紅氏は述べた。

論文の査読者は、既存のデータベースと比較して、RFW のデータはより均等に分散されており、国や地域をまたいだ識別のためのより優れたベンチマーク評価データになるだろうと述べています。

このバイアスがトレーニングデータの不均衡な分布によって引き起こされるかどうかを調べるために、研究者は世界のすべての地域から人間の情報を網羅したトレーニングデータベースを収集し、最終的にバイアスの発生はデータとアルゴリズムの両方によって影響を受けることを発見しました。

論文の筆頭著者で北京郵電大学の博士課程の学生である王梅氏は、データベースのトレーニングデータはバランスが取れており、アルゴリズムも同じだが、一部の国や地域では人間の顔情報の認識がより難しく、認識精度が低下すると説明した。

データが少なく顔認識が難しい場合、認識率を向上させるにはどうすればよいでしょうか?研究者たちは諦めませんでした。彼らはアルゴリズムをさらに研究し、それを使って顔認識ツールが過去の経験から学習できるようにしようと決めました。

学習は「自己認識」に依存する

従来の機械学習データベースを構築するプロセスでは、個人情報を手動でラベル付けする必要があり、この操作にはプライバシー漏洩のリスクが伴います。研究者たちは、物体認識のための教師なし領域適応法に着想を得た。

この方法では、教師なし学習を使用して、ソースドメインとターゲットドメインをドメイン不変の特徴空間にマッピングし、ターゲットドメインのパフォーマンスを向上させます。研究者たちは、機械が自ら学習できるようにするアルゴリズムを通じてこの問題を解決したいと考えています。

「これは研究者がテスト用紙を作成し、機械に答えさせるのと同じだ」と鄧偉紅氏は語った。

実装は簡単ではありません。具体的な操作レベルでは、物体認識は顔認識とは異なります。オブジェクト認識のソースドメインとターゲットドメインは重複することができ、情報の取得は比較的安価です。十分なソースドメインデータがあれば、認識ツールはターゲットドメイン情報を区別して判別できます。

そこで研究者らは情報最大化適応ネットワークを提案した。王梅氏は、この方法は、一方ではソースドメインとターゲットドメイン間のグローバル分布の違いを減らすことができ、他方では識別的なターゲットドメインの特徴を学習することができると紹介しました。

「つまり、畳み込みニューラルネットワークは、監視なしで対象領域の顔の特徴を『意識的に』学習できるのです」と王梅氏は語った。

2 つのドメイン間でカテゴリが重複しない問題を解決するために、情報最大化適応ネットワークはスペクトルクラスタリングアルゴリズムを使用して「疑似ラベル」を生成し、その疑似ラベルを使用して監視下でネットワークを事前適応させ、最初にターゲットドメインのパフォーマンスを向上させます。

このクラスタリング方式は、顔認識に適さない他のドメイン適応方法とは根本的に異なります。王梅氏は、この新しい方法は人間の介入を必要とせずに完全に新しいターゲット領域で自律的に学習できるため、プライバシー漏洩のリスクを回避できると説明した。

ネットワーク出力の識別性をさらに向上させるために、研究者らは、教師なし方式で対象領域の特徴間のマージンを大きくする、新しい相互情報量ベースの適応方法も提案した。

一般的な教師あり損失や教師あり相互情報量とは異なり、私たちの方法は、データに疑似ラベルが正常に割り当てられたかどうかに関係なく、すべてのラベルなしターゲットドメインデータを利用できるという教師なし特性を備えています。

公開データに基づく検証

このソリューションは、監督されていない状況下で、さまざまな国/地域の住民の顔情報に対する顔認識ツールの認識率を向上させることができますか?

研究者たちはこれを検証するために世界中の著名人からの公開データを使用しました。結果は、情報最大化適応ネットワークがソースドメインからの認識能力を他の国/地域のターゲットドメイン集団にうまく適用でき、認識性能が他のドメイン適応方法よりも優れていることを示しています。アブレーション実験により、相互情報損失が認識バイアスの軽減に重要な役割を果たすことが判明しました。

王梅氏は、情報最大化適応ネットワークは、クロス姿勢およびクロスシナリオアプリケーションでも優れた一般化パフォーマンスを発揮すると付け加えた。

良好な実験結果を考慮して、研究チームはさらなる研究を促進するために RFW データセットを一般に公開しました。

現在、ハーバード大学、インペリアル・カレッジ・ロンドン、清華大学、シスコ、ファーウェイ、NEC、IBMなど20か国以上の科学研究機関や企業の研究チームが、RFWを使用して多民族の顔認識研究を行うことを申請しています。

適応学習を実行する際、この方法ではモデルをトレーニングするためにソースドメインで収集されたラベル付きデータを使用する必要があることに注意してください。これは、ソースドメインデータにプライバシー漏洩のリスクがあることを意味します。ソースドメインデータを外部に送信せずにターゲットドメインで適応学習を実行する方法は、非常に価値のある研究課題となるでしょう。

鄧偉宏氏は、次のステップは、ターゲット領域のデータを収集せずに、より強力な一般化能力を備えた新しいアルゴリズムを提案し、未知のターゲット領域における顔認識ツールの精度を直接向上させることだと述べた。

関連論文情報: http://whdeng.cn/RFW/index.html

<<: AIと自動化がプロセスマイニングを改善する6つの方法

>>: かつては世界トップ50のロボット技術企業の一つだったスターロボット企業がまた一つ倒産した。