世界最大の公開顔データセット | 清華大学と信義科技が共同リリース

世界最大の公開顔データセット | 清華大学と信義科技が共同リリース

[[387945]]

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

顔認識の分野では、中国チームが再び好成績を達成した。

世界最大の顔データセットが公開されました。

初めて、数百万のID数億枚の画像が含まれています。

これは、 Xinyi Technology清華大学オートメーション学部のインテリジェントビジョン研究室と協力して発表したWebFace 260Mです。関連研究はCVPR 2021に採択されています。

さらに、クリーンアップされたデータセットWebFace42Mに基づいて、最も困難な IJBC テスト セットで SOTA レベルに到達しました。

そして、それがもたらす「世界最高」はそれ以上のものです。

このデータセットに基づき、Xinyi Technology は最新の NIST-FRVT リストにおけるマスク顔認識評価で世界第 1 位を獲得しました。

世界最大の顔データセットはどのようなものなのでしょうか?

WebFace260M データセットは、世界中のインターネット上の公開顔データに完全に基づいています。

その登場により、これまでの顔データセットの規模が一気に破られました。

規模が過去最大なだけでなく、顔IDと写真の数がそれぞれ400万件、2億6000万件に達したのも初めてです。

さらに、研究者らは、自己トレーニングの完全自動反復に基づくクリーニングプロセス(Cleaning Automatically by Self-Training、CAST) も提案しました。このアプローチは、インターネットの顔データの観察と分析からヒントを得ています。

WebFace260M データは大まかな分類を提供し、クリーニング アルゴリズムの初期構造として使用できます。さらに研究者らは、埋め込まれた特徴が大規模なノイズの多い顔データをクリーンアップする上で非常に重要であり、データとモデルを同時に反復処理することでこの機能を強化できることを発見しました。したがって、クリーニングプロセス全体を下の図に示します。

  • まず、MS1M と呼ばれる公開データセットを使用して「教師モデル」をトレーニングし、元の WebFace260M をクリーンアップします。
  • 次に、「学生モデル」を使用して、前のステップでクリーンアップされた画像をトレーニングします。
  • 最後に、「生徒モデル」を「教師モデル」に切り替えて、高品質の WebFace42M が得られるまで繰り返します。

このようにして、WebFace260M をクリーニングした後、 WebFace42Mが得られました。

これは、トレーニングに直接使用できる世界最大のクリーンフェイスデータセットであると報告されています。

200 万の ID と 4,200 万の画像が含まれています。

世界中の WebFace260M と WebFace42M のデータ比較は一目瞭然です。

同時に、顔認識の現在の評価問題に対応するため、研究者らは、より実用に近い「時間制約付き顔認識評価基準」FRUITS(Face Recognition Under Inference Time conStraint)と、より広い分布、より挑戦的でより詳細な分類を備えた顔テストセットを発表し、顔認識評価を実際のシナリオに近づけています。

同時に、研究者はテストセットと評価システムの維持、反復、アップグレードを継続し、業界の技術開発を継続的に推進していきます。

この種のデータセットは役に立ちますか?

この質問に対する答えは「はい」であり、それは非常に専門的に実践され、認められている種類のものです。

WebFace42M を例にとると、現在公開されている最も難易度の高い IJBC テスト セットで新しい SOTA を達成でき、相対エラー率が 40% 削減されます。

さらに、米国国立標準技術研究所が主催し、常に「顔認識の黄金コンペティション」として知られているNIST-FRVTというコンペティションがあります。

評価セットが非公開であること、提出頻度が厳しく制限されていること、計算時間も厳しく制限されていることなど、多くの厳しい要件があるため、世界で最も厳格で権威のある顔認識アルゴリズムの評価と言えます。

では、WebFace42M のデータがこのような困難な出来事に遭遇すると、どのような火花が散るのでしょうか?

昨年 10 月には、WebFace42M データのみを使用して、Xinyi Technology は NIST-FRVT リストで上位 3 位にランクされました。

最新のNIST-FRVTリストでは、WebFace42Mをベースに、「マスク着用での顔認識評価」で再び「世界記録」を樹立し、優勝を果たしました。

そして、データから、結果が 2 位の結果よりも 2 桁高いことが分かるのは難しくありません。

さらに、1:1顔認識評価においても世界トップ3に入る総合順位を獲得しました。

なぜこのようなデータセットを作成するのでしょうか?

顔認識、この技術は本当に人気があると言えます。

非常に普及し、人々の日常生活に入り込んでおり、出勤、ドアの開錠、携帯電話のロック解除など、あらゆる場面で使用できるようになっています。

このため、学界と産業界の研究者たちは、顔認識の精度と速度を向上させるために競い合っています。

調査によると、顔データセットは上記に最も大きな影響を与えます。特に、ディープラーニングを中核とする現在の人工知能研究開発モデルでは、ソフトウェア開発は、従来のソフトウェア 1.0 から「データはコード、モデルはソフトウェア」というデータ中心のソフトウェア 2.0 時代へと徐々に移行していきます。

ただし、データセットに関しては、現在の状況は次のとおりです。

公開データの規模と実際の顔認識システムに必要なデータの規模には大きなギャップがあります

なんと言えばいいでしょうか?

例えば、WebFace260M がリリースされる前は、公開データの規模は比較的小さく、それ以前の最大のものはMegaFace2MS1Mでした。

MegaFace2には672,000のIDと470万枚の画像があり、MS1Mには100,000のIDと1000万枚の画像があります。

科学研究者にとって、このような大量の公開データは、実際の顔認識システムのデータニーズを満たすにはほど遠いものです。

同時に、これは顔認識技術の発展を制限するボトルネックの 1 つにすぎません。評価基準テスト セットも重要な要素です。

現在、LFW、CFP、AgeDB、RFW、MegaFace、IJBシリーズなど、公開されている顔認識評価セットは、精度の面で基本的に飽和状態に達しています。

同時に、さまざまなシナリオで詳細が不十分であるという問題が依然として残っています。

そのため、WebFace260M、WebFace42Mおよび関連ベンチマークの発表は、公開データセットの規模と実際のアプリケーション業界との間のギャップをある程度縮め、ディープラーニングを中核とする顔認識関連技術の進歩をさらに促進し、インテリジェント産業の繁栄と発展を促進したと言えます。

規模のブレークスルーと比較して、より大きな意義は「善のためのテクノロジー」「データエコロジー」にあるはずです。

数年にわたる開発を経て、顔認識技術や人工知能技術は大きな進歩を遂げ、大きな社会経済的価値を生み出しましたが、技術の発展に伴って多くの社会問題も発生しています。

チームは、このデータセットと関連作業の確立を通じて、業界や社会のあらゆる分野と協力して、顔認識のテストとアプリケーションの標準を構築し、顔認識アプリケーション市場を規制し、顔認識アプリケーションの混乱をコントロールし、テクノロジーを善のために使用し、人工知能テクノロジーの価値と温かさを強調できることを期待しています。

[[387946]]

さらに、デジタル経済とインテリジェンスが急速に発展している今日の時代では、デジタルリソースは水や電気のような必需品となっています。同時に、デジタルリソースは石油と同じくらい価値があり、計画的に生産、使用、共有、取引される必要があります。

しかし現状は、国内外でこの点に対する関心が全体的に不十分であり、具体的には業界規範が標準化されておらず、共有が不十分で、長期的な計画がなく、それがデジタル経済とインテリジェンスの発展を阻害している。

現在、国家レベルではデータセットの革新と標準化を強く奨励し、重視しています。清華大学と信義科技の研究者も国の呼びかけと政策要件に積極的に応え、国、政府機関、学界、産業界と協力して、インテリジェント時代のオープンで共有された安全なデータエコシステムを構築したいと考えています。

ウェブサイトアドレス:

https://www.face-benchmark.org

論文の宛先:

https://arxiv.org/abs/2103.04098

<<:  誰が私たちの個人情報をスパイしているのでしょうか?顔認識の悪用

>>:  畳み込みなしでTransformerのみをベースにした初のビデオ理解アーキテクチャがリリースされました

ブログ    
ブログ    
ブログ    

推薦する

AI搭載マシンが製造業の産業自動化を加速させる方法

今日、人工知能と機械学習は製造業界における変化の重要な原動力となっています。人工知能と機械学習により...

...

第1回世界情報会議は6月29日〜30日に天津で開催される。

【51CTO北京ニュース】2017年6月6日、北京で第1回世界インテリジェンス大会の記者会見が開催...

3Dタスク(知覚、推論、計画、行動)に精通した初の具現化されたジェネラリストエージェント

汎用人工知能へと進むには、人間の生活の現実世界を理解し、豊富なスキルを習得できる具現化された汎用イン...

Nature: AI はなぜいつも差別的なのか?

[[241142]]ビッグデータダイジェスト制作編集者: Hu Jia、Wang Yiding、X...

人間が世界を理解するのに近づく:研究者はAIに「想像力」を与える

オレンジ色の猫を想像してください。次に、その猫の毛が黒だけであることを想像してください。そして、万里...

人工知能の時代にはどんな教師が必要なのでしょうか?

「私の仕事はロボットに置き換えられるのでしょうか?」人工知能の急速な発展により、ますます多くの人々...

言語間、人間の声と犬の鳴き声の相互変換をサポートし、最も近いものだけを使用するシンプルな音声変換モデルはどれほど素晴らしいか

AIが関わる音声の世界はまさに魔法のようです。ある人の声を別の人の声に置き換えるだけでなく、動物と声...

...

第3回世界情報会議は5月16日に開催されます。主な特徴は次の5つです。

北京、天津、河北の協調的発展を積極的に推進し、世界の知能分野における科学技術交流と協力を強化し、新興...

9つのディープラーニングアルゴリズムの紹介

1. 2段階アルゴリズム2 段階アルゴリズムには、候補ボックスの選択とターゲットの分類/位置の修正...

AIと5Gテクノロジーがスマートグリッドのセキュリティ課題解決に貢献

[[334279]]この記事の主な内容:マイクログリッド、発電機、太陽光パネルなどのスマートグリッド...

フェイフェイ・リーがツイッターの取締役に就任:AI技術を活用して変革を推進し続ける

[[325837]] Twitterは北京時間5月12日、スタンフォード大学のコンピューターサイエン...

画像からの「テキスト生成」の難しさを克服し、同レベルの拡散モデルを粉砕せよ! TextDiffuser アーキテクチャの 2 世代の詳細な分析

近年、テキスト生成画像、特に詳細レベルでリアルな効果を示す拡散ベースの画像生成モデルの分野で大きな進...

GoogleはDeepMind AIを使用して何千もの新しい素材を分析および予測しました

IT Homeは11月30日、GoogleのDeepMindが人工知能(AI)を使って200万以上の...