Megvii 顔認識ビジネス講演シリーズ - 顔認識について知っておくべきこと

Megvii 顔認識ビジネス講演シリーズ - 顔認識について知っておくべきこと

人工知能、機械学習、マシンビジョンとは具体的に何でしょうか?

顔認識と人工知能の関係は何でしょうか?人工知能はどんどん姿を隠し、人間が観察して理解することがますます困難になってきています。専門家自身でさえ、AI システムがどのように機能するかを必ずしも完全に理解しているわけではありません。そこで、Face++は本日からWeChat公式アカウント(megvii-tech)で「顔認識ビジネス講座シリーズ」を開設し、ビジネス分野における人工知能の応用について、人々に基本的かつ客観的な理解を提供することを目指します。もちろん、私たちはそれを「AIで人間をパワーアップ」とより具体的に表現したいと考えています。より多くの人々に人工知能の核心を理解してもらうために最善を尽くします。

この記事は顔認識講義シリーズの最初の記事であり、人工知能と顔認識アプリケーションに関する最も基本的な一般向け科学記事でもあります。

解釈 - 人工知能 | 機械学習 | ディープラーニング

[[174926]]

人工知能(AI)は英語ではAIと略されます。広い意味での人工知能は、実際には機械知能と同等です。一般的な説明は、機械に人間の知恵を与え、機械が人間のように考えることを学習できるようにするというものです。機械学習(ML)は人工知能の研究分野であり、主に計算と知識の自動獲得のためのアルゴリズムを設計および分析し、確率論、統計学、近似理論などの複数の分野が含まれます。ディープラーニング(DL)は、機械学習の別の分野です。これは、コンピューターアルゴリズムを使用して人間の脳のディープニューラルネットワークをシミュレートするものと理解できます。ただし、ニューラルネットワークの厳密な定義はありませんが、その特徴は、脳内のニューロン間の情報の伝達と処理のモードを模倣しようとすることです。

つまり、簡単に言えば、人工知能、機械学習、ディープラーニングは包括的です。コンピューティング能力とコンピューティング方法の探求を通じて、私たちは人工知能の本質、つまり自己学習と適応能力を備えた知的生物に近づいています。しかし、人工知能は単に数学モデルをより正確にすることだと単純に考えることはできません。機械に擬人化された能力を与えるには長い開発プロセスが必要です。結局のところ、コンピューターの誕生から現在のモバイル インターネットまでには 70 年かかりました。そして今、私たちはインテリジェント時代の転換点に触れ始めたばかりです。私たちが「今日」がインテリジェント時代の重要な時期にあると考える理由は、次の 2 つの最も重要な条件が形成されているからです。

1. コンピューティング能力は一定のレベルに達し、ムーアの法則が世界の発展を促進しました。

2. ビッグデータの蓄積とセンシング技術の成熟。

今年は人工知能の概念が提唱されてから60周年の節目の年です。ダートマス会議に参加した最後の科学者であり、人工知能の父とも呼ばれるマービン・ミンスキーも年初に亡くなりました。私たちは一つの時代の終わりを経験し、新しい時代の始まりを迎えています。ビッグデータと機械学習により、コンピューターは非常に賢くなり、特定の分野では人間の能力の限界を大幅に超えるようになりました。たとえば、Google AlphaGoは囲碁の世界チャンピオンであるイ・セドルを破りました。人工知能の目的は、コンピューターが人間とチェスをすることだけではありません。今後数十年はビッグデータによってもたらされる知能革命に直面し、機械はますます総合的な能力を獲得すると言えます。

しかし実際には、人工知能の応用範囲は奥深く、扱いにくく、複雑であり、あらゆる垂直分野への応用には想像を絶する障害を克服する必要があります。そこで、まずは脳の機能を分割し、少しずつ機械を賢くしていきます。

人間の脳は、目や耳などのさまざまな感覚を使って外部情報を感知し、判断を下す必要があります。人間の目の代わりに機械を使って測定や判断を行うことをマシンビジョンといいます。マシンビジョンは人工知能の中で最も急速に成長している分野であり、今日誰もがよく知っている顔認識技術は、マシンビジョンで最も挑戦的なトピックの 1 つです。

顔認識 - 顔検出 | 顔分析 | 顔認識

ディープラーニングが誕生する以前、顔認識の研究者はコンピューターの顔認識能力を継続的に改善・強化しようと努めていましたが、それでも人間の顔認識能力には遠く及びませんでした。ディープラーニングが顔認識技術の発展に影響を与え始めたのは 2012 年になってからであり、深層畳み込みニューラル ネットワークに基づく手法は人工知能アルゴリズムの世界記録を更新し続けました。複雑な写真から顔を素早く識別する方法は人間にとっては非常に簡単ですが、機械にとっては、顔検出、顔分析、顔認識という手順が必要です。

写真を機械に入力した後、まず顔の位置を見つける必要があります(顔検出)。次に、これに基づいて顔のキーポイント(目の中心や口の端など)を見つけて、特徴値を抽出します(顔分析)。各システムによって抽出されるキーポイントの数は大きく異なります。左右の目の中心の2つのポイントだけの場合もあれば、100近くのポイントがある場合もあります。これらのポイントの位置は、顔の幾何学的補正、つまり、拡大縮小、回転、伸縮などの画像の変更を通じて顔をより標準的なサイズと位置に変更するために使用されます。この方法により、識別される顔の領域がより規則的になり、その後のマッチングに便利になります。同時に、現在の実際のシステムには、一般的に顔の光学補正モジュールが装備されており、いくつかのフィルタリング方法を使用して、光に敏感な顔の特徴の一部を除去します。これらの前処理が完了すると、LBP、HOG、ガボールなど、さまざまな特徴が顔領域から抽出されます。最後に、関連する特徴が長い特徴ベクトルに接続され、顔の類似性が照合されます。類似性の大きさに基づいて、システムは 2 枚の写真が同一人物であるかどうかを判断します (顔認識)。したがって、顔認識のエラー率を下げるには、強力なアルゴリズムのサポートが必要です。

しかし、エラー率が低いとビジネスの世界で確固たる地位を確保できるのでしょうか?

産学連携・研究・応用——顔認識の商業応用価値

諺にもあるように、「練習すれば完璧になる」。

アルゴリズムがいかに強力であっても、実際の応用シナリオと組み合わせなければ、それは単なる空論に過ぎません。ランキングの向上や限りなく 100% に近い実験結果以外には、社会的な利益はおろか、実際の価値ももたらしません。人工知能の本来の目的は、人力に取って代わり、人間を解放してより多くの価値を生み出せるようにすることです。顔認識技術もこの基本原則に従うべきです。現在、技術の発展と市場需要の急速な拡大により、人間の顔は、リモートオンライン本人確認など、実名シナリオで必要な人的資源と物的資源を顔スキャンで置き換えるなど、多くの分野で大きな価値を発揮しています。

実際のアプリケーション シナリオでは、通常、1:1 と 1:N という 2 つの概念が言及されます。

1:1 は、大まかに言えば、あなたがあなた自身であることを証明するものと理解できます。実際、1:1 は静的な比較であり、金融​​全般の ID 認証や情報セキュリティの分野で大きな商業的価値を持つ可能性があります。たとえば、空港のセキュリティ チェックポイントでは、必ず誰かが ID カードを持ってあなたを見つめ、次に ID カードを見て、あなたがその ID カードの所有者であることを確認します。このシナリオは、典型的な 1:1 シナリオです。しかし、人間の目の認識精度は95%程度に過ぎず、長時間の作業は疲労につながりやすいため、空港の保安要員は認識精度を確保するために30分から1時間以内に交代する必要があります。顔認識技術の登場により、このシナリオにおける「本人確認」の問題は完全に解決できます。もちろん、この価値は、受験者の本人確認、ホテルのチェックイン、駅での切符と本人の認証など、実名登録が必要なあらゆるシナリオにも反映されます。

[[174927]]

個人文書検証端末は典型的な1:1アプリケーションシナリオである。

1:N のコンセプトは、N 人の中に自分自身を見つけることです。ここで、N は無数の顔情報を含むデータベースなので、コンピューターが行う必要があるのは、無数の顔の中からあなたが誰であるかを見つけることです。 1:N は、動的比較と非協力という特徴を持っています。いわゆる動的とは、認識されるものが写真や画像ではなく、動的なビデオ ストリームであることを意味します。非協力とは、認識対象がカメラの位置を感知せずに認識範囲内に入ってくる限り、認識作業を完了できることを意味します。これら 2 つの特性により、機械は露出オーバー、逆光、側面、長距離などの課題に直面するため、1:N は静的な 1:1 よりもはるかに困難になります。

[[174928]]

Face++のスマートアクセス制御は典型的な1:Nアプリケーションシナリオです

業界のアプリケーションでは、1:1 は金融、本人確認、情報セキュリティの分野でより一般的に使用されており、精度とセキュリティが特徴です。 1:Nの主な応用分野は、ビジネス、セキュリティなどです。たとえば、ある女性がバッグを買うためにショッピングモールに行ったのですが、店員は彼女が会員かどうかを知りません。マシンビジョン技術を使用すれば、店員が変わったかどうかに関係なく、顧客が入店すると、その顧客の情報が店員にプッシュされ、正確な推奨が可能になります。これは、商業分野における VIP 顧客識別におけるマシンビジョンの典型的な応用例です。セキュリティ分野での応用には、公共の場所の動的な監視、逃亡者の逮捕、人員管理などがあります。

顔認識技術の成熟により、コンピューターが人間の目に取って代わり、人物の確認や発見の労力の大部分を代替することが可能になったとはいえ、深刻な状況では顔認識を唯一の検証方法として使用することはできないことに留意すべきである。例えば、逃亡者が公共の場で動的に監視されているとき、外部環境からの干渉により、5 人の容疑者が同時に現れることがあります。このとき、識別と確認のプロセスを一緒に完了するには、人間の支援が必要です。また、企業アプリケーションでは、機密性が高い場所では、顔認識とカードスワイプの二重認証を使用してセキュリティを確保できます。

確かなのは、人間の目の効率と比較すると、人工知能の顔認識能力は人間のそれをはるかに上回っているということです。しかし、これは機械が間違いをしないという意味ではありません。そのため、顔認識の合格率を正確に表すために「エラー率」という特別な用語があります。Face++の場合、日常生活の応用シナリオを満たすことができる1万分の1のエラー率で98%の合格率を達成することは完全に可能です。結局のところ、人工知能の重要性は、人間にさらに強力な能力を与え、人間がより効率的に働けるように支援することです。冒頭で述べたように、AI で人間を強化することであり、人間に取って代わることではありません。

<<:  AI、ビッグデータ、データサイエンス向けトップ10アルゴリズム

>>:  公安部経済調査局長:経済犯罪を研究するにはビッグデータアルゴリズムを使う必要がある

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

データセンターにおける AI の未来

人工知能 (AI) はもはや未来的な概念ではなく、スーパーマーケットの物流から医療研究まで、ビジネス...

2020年までに、iPhoneでは画面指紋認証と顔認証が共存するようになるかもしれない

数日後には、2019 年の新しい iPhone シリーズが登場します。iPhone が Face I...

2018 年のビッグデータのトレンド: 人工知能... データ分析には視覚化モデルが含まれます...

導入ノートパソコン、スマートフォン、センサーはすべて、モノのインターネット向けに大量のデータを生成し...

顔認識ブームは沈静化すべきでしょうか?

北京地下鉄は昨年11月から、セキュリティチェックに顔認識技術を使用する試験運用を開始し、ブラックリス...

...

...

ディープラーニングの専門家になるにはどうすればいいですか?このアリ天池大会の優勝者はあなたのためにプロとしての成長の道を計画しました

[[209722]]ディープラーニングは本質的には深層人工ニューラルネットワークです。これは孤立した...

...

研究者たちは建設における人工知能の利用を研究している

過去数十年にわたり、AI ツールは、コンピューター サイエンスから製造、医学、物理学、生物学、さらに...

セキュリティにおける AI の必要性: 機械学習から機械の作成まで

セキュリティ専門家は、自分の仕事が人工知能に置き換えられることを心配する必要があるのでしょうか?警備...

...

AI対応データセンターは急速に成長すると予想

企業の人工知能に対する飽くなき需要により、計算集約型の AI アプリケーションを処理するために設計さ...

...