AI顔認識の分野で新たなビジネスが開拓されているのでしょうか? 今回の課題は、第二次世界大戦の古い写真に写っている顔画像を識別することです。 最近、グーグルのソフトウェアエンジニアであるダニエル・パット氏は、第二次世界大戦やホロコースト以前のヨーロッパの写真を認識し、現代の人々と結び付けることができるN2N(Numbers to Names)と呼ばれるAI顔認識技術を開発した。 AIを使って行方不明の親戚を探す2016年、パットさんはワルシャワのポーランド系ユダヤ人記念碑を訪れていたとき、あるアイデアを思いつきました。 これらの奇妙な顔は私と血縁関係があるのでしょうか? 彼の祖父母のうち3人はポーランド出身のホロコースト生存者であり、彼は祖母がナチスに殺害された家族の写真を見つけるのを手伝いたいと考えていた。 第二次世界大戦中、ポーランドのユダヤ人の数が多かったため、その多くがさまざまな強制収容所に収監され、その行方は不明でした。 黄ばんだ写真だけでは、行方不明の親戚を見つけるどころか、顔を特定するのも困難です。 そこで彼は家に帰り、すぐにこのアイデアを現実のものにしたのです。 このソフトウェアの当初のアイデアは、データベースを通じて顔画像情報を収集し、人工知能アルゴリズムを使用して、類似度が最も高い上位 10 個のオプションを一致させることでした。 画像データの大部分は米国ホロコースト記念博物館から提供されており、全国のデータベースから収集された100万枚以上の画像が含まれています。 ユーザーはコンピューター ファイルから画像を選択し、アップロードをクリックするだけで、システムによって最も一致する画像を含む上位 10 個のオプションが自動的にフィルタリングされます。 さらに、ユーザーはソースアドレスをクリックして、画像の年、場所、美術館などの情報を表示することもできます。 問題の一つは、現代の人物の画像を入力すると、検索結果もとんでもないものになる可能性があることです。 これが結果ですか? (黒い疑問符) つまり、システム機能の改善が必要です。 Patt は、Google の他のソフトウェア エンジニアやデータ サイエンティストのチームとも協力して、検索の範囲と精度の向上に取り組んでいます。 顔認識システムはプライバシー漏洩のリスクがあるため、パット氏は「当社は本人確認は行いません。類似度スコアを付した結果を提示し、ユーザーが自分で判断できるようにすることだけが当社の責任です」と述べた。 AI顔認識技術の開発では、この技術はどうやって顔を認識するのでしょうか? 当初、顔認識技術は「検出された画像が顔であるかどうかをどうやって判定するか」というところからスタートしなければなりませんでした。 2001 年、コンピューター ビジョン研究者のポール ビオラとマイケル ジョーンズは、高精度でリアルタイムに顔を検出するフレームワークを提案しました。 このフレームワークは、トレーニング モデルに基づいて「何が顔で、何が顔でないか」を理解できます。 トレーニングが完了すると、モデルは特定の特徴を抽出し、それをファイルに保存して、新しい画像の特徴をさまざまな段階で以前に保存された特徴と比較できるようになります。 精度を確保するには、アルゴリズムを「数十万枚の正画像と負画像を含む大規模なデータセット」でトレーニングする必要があり、これにより、画像内に顔があるかどうか、またその位置を判定するアルゴリズムの能力が向上する。 調査中の画像が特徴比較の各段階を通過すると、顔が検出され、操作を続行できます。 Viola-Jones フレームワークは、リアルタイム アプリケーションで高精度に顔を認識するために使用できますが、一定の制限があります。 たとえば、顔がマスクを着用している場合や、顔の向きが正しくない場合、フレームワークが機能しない可能性があります。 Viola-Jones フレームワークの欠点を解決し、顔検出を改善するために、彼らは他のアルゴリズムを開発しました。 プロセスの改善に役立つ、領域ベースの畳み込みニューラル ネットワーク (R-CNN) やシングル ショット検出器 (SSD) など。 畳み込みニューラル ネットワーク (CNN) は、画像認識と処理に使用される人工ニューラル ネットワークであり、特にピクセル データを処理するために設計されています。 R-CNN は、CNN フレームワーク上で領域提案を生成し、画像内のオブジェクトを特定して分類します。 R-CNN などの領域提案ネットワーク ベースの方法では、領域提案を生成するためのショットと、各提案内のオブジェクトを検出するためのショットの 2 つが必要ですが、SSD では、画像内の複数のオブジェクトを検出するのに 1 つのショットのみが必要です。したがって、SSD は R-CNN よりも大幅に高速です。 近年、ディープラーニング モデルを活用した顔認識技術は、従来のコンピューター ビジョン手法を大幅に上回る性能を発揮しています。 初期の顔認識では主に従来の機械学習アルゴリズムが使用されており、研究ではより識別力の高い特徴を抽出する方法や顔をより効果的に整列させる方法に重点が置かれていました。 研究が深まるにつれ、2次元画像での顔認識における従来の機械学習アルゴリズムの性能向上は徐々にボトルネックになってきました。 人々はビデオの顔認識の問題に目を向け始め、または3次元モデル手法を組み合わせて顔認識のパフォーマンスをさらに向上させ始め、一部の学者は3次元顔認識の問題を研究し始めました。 最も有名なLFW公共図書館では、ディープラーニングアルゴリズムが2次元画像での顔認識性能における従来の機械学習アルゴリズムのボトルネックを突破し、初めて認識率を97%以上に向上させました。 つまり、「CNNネットワークによって構築された高次元モデル」を使用することで、入力された顔画像から有効な識別特徴を直接抽出し、コサイン距離を直接計算して顔認識を実行します。 顔検出は、基本的なコンピューター ビジョン技術から機械学習 (ML) の進歩、さらに高度化する人工ニューラル ネットワーク (ANN) や関連技術へと進化し、パフォーマンスが継続的に向上しています。 現在、顔追跡、顔分析、顔認識など、多くの主要なアプリケーションの最初のステップとして重要な役割を果たしています。 第二次世界大戦中、中国も戦争のトラウマに苦しみ、当時撮影された写真に写っている人々の多くは、もはや誰だか分からない状態になっている。 戦争によるトラウマを抱えた私たちの祖父母の世代の多くは、多くの親戚や友人を失いました。 この技術の開発により、人々は埃をかぶった過去を掘り起こし、過去の人々に慰めを見出すことができるようになるかもしれない。 参照: https://www.timesofisrael.com/google-engineer-identifies-anonymous-faces-in-wwii-photos-with-ai-facial-recognition/ |
<<: PyTorch 1.12 がリリース、Apple M1 チップ GPU アクセラレーションを正式にサポート、多くのバグを修正
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
ディープ畳み込みニューラル ネットワーク (CNN) は、さまざまな競合ベンチマークで最先端の結果を...
昨年、Xiaomi がジョンズ・ホプキンス大学の人工知能の専門家であるダニエル・ポービー氏を採用した...
人工知能が IT 組織に与える影響を検討する場合は、まず自分の仕事から始めるとよいでしょう。あなたが...
人工知能 (AI) は研究と産業の両方で驚異的な成長を遂げ、科学、医学、金融、教育など多岐にわたる分...
最近発表された論文で、チューリング賞受賞者のヨシュア・ベンジオ氏らは、チームの現在の研究の焦点である...
01 データキャプチャ1. 背景調査1) robots.txt をチェックして、サイトのクロールにど...
夢の中で目覚めるという不思議な体験をしたことがありますか?その時点では、周囲に夢があるのを感知できる...
最も先駆的で影響力のあるキューエンジニアリング技術の 1 つである Chain of Thought...
AI には、CRM に関連する手動プロセスから組織を解放し、顧客エンゲージメント、販売分析情報、ソー...
北京大学チームの最新の研究結果: ランダムトークンは、大規模なモデルで幻覚を引き起こす可能性がありま...
製薬業界の専門家は、人工知能(AI)が2021年に業界で最も破壊的な技術になると考えています。臨床開...
近年、人工肉は急速に発展していますが、本物の肉と比較すると、味や食感にはまだ明らかな差があります。最...
間違ったストレージ AI プラットフォームを採用すると深刻な影響が生じる可能性があるため、製品の選択...
[[434282]] NVIDIA の秋の GTC カンファレンスが正式に開幕しました。 NVIDI...