虐殺後に行方不明になった親族をAIで探す！ Googleのエンジニアが第二次世界大戦の70万枚以上の古い写真を識別できる顔認識プログラムを開発

AI顔認識の分野で新たなビジネスが開拓されているのでしょうか？

今回の課題は、第二次世界大戦の古い写真に写っている顔画像を識別することです。

最近、グーグルのソフトウェアエンジニアであるダニエル・パット氏は、第二次世界大戦やホロコースト以前のヨーロッパの写真を認識し、現代の人々と結び付けることができるN2N（Numbers to Names）と呼ばれるAI顔認識技術を開発した。

AIを使って行方不明の親戚を探す

2016年、パットさんはワルシャワのポーランド系ユダヤ人記念碑を訪れていたとき、あるアイデアを思いつきました。

これらの奇妙な顔は私と血縁関係があるのでしょうか?

彼の祖父母のうち3人はポーランド出身のホロコースト生存者であり、彼は祖母がナチスに殺害された家族の写真を見つけるのを手伝いたいと考えていた。

第二次世界大戦中、ポーランドのユダヤ人の数が多かったため、その多くがさまざまな強制収容所に収監され、その行方は不明でした。

黄ばんだ写真だけでは、行方不明の親戚を見つけるどころか、顔を特定するのも困難です。

そこで彼は家に帰り、すぐにこのアイデアを現実のものにしたのです。

このソフトウェアの当初のアイデアは、データベースを通じて顔画像情報を収集し、人工知能アルゴリズムを使用して、類似度が最も高い上位 10 個のオプションを一致させることでした。

画像データの大部分は米国ホロコースト記念博物館から提供されており、全国のデータベースから収集された100万枚以上の画像が含まれています。

ユーザーはコンピューターファイルから画像を選択し、アップロードをクリックするだけで、システムによって最も一致する画像を含む上位 10 個のオプションが自動的にフィルタリングされます。

さらに、ユーザーはソースアドレスをクリックして、画像の年、場所、美術館などの情報を表示することもできます。

問題の一つは、現代の人物の画像を入力すると、検索結果もとんでもないものになる可能性があることです。

これが結果ですか？（黒い疑問符）

つまり、システム機能の改善が必要です。

Patt は、Google の他のソフトウェアエンジニアやデータサイエンティストのチームとも協力して、検索の範囲と精度の向上に取り組んでいます。

顔認識システムはプライバシー漏洩のリスクがあるため、パット氏は「当社は本人確認は行いません。類似度スコアを付した結果を提示し、ユーザーが自分で判断できるようにすることだけが当社の責任です」と述べた。

AI顔認識技術の開発

では、この技術はどうやって顔を認識するのでしょうか?

当初、顔認識技術は「検出された画像が顔であるかどうかをどうやって判定するか」というところからスタートしなければなりませんでした。

2001 年、コンピュータービジョン研究者のポールビオラとマイケルジョーンズは、高精度でリアルタイムに顔を検出するフレームワークを提案しました。

このフレームワークは、トレーニングモデルに基づいて「何が顔で、何が顔でないか」を理解できます。

トレーニングが完了すると、モデルは特定の特徴を抽出し、それをファイルに保存して、新しい画像の特徴をさまざまな段階で以前に保存された特徴と比較できるようになります。

精度を確保するには、アルゴリズムを「数十万枚の正画像と負画像を含む大規模なデータセット」でトレーニングする必要があり、これにより、画像内に顔があるかどうか、またその位置を判定するアルゴリズムの能力が向上する。

調査中の画像が特徴比較の各段階を通過すると、顔が検出され、操作を続行できます。

Viola-Jones フレームワークは、リアルタイムアプリケーションで高精度に顔を認識するために使用できますが、一定の制限があります。

たとえば、顔がマスクを着用している場合や、顔の向きが正しくない場合、フレームワークが機能しない可能性があります。

Viola-Jones フレームワークの欠点を解決し、顔検出を改善するために、彼らは他のアルゴリズムを開発しました。

プロセスの改善に役立つ、領域ベースの畳み込みニューラルネットワーク (R-CNN) やシングルショット検出器 (SSD) など。

畳み込みニューラルネットワーク (CNN) は、画像認識と処理に使用される人工ニューラルネットワークであり、特にピクセルデータを処理するために設計されています。

R-CNN は、CNN フレームワーク上で領域提案を生成し、画像内のオブジェクトを特定して分類します。

R-CNN などの領域提案ネットワークベースの方法では、領域提案を生成するためのショットと、各提案内のオブジェクトを検出するためのショットの 2 つが必要ですが、SSD では、画像内の複数のオブジェクトを検出するのに 1 つのショットのみが必要です。したがって、SSD は R-CNN よりも大幅に高速です。

近年、ディープラーニングモデルを活用した顔認識技術は、従来のコンピュータービジョン手法を大幅に上回る性能を発揮しています。

初期の顔認識では主に従来の機械学習アルゴリズムが使用されており、研究ではより識別力の高い特徴を抽出する方法や顔をより効果的に整列させる方法に重点が置かれていました。

研究が深まるにつれ、2次元画像での顔認識における従来の機械学習アルゴリズムの性能向上は徐々にボトルネックになってきました。

人々はビデオの顔認識の問題に目を向け始め、または3次元モデル手法を組み合わせて顔認識のパフォーマンスをさらに向上させ始め、一部の学者は3次元顔認識の問題を研究し始めました。

最も有名なLFW公共図書館では、ディープラーニングアルゴリズムが2次元画像での顔認識性能における従来の機械学習アルゴリズムのボトルネックを突破し、初めて認識率を97％以上に向上させました。

つまり、「CNNネットワークによって構築された高次元モデル」を使用することで、入力された顔画像から有効な識別特徴を直接抽出し、コサイン距離を直接計算して顔認識を実行します。

顔検出は、基本的なコンピュータービジョン技術から機械学習 (ML) の進歩、さらに高度化する人工ニューラルネットワーク (ANN) や関連技術へと進化し、パフォーマンスが継続的に向上しています。

現在、顔追跡、顔分析、顔認識など、多くの主要なアプリケーションの最初のステップとして重要な役割を果たしています。

第二次世界大戦中、中国も戦争のトラウマに苦しみ、当時撮影された写真に写っている人々の多くは、もはや誰だか分からない状態になっている。

戦争によるトラウマを抱えた私たちの祖父母の世代の多くは、多くの親戚や友人を失いました。

この技術の開発により、人々は埃をかぶった過去を掘り起こし、過去の人々に慰めを見出すことができるようになるかもしれない。

参照: https://www.timesofisrael.com/google-engineer-identifies-anonymous-faces-in-wwii-photos-with-ai-facial-recognition/

<<: PyTorch 1.12 がリリース、Apple M1 チップ GPU アクセラレーションを正式にサポート、多くのバグを修正

>>: チャットボットをよりエレガントに設計する方法

虐殺後に行方不明になった親族をAIで探す！ Googleのエンジニアが第二次世界大戦の70万枚以上の古い写真を識別できる顔認識プログラムを開発

AIを使って行方不明の親戚を探す

AI顔認識技術の開発

外国企業が人間の介入を必要としないAI犬訓練機を開発

サムスンの「人工人間」プロジェクトが暴露！エフェクトは非常にリアルなので、新しい表現や動作を自律的に生成することができます。

MIT: この AI ソックスはあなたの行動を明らかにします | Nature サブジャーナル

2018年、中国とアメリカのインターネット大手によるAIチップ戦争で、BATはFANGに挑戦できるのか？

AI 導入の謎を解明: クラウドとエッジ

ユーザー投票に基づくランキングアルゴリズム: Delicious と Hacker News

COVID-19パンデミックの中、米国の産業界ではロボットがアメリカ人の雇用を急速に置き換えている

独自のロジックと優れた AI テクノロジーを備えた Kuaishou は、1 日あたり 1 億 6,000 万人のアクティブユーザーと 1 日あたり 1,500 万件を超えるアップロードを誇ります。

アルゴリズムモデルの自動ハイパーパラメータ最適化手法

顔認識を行うときになぜ服を着なければならないのですか?

推薦する

バブルアルゴリズムよりも単純なソートアルゴリズム：バグだらけに見えるプログラムが実は正しい

2021 年に注目すべき最新テクノロジートレンドトップ 10

「顔認識」に関する法的問題

インスピレーションプログラミング: 最大公約数アルゴリズムの分析

Testin Cloud TestingがHuawei Hongmeng HarmonyOSイノベーションソリューションチーム賞を受賞

3D編集をPhotoshopと同じくらい簡単に。新しいアルゴリズムGaussianEditorは、3Dシーンの追加、削除、変更を数分で完了できます。

無料の Python 機械学習コースパート 3: 多項式回帰

新しい小売業界における人工知能の応用

バードがグーグル一家を爆破！歴史上初めて、大規模なモデルが自己検査のためにオンラインで公開され、電子メール、地図、文書、ビデオがすべて利用可能になりました。

「模倣学習」とは、決まり文句を使うことだけでしょうか?説明: 微調整 + 130億のパラメータ Orca: 推論能力はChatGPTに匹敵

Apple M3全シリーズのランニングスコアを公開！ 16コアのMaxが24コアのM2 Ultraを上回り、IntelとAMDの主力CPUと並ぶ

AIはどれほど強力でしょうか?人間とロボットが「真・偽の孫悟空」を演じる