米軍のAIブラックテクノロジー：暗闇でも正確に顔を認識できる。これに不安を感じる人はいるだろうか？

[[227002]]

今日お話しするのは、「そんな手術があるの？」と第一印象でとても驚く内容ですが、よく考えてみると、非常に恐ろしいものです。

この事件は最近米軍が起こした大きなニュースです。レジスター紙のコラムニスト、ケイティ・アンナ・クッチ氏が4月17日に書いた記事によると、米陸軍研究所はAIのディープラーニング技術を利用して暗闇でも正確に顔を認識できる技術の開発に取り組んでいるという。

赤外線技術が非常に成熟したため、夜間に視力を得ることは難しくありません。この種の技術は、野生動物の写真撮影や 24 時間監視などに使用されます。熱画像と組み合わせると、夜間に目の前に立っている人が石ではなく人間であるかどうかを判断することが難しくなくなります。

しかし、照明なしで顔認識の精度を達成するのは本当に驚くべきことです。それで、米軍は具体的に何を計画しているのでしょうか?

AI+サーマルイメージング：あなたを見るだけでなく、はっきりと見ることができます

まず、サーマルイメージングは、赤外線エネルギーを非接触で検出し、それを電気信号に変換し、ディスプレイ上に画像と温度値を生成する技術であることを知っておく必要があります。熱画像装置は軍事用途で非常に一般的です。たとえば、アパッチヘリコプターなどの航空機や装甲兵員輸送車などの地上車両には、熱画像カメラが搭載されています。これにより、濃霧や夜間など視界が悪い状況でも人を検知できるようになります。

ここで問題があります。熱画像装置は夜間に活動する兵士に一対の目を提供するのと同等ですが、この一対の目は実際には一対の「近視の目」です。反対側に現れる障害物の大まかな輪郭を表示できるため、兵士はそれが人間なのか石なのかを判断できます。しかし、それだけです。目の前にいる人が敵なのか味方なのかは分かりません。

これを基に、米陸軍研究所はディープラーニングをベースにしたAI認識システムを開発しました。畳み込みニューラルネットワークの処理により、熱画像内の人物の目、鼻、唇などの境界がマークされ、顔の全体的な形状を判定できるようになります。次に、非線形回帰モデルがこれらの特徴を対応する顔の外観にマッピングします。「マルチ領域合成」と呼ばれるこのシステムは、熱画像と可視画像間の誤差を最小限に抑える損失関数を使用してトレーニングされ、比較的正確な顔の画像を構築できるようになります。

技術的な詳細解釈

最近の論文「複数の領域を使用した顔画像の熱画像から可視画像への合成」で、陸軍研究所 (ARL) の科学者であるベンジャミン S. リガン、ナサニエル J. ショート、シュオウェンフーは、軍が顔認識技術を熱画像に適用する方法をどのように開発しているかを詳しく説明しています。

技術解釈部分は論文原文をもとにAI Frontが編集したものです。

熱画像から可視光画像を合成することは、異種顔認識にとって非常に有望なアプローチであり、可視光顔データベースでトレーニングされた既存の顔認識ソフトウェアを活用し、クロススペクトルマッチングをより効率的に実行できます。この論文では、グローバル（顔全体）とローカル領域（顔の特徴）を使用して識別性を高める可視光顔画像合成方法を提案しています。

図 1 (a) 熱赤外線画像と可視光画像間のクロスモーダルマッチングタスクは、異種顔認識において常に重要な課題となっています。熱赤外線画像から合成された可視光画像と可視光画像により、より効果的なクロススペクトルマッチングと判定を実行できます。

クロススペクトル認識法には、（1）直接クロススペクトル認識と（2）クロススペクトル合成認識の2つの主なタイプがあります。本論文では、異なる顔領域の目的関数を共同で最適化し、異なる領域の表現が補完的になるようにすることで、顔の詳細を強調するクロススペクトル合成法を提案した。このマルチリージョン目的関数は、グローバル情報とローカル情報を活用して、顔の全体的な構造とローカルな顔の詳細を保持する可視光画像を合成し、クロススペクトル認識率を向上させます。

クロススペクトル認識のための複数の領域の使用

図2 アルゴリズムフレームワーク図

与えられた熱画像に対して、まず完全畳み込みニューラルネットワーク g(x) を使用して、グローバル領域 (赤) とローカル参照領域 (青、黄、緑) の特徴を抽出します。次に、特定領域のクロススペクトルマッピングを使用して、抽出された熱画像の特徴から対応する可視光画像表現を推定します。最後に、抽出された特徴と各領域の推定された特徴との間の誤差を逆伝播することにより、グローバル領域とローカル領域の勾配が更新され、可視光画像が合成されます。

この論文では、主に、事前トレーニングされた関心領域 (ROI) による複数の損失と正規化関数の影響について検討します。 ROI は任意ですが、この論文では、グローバル領域だけでなく、ローカルな識別特徴 (目、鼻、口) に対応する特徴も考慮します。

関心領域ごとに、次の目的関数を最小化します。

で

L は損失関数、R はアルファノルムと全体的な変数ペナルティ項、g は入力画像から表現特徴へのマッピング、hi は領域 i に対応するクロススペクトルマッピング関数を表します。実装では、g は完全な畳み込みニューラルネットワークであるため、入力画像のサイズを定義する必要はなく、hi は 1x1 畳み込み層で構成されます。

合成画像は、次の最適化問題を解くことによって得られます。

で：

重み w はグローバル構造とローカル詳細のバランスを取り、wi は i 番目の領域に対応します。

実験結果

合成方法の比較

合成画像と実画像の比較（上）：熱画像 - 可視光合成効果（中央）、偏光画像 - 可視光合成効果（下）。

キーポイント検出の比較：実画像（上）、熱画像と可視光合成効果（中）、偏光画像と可視光合成効果（下）。

認識効果の比較は次の表に示されています。

熱画像技術のマルチ領域合成に基づく現在のモデル精度と従来の画像精度はともに 80% を超えていることがわかります。

より詳細な技術的詳細については、元の論文を参照してください。

出典：http://arxiv.org/pdf/1803.07599.pdf

顔認識データベースが鍵です！

しかし、この顔をどうやって認識するのでしょうか?結局のところ、顔の画像を取得するだけではあまり役に立ちません。この技術の主な目的は、向かい側の人物が誰であるかを判断することです。これには、リアルタイムで生成された顔と比較するためのデータベースが必要です。

論文の著者であるリガン氏はまた、次のように強調した。

サーマルイメージングカメラを使用して顔画像を撮影する場合の主な課題は、撮影したサーマル画像を対象者の従来の可視画像の監視画像ライブラリと照合する必要があることです。

効果を上げるには、構築された画像を刑務所の受刑者やテロリストなどのデータベース内の既知の顔と照合して、対象者を識別する必要があります。つまり、このシステムを使用して撮影された顔画像は、データベース内の画像と一致する必要があります。もしこれをもっと早く適用できていれば、ボストンのテロ攻撃のような犯罪者の逮捕はそれほど困難ではなかったかもしれない。このように、現時点でこのシステムの最大の利点は、逃亡者を捕まえることにあるのかもしれません。

[[227011]]

この技術は幅広い応用が期待できそうです。しかし、米軍が喜ぶ前に、誰かがやって来て冷水を浴びせかけた。

3月にネバダ州で開催されたIEE Motivated Computer Vision Applications Conferenceでは、熱画像技術のマルチ領域合成モデルの精度と従来の画像の精度はともに80％を超えており、結果は有望に思えたが、熱画像の精度の変化により、この技術の顔合成の精度も変化するだろうと一部の研究者は考えていた。したがって、これらのアルゴリズムを現在の熱画像技術と完全に組み合わせることは依然として困難です。

興味深いのは、国内の一部メディアがこの技術を報道する際に「壁を透視する」能力を誇張して伝えていたことだ。私たちが知っておくべきことは、現在、サーマルイメージャーは壁を貫通して人体から放出される放射線を検出することはできないため、「壁を貫通する」というアイデアは単なる仕掛けに過ぎないということです。

まだ初期の進歩を遂げたばかりのこの技術にとって、こうした批判は刺激や方向性として捉えられるべきだろう。しかし、今、再び問題が起こります。この技術が成熟していても、データベースに一致する顔が十分になければ、すべてが無駄になるのではないでしょうか?

現時点では、このアルゴリズムは既存のデータベースと組み合わせることで、いくつかの問題を一時的に解決できます。しかし、より正確で広範なアプリケーションを実現したいのであれば、顔認識データベースの拡張に頼る必要があります。たとえば、Terrogence という商業組織は、何千ものテロリストの顔を含むデータベースを保有していると主張しています。このデータベースの顧客には、NSA、米国海軍情報局、政府機関などが含まれる。

この技術は、逃亡者の追跡、テロリストとの戦い、夜間作戦など、将来においても大いに役立つだろうと想像できます。

進入禁止：境界線で停止

上で驚きについてお話ししましたが、次は恐怖についてお話しします。

核兵器の最大の目的は抑止力ですが、その巨大な破壊力が人を殺すために使われたとき、アインシュタインですら後悔しました。これは、今日紹介したAI+サーマルイメージングを含むあらゆる技術が、顔認識の応用の敷居を大幅に下げたことを意味します。当初の目的にかかわらず、一般市民に危害を及ぼす可能性がある場合（特にこの技術が軍隊によって習得されている場合）、誰かがそれを監視する必要があります。

[[227012]]

あなたと友達が夜道を歩いていて、疲れた一日の後にリラックスしたひとときを過ごしているとき、交差点の赤外線カメラがあなたの 2 枚のプロフィール写真を静かにスキャンして分析し、いつ収集されたかわからないデータベース内のプロフィール写真と比較して、セキュリティ担当者による判断を下していると想像してください。

日常生活に影響はないものの、私たちの生活は常に無数の目によって監視されているという事実は、人々に深い不安を与えるでしょう。たぶん私たちは傷ついていないのかもしれない。しかし、それはおそらく、私たちがこの街で無許可のプライバシーを失ったことを意味するでしょう。個人のプライバシーが商品として取引され、莫大な利益を得られるこの時代、誰も知らないうちに商品になりたくはない。 Facebook がユーザーデータを漏洩したことに人々が怒っているのはそのためです。

したがって、この技術に対する米軍の当初の意図が何であれ、その目的は社会の暗黒要素に対処することだけであることを期待しており、国民もこの技術が厳しく監視されることを確かに期待している。同時に、政府や軍による技術の利用を制限し、技術が漏洩したり、悪意を持った人々に利用されたりしないよう努める必要がある。結局のところ、誰もが自分のプライバシーを自主的に管理する権利を持つべきであり、カメラにさらされるトゥルーマンのようになるべきではない。

<<: 年収100万ドルでもまだ足りない。AI人材はどれくらい高価なのか？

>>: 2018 年に知っておくべき 15 の人工知能統計