CV退化!心理学者が顔認識を学び、世界中の表情を区別するために600万本のビデオを訓練

CV退化!心理学者が顔認識を学び、世界中の表情を区別するために600万本のビデオを訓練

世界中の人々は笑ったり悲しんだりするときに同じ表情をしますか?

[[402741]]

人々の表情が一貫しているのは当然のことです。たとえば、ブラジル、インド、カナダのいずれの出身であっても、親しい友人に会ったときの笑顔や花火大会を見たときの興奮は基本的に同じです。

しかし、これは本当に合理的なのでしょうか?顔の表情と関連する文脈との関連性は、地理的地域を超えて本当に普遍的なものなのでしょうか?笑顔やしかめっ面は文化によってどのように違うのでしょうか。また、それらは人々の相互関係について何を物語っているのでしょうか。

これらの疑問に答え、人々が文化や地理を超えてどの程度つながっているかを明らかにしようとする科学者は、現地の言語、道徳規範、価値観に大きく依存する調査に基づく研究をよく利用します。そして、そのような研究は拡張性がなく、多くの場合、サンプル数が少なく、結果に一貫性がなくなります。

顔の動きのパターンを研究することで、調査に基づく研究よりも、表情豊かな人間の行動をより直接的に理解することができます。

しかし、日常生活で実際に使用するために顔の表情を分析するには、研究者が何百万時間もの現実世界の映像を精査する必要があり、これは非常に退屈で、多くの手作業を必要とする作業です。

さらに、顔の表情とそれが表される状況は複雑であり、統計的に信頼できる結論を導き出すには大規模なサンプルが必要になります。

既存の研究では、特定の状況における表情の普及に関する質問に対してさまざまな答えが得られていますが、機械学習技術を使用して研究を拡大すると、異なる、より明確な答えが得られるかもしれません。

2019年にネイチャー誌に掲載された論文「世界中で16の表情が類似した状況で発生」は、ディープニューラルネットワークを用いて表情分析を拡張し、日常生活における表情の実際の使用状況を初めて大規模かつ世界規模で分析した論文です。

この論文では、144か国から集められた600万本の公開ビデオのデータセットを使用して、人々がさまざまな表情を使用する状況を分析し、微妙な表情を含む顔の行動の豊かなニュアンスが世界中の同様の社会的状況で使用されていることを示しています。

顔の表情を測定するディープ ニューラル ネットワーク 顔の表情は静的なものではありません。ある人が別の人の表情を見ると、最初は怒りのように見えても、その人の表情の力学に応じてさまざまな解釈が生まれ、畏敬の念、驚き、または混乱に変わることがあります。

したがって、顔の表情を理解するニューラル ネットワークを構築する際の課題は、その表情を時間的なコンテキストで解釈する必要があることです。このようなシステムをトレーニングするには、表現の意味を完全に説明された大規模で多様な異文化ビデオ データセットが必要です。

データセットを構築するために、注釈者は公開されている幅広いビデオを手動で検索し、事前に選択したカテゴリをカバーする表現が含まれている可能性のあるビデオを特定しました。

ビデオが表す地域と一致するように、ビデオの選択では元の地理的位置を含むビデオが優先されます。

動画内の顔は、Google の Cloud Face Detection API に似た深層畳み込みニューラル ネットワーク認識システムを使用して検出されました。このシステムは、従来のオプティカル フロー ベースのアプローチを使用して動画クリップ内の顔を追跡します。

Google のクラウドソーシング プラットフォームに似たインターフェースを使用して、クリップ中の任意の時点で顔の表情が現れた場合、注釈者はそれを 28 の異なるカテゴリに分類しました。

平均的な人が表現をどのように解釈するかをサンプリングすることが目的であったため、注釈者は指導やトレーニングを受けず、注釈の例や定義も提供されませんでした。

これらの注釈からトレーニングされたモデルに偏りがあるかどうかを評価するための追加の実験について説明します。

顔検出アルゴリズムは、ビデオ全体の各顔の位置のシーケンスを構築します。次に、事前にトレーニングされた Inception ネットワークを使用して特徴を抽出し、顔の表情を表す最も顕著な部分を見つけます。

これらの特徴は、時間の経過とともに顔の表情がどのように変化するかをモデル化し、過去に顕著だった情報を記憶できる再帰型ニューラルネットワークである長短期記憶ネットワーク(LSTM)に入力されました。

モデルがさまざまな人口統計グループにわたって一貫した予測を行うことを保証するために、16 の表情の中で最もパフォーマンスの高い表情をターゲットにして、類似の表情ラベルを使用して構築された既存のデータセットでモデルの公平性を評価します。

モデルのパフォーマンスは、すべての人口統計グループを代表する評価データセット全体で一貫しており、モデルのトレーニング用に注釈が付けられた顔の表情には測定できないバイアスがあることを示唆しています。モデルは 16 種類の表情について 1500 枚の画像に注釈を付けます。

何百万ものビデオにおける表情の文脈を理解するために、実験ではビデオに記録された表情の前後の部分も測定しました。この論文では、きめ細かいコンテンツをキャプチャし、コンテキストを自動的に識別できるニューラル ネットワークを使用しています。

最初の DNN は、ビデオ関連のテキスト機能 (タイトルと説明) と実際のビジュアル コンテンツ (ビデオ トピック モデル) を組み合わせたものです。

2 番目の DNN は、視覚情報なしでテキスト機能のみに依存します (テキスト トピック モデル)。

モデルは、ビデオを説明する数万のカテゴリ ラベルを予測し、この実験では、数百の固有のコンテキスト (結婚式、スポーツ イベント、花火など) を認識して、分析対象のデータの多様性を実証できます。

論文で報告された最初の実験では、研究者らは、自然な表情が含まれている可能性が高い携帯電話で撮影された公開ビデオ300万本を分析した。

その後、ビデオに登場する顔の表情は、ビデオ トピック モデルからのコンテキスト注釈と関連付けられました。その結果、16 の顔の表情が日常の社会的コンテキストと異なる形で関連付けられていることが判明し、これらの関連付けは世界中で一貫していました。たとえば、楽しい表情はいたずらと一緒に現れる可能性が高く、興奮した表情は花火と一緒に現れる可能性が高く、勝利の表情はスポーツイベント中によく現れます。

これらの結果は、個人、文化、社会に特有の要因など、他の要因よりも、顔の表情が使用される心理的文脈の議論に大きな影響を与えます。

2 番目の実験では、テキスト トピック モデルを使用してコンテキストを注釈付けした 300 万本の個別のビデオを分析しました。結果は、最初の実験からの発見が、ビデオ トピック モデル注釈に対するビデオ内の顔の表情の微妙な影響によってもたらされたものではないことを確認しました。言い換えれば、この実験は、ビデオ トピック モデルがコンテンツ ラベルを計算するときに暗黙的に顔の表情を考慮する可能性があるという最初の実験から得られた結論を裏付けています。

どちらの実験でも、表現と文脈の相関関係は文化を超えて良好に保たれているようでした。研究対象となった12の世界の異なる地域間で表現と文脈の関連性がどの程度類似しているかを正確に定量化するために、研究者らは各地域のペア間の二次相関を計算した。これらの相関関係により、各地域のさまざまな表現とコンテキストの関係が識別され、他の地域と比較されます。

最終的に、各地域で見つかった文脈表現の関連性の 70% が世界中で共有されているという結論に達しました。

機械学習により、研究者は世界中の何百万ものビデオを分析し、文化を超えて同様の状況では顔の表情がある程度保存されるという仮説を裏付ける証拠を見つけることができました。

この結果には文化的な違いも残されており、顔の表情と状況の相関関係は世界中で 70 パーセント一貫していたのに対し、地域間では 30 パーセントしか一貫していませんでした。世界の隣接地域における表情と文脈の関連性は、一般的に遠い世界の地域における関連性よりも類似しており、人間の文化の地理的広がりも表情の意味に影響を与える可能性があることを示唆している。

この研究は、機械学習が自分自身をよりよく理解し、文化を超えたコミュニケーションの共通要素を識別できることを示唆しています。ニューラル ネットワークなどのツールにより、多種多様な大量のデータを科学的発見に取り入れることができるようになり、統計的な結論に対する信頼性が高まります。

<<:  Google、一般的な皮膚疾患を識別するための新しいAIツールを発表

>>:  自動運転車の分野での課題は何ですか?

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

画像内のオブジェクト検出のための ML データを探索および視覚化する方法

近年、機械学習データ(MLデータ)を深く理解する必要性に対する認識が高まっています。しかし、大規模な...

テンセントは顔認識技術を使って未成年者への薬物依存防止規制を強化

米国のメディアによると、子供や十代の若者はビデオゲームに関するほぼすべての制限に対処する方法を見つけ...

Python 機械学習チュートリアル

この機械学習チュートリアルでは、機械学習の基本および中級の概念について説明します。初心者の学生と働く...

確かな情報です! AIテクノロジーアーキテクチャソリューションの実現可能性を判断するのに役立つ3つの重要な要素

近年、人工知能は急速に発展しており、コンピュータービジョンや自然言語処理の分野で画期的な変化をもたら...

IDC: AIソリューションへの世界的な支出は3年以内に5000億ドルを超える

IDC は、2024 年以降の世界の情報技術 (IT) 業界予測レポートを発表しました。 IDC は...

GPT-4 はハイブリッド大規模モデルを使用しますか?研究により、MoE+命令チューニングにより大規模モデルのパフォーマンスが向上することが証明された

GPT-4 の登場以来、優れた言語理解、生成、論理的推論など、その強力な創発能力に人々は驚嘆してきま...

Linuxに顔認識ログインを追加する方法

最近、Deepin OS 20.05がリリースされ、追加された顔認識機能がコミュニティの注目を集めて...

人工知能も汚染される可能性があるので、顔認証による支払いは依然として安全でしょうか?

下の図は、人間にとって非常に区別しやすい 3 種類の動物、鳥、犬、馬を示しています。しかし、人工知能...

DeepMindは、オンラインで攻撃的な言葉を出力することに特化したZaun AIを提案している

言語モデル (LM) は、不快な言葉を生成する可能性がしばしばあり、モデルの展開にも影響を及ぼします...

...

合成データは AI/ML トレーニングの未来を推進するでしょうか?

人工知能や機械学習 (AI/ML) をトレーニングするために現実世界のデータを収集することは、時間が...

ハーバード大学の研究者がAIを活用して世界中の密猟を阻止

ハーバード大学ジョン・A・ポールソン工学応用科学大学院のリリー・シューさんは、幼いころから環境と保護...

検討すべき5つのスマートホームテクノロジー

今日でも、ほとんどの人はスマートホームテクノロジーを手の届かない贅沢品と見なしています。しかし、家庭...

経済不況が来ていますが、AIを拒否しないでください!

この不況は、私たちがこれまで経験したどの不況よりも深刻で、突然のものである。私たちは皆、嵐がすぐに過...

ボストン・ダイナミクスがマスク氏を激しく批判、それは単なる自慢なのか、それとも現実なのか?テスラロボットに関する3つの大きな推測

テスラのロボットに関しては、まず主要なタイムラインを確認しましょう。実際、テスラのロボットの構想は1...