AIは人間の目で世界を見ることを学習し、人間の瞳孔の微妙なズームをシミュレートすることさえできる。

AIは人間の目で世界を見ることを学習し、人間の瞳孔の微妙なズームをシミュレートすることさえできる。

人間が世界をどのように見ているかを理解するために、コンピューターは「目を動かす」ことを学び始めています。

次に、眼球を回転させて「観察する情報を収集」し、テキストまたは画像に焦点を合わせて「データの収集」を開始します。

普通に絵を読んだり鑑賞したりできるだけでなく、人が退屈、興奮、緊張などさまざまな感情を抱いたときの瞳孔の拡張や瞬きの頻度の微妙な変化をシミュレートすることもできます。

実際、これはデューク大学の研究者によって開発された、人間が世界を観察する方法を正確にシミュレートできる新しい「仮想の目」です。この研究はオープンソース化されており、トップクラスのコミュニケーションカンファレンスである IPSN 2022 でまもなく公開される予定です。

この研究を通じて得られたほぼ実際のデータはすべてコンピューターにフィードバックされます。

このデータは何に役立ちますか?

視線追跡技術に基づいて取得されるこのデータは、視線移動データと呼ばれることが多く、注視時間、眼球運動、追従動作などの複数の属性が含まれます。

私たちがしばしば目を心の窓と考えるのと同じように、これらの眼球運動データは人間に関する多くの実際の情報を反映することができます。たとえば、瞳孔の拡張、眼球運動、眼球の徘徊時間から、飼い主の現在の気分(退屈か興奮か)、飼い主が集中しているか、飼い主がタスクに熟練しているか初心者か、さらには飼い主が特定の言語に堪能かどうかがわかります。

この研究の著者の一人であるマリア・ゴルラトヴァ氏は、次のようにも述べています。

[視線追跡データ]は、性別や人種に関する偏見、他人に知られたくない興味、自分自身についてさえ知らない情報をうっかり明らかにしてしまう可能性があります。

したがって、これらの眼球運動データの調査と研究により、認知負荷の推定、座位活動の認識、読解力の分析、感情認識など、一連のセンシングアプリケーションが自然に生み出されます。 Microsoft の VIVE Pro Eye など、多くの企業や開発者が視線追跡を使用して、視線に基づく新しいインタラクションや環境認識を可能にし始めています。

しかし、大規模なラベル付き眼球運動データを収集する場合、いくつかの問題が避けられません。

  • 人間の視覚行動のランダム性により、データ収集のコストが増加します。
  • 人間を対象とする研究にはプライバシーの侵害が伴う可能性があります。
  • モデルのトレーニングに必要なデータを生成するための時間コストが高すぎる (何百人もの人がデバイスを使って何時間もかけて目を観察する必要がある)。

仮想の目がデータを収集する

上記の問題をどのように解決するのでしょうか? デューク大学の研究チームは、心理学にヒントを得たモデル EyeSyn を提案しました。このモデルは、公開されている画像とビデオのみを使用して、任意のサイズの眼球運動データセットを合成できます。全体的なアーキテクチャは次のとおりです。

全体的な考え方としては、画像やビデオを入力として取り込み、それらを視覚刺激として使用して、対応する眼球運動データを生成することです。

大規模なアーキテクチャは、次の 3 つの小さなモデルで構成されています。

ReadGaze モデル

テキストを読む際の視覚的な動作をシミュレートします。テキスト認識に基づく検出モジュールと、スキップ視覚動作をシミュレートするシミュレータを備えています。

VerbalGaze モデル

言語コミュニケーション中に顔の特定の領域を注視し、顔の異なる領域間で注意を切り替える視覚動作をシミュレートします。顔領域追跡モジュールとマルコフ連鎖ベースの注意モデルを備えています。

StaticScene および DynamicScene モデル

静的および動的なシーンを知覚する際の目の動きをシミュレートします。画像の特徴に基づいた顕著性検出モデルを備えており、視覚シーン内の潜在的な固定点の位置を識別します。

△ダイナミックシーンにおける視線移動データ

これらのコンポーネントに基づいて、EyeSyn は既存の眼球運動データに基づいてトレーニングする必要がなく、仕事に投入後すぐに作業を開始できます。

さらに、従来の視線追跡データ収集プロセスと比較して、EyeSyn は、さまざまな視線追跡設定、視覚距離、視覚刺激のレンダリング サイズ、サンプリング周波数、および対象の多様性をシミュレートする際に、より便利で高速です。

現在、EyeSyn は、ほんの少数の画像とビデオのセットを基に、180 時間を超える視線追跡データを合成できます。これは、既存の視線ベースのアクティビティ データセットの 18 ~ 45 倍の大きさです。

「合成データ自体は完璧ではないが、良い出発点となる」と研究者のマリア・ゴルラトワ氏は語った。

実際の活動データセットを構築するために被験者と協力して過度の時間と費用を費やす代わりに、中小企業はこのアプローチを直接使用できます。

眼球運動データをより高速に生成する方法により、Metaverse プラットフォームでの一般的な VR、AR、および関連アプリケーションの作成がより便利になります。

マリア・ゴルラトワ

紙:

https://www.researchgate.net/publication/359050928_EyeSyn_Psychology-inspired_Eye_Movement_Synthesis_for_Gaze-based_Activity_Recognition.

オープンソースリンク:

https://github.com/EyeSyn/EyeSynResource.

参考リンク:

https://techxplore.com/news/2022-03-simulated-human-eye-movement-aims.html.

<<:  バイトダンスの最新のテキスト生成画像AIには、トレーニングセットにテキスト説明付きの画像が含まれていません。

>>:  人工知能音声ジェネレーター、この10個で十分です

ブログ    

推薦する

ロボットは人間の笑顔を真似することができますが、この笑顔はいつも...

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

機械学習を利用してデータベースの運用と保守の問題を解決します

著者についてPing An Technology のデータベース チームの運用保守開発エンジニアであ...

人工知能は産業の発展を助け、将来の生活は期待に値する

人工知能技術が生活のあらゆる分野で登場し、スマート経済が繁栄するにつれて、人類の文明は新たな段階に入...

SOA におけるソフトウェア アーキテクチャ設計とソフトウェアとハ​​ードウェアの分離方法論

次世代の集中型電子電気アーキテクチャでは、中央+ゾーン中央コンピューティング ユニットと地域コントロ...

通信会社は AI と機械学習をどのように活用して利益率を向上させることができるでしょうか?

過去 10 年間で世界中のスマートフォン ユーザーの数は急増しており、今後も同様の増加傾向が続くと思...

Redis Clusterクラスタ内のデータ分散アルゴリズムについてお話しましょう

最近、Redis Cluster に注目していますが、これにはデータ分散の問題が関係しています。Re...

AIの安全性問題への対応: NIST人工知能リスク管理フレームワーク

他の情報技術と同様に、人工知能もさまざまなセキュリティ問題や、プライバシー、差別、不公平などの新たな...

AI(ディープラーニング)の簡単な分析:AIはあなたの仕事を奪うでしょうか?

​​ [[206273]]​​人々は 1960 年代から HAL のような SF レベルの AI を...

女性用メイクアップムスク!超楽しいモデルStyleCLIPがオープンソースになりました。急いで自分の顔を変えてみましょう

[[421561]]マスク氏は科学研究に本当に多大な貢献をしてきました!最近、イスラエルの研究者が新...

自動運転の 6 つのレベル: 真の無人運転までどれくらいの距離があるのでしょうか?

社会の発展に伴い、わが国の工場は徐々に手作業中心から設備中心へと変化し、人類の創造性が十分に反映され...

...

これを読めば、大きな整数の乗算と分割統治アルゴリズムを学ぶことができます。

[[352004]]データ暗号化処理には多くの複雑な暗号化アルゴリズムがあり、これらの暗号化アルゴ...

2頭のアルパカが頭と尻尾を切り落とし、それをくっつけてハギングフェイスリストのトップに

HuggingFace が再びオープンソースの大規模モデルのリストのトップに躍り出ました。最前列は、...

特徴エンジニアリングとは何ですか?なぜ自動化が必要なのでしょうか?

[51CTO.com クイック翻訳] 今日、人工知能(AI)はますます一般的になり、必要になってき...