目の反射神経が 3D の世界を開き、ブラック ミラーを実現します。メリーランド州出身の中国人による新作がSFファンを熱狂させる

目の反射神経が 3D の世界を開き、ブラック ミラーを実現します。メリーランド州出身の中国人による新作がSFファンを熱狂させる

「唯一の真の発見の旅は、未知の土地を訪れることではなく、他人の目を通して宇宙を見ることだ。」 - マルセル・プルースト

他人の目を通して世界を見るという、SF的で詩的な(そして恐ろしい)アイデアが現実になりました!

ブラックミラー シーズン 1: 「あなたの全歴史」

今では、目から反射された光を利用するだけで、人が見ているものを3次元で再現することができます。

はい、まさに『ブラックミラー』ですね。



最近、メリーランド大学のチームが、目の反射を含む人間の画像を使用して、カメラでは捉えられない3次元シーンを再構築するという新しい方法を提案しました。

論文アドレス: https://arxiv.org/abs/2306.09348

プロジェクトアドレス: https://world-from-eyes.github.io/

古典的なSFシーンはすべて現実になったのでしょうか?

目の反射を利用して放射線場再構成を生成しますか?このアイデアは奇妙に思えるかもしれませんが、実際には十分な理論的根拠があります。

著者らは、人間の目は反射率が高いため、目の反射のみを使用して頭の動きを捉えた一連のフレームから、人が観察している 3D シーンを再構築してレンダリングすることが可能であると説明しています。

このコンセプトはまさに『ブラック・ミラー』らしいものであり、論文が発表されてからわずか数時間後に『ブラック・ミラー』の新シーズンが発表されたという事実を考えると、この偶然から人々は『ブラック・ミラー』の監督もこの論文に気づいたのではないかと考える。 (犬の頭)

ブラックミラーシーズン6がオンラインになりました

この研究が発表されるやいなや、ネットユーザーたちは衝撃を受けた。

もうすぐそこに着くんですか?

これは2000年代の攻殻機動隊のワンシーンではないでしょうか?これらすべてのフィクションが現実になったのです!

100% ブレードランナー、今すぐコピーをください。

ジュール・ヴェルヌの『ブラザー・キップ』が実現しました!

もちろん、これに恐怖を表明する人もいました。この技術は捜査や証拠収集などに決して使用されるべきではない、と。

現在、Varjo の視線追跡カメラ、Apple の VisionPro、その他のヘッドマウントディスプレイはすでに存在します。これらのデバイスは大量の映像をキャプチャできます。この新しいテクノロジーと組み合わせると、数え切れないほどの新しい SF シーンがすぐに実現するでしょう...

研究チームは、人間の目からの光の微細な反射を利用して、固定されたカメラ位置で撮影された一連の単眼画像を使用して、人が見た(非直接的な)シーンを再構築する方法を開発した。

しかし、観測された反射のみに基づいて輝度フィールドをトレーニングすることは、1) 角膜の位置特定における固有のノイズ、2) 虹彩テクスチャの複雑さ、および 3) 各画像でキャプチャされた低解像度の反射など、いくつかの理由から不十分です。

これらの課題に対処するために、チームはトレーニング プロセス中に角膜ポーズの最適化と虹彩テクスチャの分解を導入し、人間の虹彩に基づいた放射状テクスチャ正規化損失を使用しました。

移動するカメラを必要とする従来のニューラル フィールド トレーニング方法とは異なり、この方法ではカメラを固定された視点に配置し、ユーザーの動きに完全に依存します。

人間の目の反射を利用してシーンを再現する

このタスクは、目の姿勢と、虹彩とシーンの反射の間の織り交ぜられたテクスチャを正確に推定することが難しいため、困難です。

この問題に対処するために、著者らは、目の姿勢、シーンを描写する放射場、および観察者の目の虹彩テクスチャを共同で最適化しました。

具体的には、主に 3 つの貢献があります。

1. 新しい3D再構築

私たちは、これまでの画期的な研究とニューラルレンダリングの最近の進歩を組み合わせて、目の画像から観察者の世界の 3D シーンを再構築する新しい方法を提案します。

2. アイリスの放射状事前分布

虹彩テクスチャ分解のための放射状事前分布が導入され、再構成された放射輝度フィールドの品質が大幅に向上しました。

3. 角膜姿勢の最適化

角膜姿勢最適化プロセスは、人間の目からの特徴抽出の特有の課題を克服し、目の姿勢推定におけるノイズを軽減するために開発されました。

結果は、この新しい方法を使用すると、画像を動かすことで目の反射からシーンの複数の視点を取得し、最終的に完全なシーンの再構築を達成できることを示しています。

さらに驚くべきは、チームがマイリー・サイラスとレディー・ガガのMVも使用して、彼女たちの目線でシーンを再現しようとしたことだ。

著者らは、マイリーの目に映ったと思われる物体と、レディー・ガガの目を通して見た人物の上半身らしきものを再現することに成功したと述べている。

しかし、これらのビデオの品質は、再構築結果の正確さを結論付けるには十分ではありません。

レディー・ガガ

マイリー・サイラス

それはどうやってやるのですか?

健康な成人の角膜の形状はほぼ同じであることはよく知られています。

したがって、画像内の人の角膜のピクセルサイズを数えるだけで、目の位置を正確に計算できます。

次に、著者らは、カメラからの光線を近似的な目の形状で反射させることにより、目によって反射される放射輝度フィールドをトレーニングします。

再構成画像で人間の目の虹彩が映り込むのを避けるため、著者らはテクスチャ分解のために虹彩テクスチャを学習した 2 次元テクスチャ マップもトレーニングしました。




実験的評価

合成データによる評価

まず、著者らは、Blender シーンに人間の目のモデルを配置して合成データを評価しました。

下の画像は、目の反射のみを使用して再構築されたシーンを示しています。

現実世界では角膜を完全に推定することはできないため、著者らは推定された角膜半径のノイズに対する角膜姿勢最適化の堅牢性を評価しました。

実際のデータで発生する可能性のある深度推定エラーをシミュレートするために、各画像で異なるノイズ レベルでスケーリングすることにより、観測された角膜半径 r_img を破損します。

下のグラフは、さまざまなノイズ レベルでパフォーマンスがどのように変化するかを示しています。

注目すべきは、ノイズが増加するにつれて、ポーズ最適化なしの再構築と比較して、私たちが提案するポーズ最適化再構成は再構築されたジオメトリと色の点でより堅牢になることです。

これは、投影された角膜から画像内の最初の楕円への適合が完璧ではないため、ポーズの最適化が現実的なシナリオにとって非常に重要であることを示しています。

さらに、テクスチャ分解の有無による定量的な比較では、SSIM と LPIPS の観点から、テクスチャ分解を使用した場合の方が当社のアプローチのパフォーマンスが向上することが示されています。

著者らは、設定上、反射とシーン自体の照明の差が非常に大きいため、PSNR を計算しなかったことに留意してください。

現実世界での評価

視野の正確さを保証するために、著者は撮影に Sony RX IV カメラを選択し、Adobe Lightroom を使用して画像を後処理し、角膜反射のノイズを低減しました。同時に、作者はキャラクターの両側に光源を追加して、対象のオブジェクトを照らしました。

このプロセス中、撮影対象者はカメラの視野内で移動し、チームが各シーンで 5 ~ 15 フレームを撮影できるようにする必要があります。

シーン照明のダイナミック レンジが広いため、観測された反射の情報が失われないように、すべての実験で 16 ビットの画像を使用します。

平均すると、角膜は各画像の領域の約 0.1% しかカバーしませんが、ターゲット オブジェクトは約 20 x 20 ピクセルを占め、虹彩のテクスチャとインターレースされます。

データ処理

著者らはまず、画像から角膜の中心と半径を推定することにより、角膜の初期位置推定値を取得します。

次に、カメラの平均深度と焦点距離を使用して角膜の 3D 位置を直接近似し、その表面法線を計算します。

このプロセスを自動化するために、著者らは Grounding Dino を使用して目の境界ボックスを特定し、ELLSeg を使用して楕円を虹彩にフィットさせました。

角膜は通常は遮蔽されていますが、遮蔽されていない領域のみが必要なので、Segment Anything を使用して虹彩のセグメンテーション マスクを取得できます。

実際の結果

下の図に示す結果からわかるように、著者の方法は、角膜の位置と形状の推定の不正確さにもかかわらず、現実世界の肖像画画像から 3D シーンを再構築できます。

角膜境界が曖昧なため、画像内で正確な位置決めを行うことは非常に困難です。

さらに、緑や青などの特定の目の色では、虹彩の質感が明るいため、3D 再構築がより困難になります。

さらに、テクスチャが明示的にモデル化されていない場合、再構成された画像にはより多くの「浮遊オブジェクト」が表示されます。

これらの問題に対処するには、放射状正規化の度合いを高めることで再構成の品質を向上させることができます。

ただし、このアプローチには依然として 2 つの大きな制限があります。

まず、現在の現実世界の結果は、顔にズームインしたり、追加の光源を使用してシーンを照らすなどの「実験室設定」に基づいています。より自由な環境では、センサー解像度の低下、ダイナミック レンジの狭さ、モーション ブラーなどの課題が大きくなります。

第二に、虹彩の質感に関する現在の仮定(例えば、一定の質感、放射状に一定の色)は単純化しすぎている可能性があり、そのため、目が大きく回転するとこの方法が失敗する可能性があります。

著者について

共同筆頭著者のケビン・チャン氏は現在メリーランド大学の博士課程の学生です。

Brandon Y. Feng はメリーランド大学でコンピュータサイエンスの博士号を取得しました。彼の研究対象は、計算イメージング、メソスコピックビジョン、計算写真学です。彼は、複合現実から自然科学まで幅広い分野に応用できる、画像および 3D データ処理用の機械学習アルゴリズムを開発しました。

Jia-Bin Huang 氏はメリーランド大学の准教授であり、以前は UIUC で博士号を取得しました。彼の研究の関心は、コンピューター ビジョン、コンピューター グラフィックス、機械学習の交差点にあります。

<<:  テスラのデータラベリングシステムを理解する

>>:  音声における GPT の瞬間: Meta が複数のタスクを解決するための普遍的なモデルである「画期的な」生成音声システムをリリース

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

2020 年の生体認証市場 - パンデミックによる業界の動向の変化

生体認証技術市場は、COVID-19の流行により大きな影響を受けるでしょう。 接触のみの生体認証を採...

...

PyTorch でシンプルな分類器を実装する

[[328922]]私自身の PyTorch の学習過程を思い出すと、最初はいろいろな情報を見つけ、...

...

CNN の弱点を見つけ、MNIST の「ルーチン」に注意する

[[191828]] CNN は現在非常に人気のあるモデルです。多くの画像検索問題において、CNN ...

新世代の人工知能標準システムを構築するには?ガイドが来ます →

国家標準化局中央サイバースペース委員会 国家発展改革委員会 科学技術省 工業情報化省 「 国家新世...

優れた LLM アプリケーションを構築するための 4 つの重要なポイントのうち、どれを見つけましたか?

これらの提案により、LLM 申請の精度が向上し、適切な LLM を選択する方法についての考慮事項も含...

...

「顔認識」時代の準備はできていますか?

[51CTO.comからのオリジナル記事] 近年、生体認証技術はますます成熟し、私たちの生活の中に...

...

RPAテクノロジーが製造業の未来をどのように変えるか

RPA コンサルティング サービスは、製造業者がソフトウェア ロボットを使用してさまざまな反復的なル...

...

画像をデジタル化して特徴を抽出するための、事前トレーニング済みのディープラーニングモデル6つ

[51CTO.com クイック翻訳] ユビキタスセンサーは毎日大量の画像を収集しており、人工知能技術...

...

人工知能は大きな可能性を秘めているが、大きな責任も抱えている

AI はあらゆるところに存在し、その可能性は計り知れません。しかし、諺にあるように、大いなる力には大...