3枚の写真からフィギュアの3Dモデルを生成!南カリフォルニア大学の中国人博士が、より現実的な新しいモデル「NeROIC」を提案しました。

3枚の写真からフィギュアの3Dモデルを生成!南カリフォルニア大学の中国人博士が、より現実的な新しいモデル「NeROIC」を提案しました。

ディープラーニングが加わったことで、コンピュータグラフィックスには多くの新しい分野が生まれました。 ニューラル レンダリング技術は、さまざまなディープ ニューラル ネットワークを使用して画像を合成します。自動化されたプロセスにより、実践者の時間と労力を大幅に節約できます。 たとえば、さまざまな角度から撮影された複数の 2 次元画像が与えられた場合、ニューラル レンダリング モデルは人間の介入なしに 3 次元モデルを生成できます。

現実世界では、アクションフィギュアの写真がたくさんあるかもしれません。それを従来の方法で 3D モデルに組み込むと、必要な作業量は考えただけでも目が回ってしまうほどです。

ニューラル レンダリング テクノロジーにより、これらのモデルを簡単にコンピューターに入力し、機械が写真内のオブジェクトの実際の形状と物理的状態を 3 次元空間で理解できるようになります。 人間にとって、このタスクは非常に簡単です。人間の目は現実世界を理解し、画像の奥行きを知っているからです。しかし、ピクセルしか見ることができないコンピューターにとって、ニューラル レンダリング モデルの設計は依然として非常に困難です。

ゲーム開発者は、人物の写真を撮るだけでなく、ニューラル レンダリング テクノロジを使用していくつかのオブジェクトの写真を撮り、3D モデルを合成して、完璧なゲーム シーンを作成することもできます。 しかし、モデルが正確に見え、その形状が写真によく合うだけでは十分ではありません。合成されたオブジェクトを新しいシーンに配置すると、光と影の違いにより、合成されたモデルは新しい環境に場違いに見え、突然「露出」してしまいます。 この問題に対処するため、SnapChatと南カリフォルニア大学の研究者らは、画像から仮想オブジェクトを作成する際に生じる照明と信頼性の問題を解決できる新しいモデル「NeROIC」を提案した。

論文アドレス: https://arxiv.org/pdf/2201.02533.pdf 新しいモデルは、NeRF モデルなどの再構成で広く使用されている神経放射場に基づいています。しかし、神経放射場は、同じ理想的な条件下でのみ完全にモデル化できるため、実際のシナリオのニーズを満たすことはできません。 研究者たちはNeRFモデルから改良を始めました。 NeRF ニューラル ネットワークは画像でトレーニングされ、各ピクセルの色、不透明度、輝度を推測するだけでなく、2D 画像に表示されないオブジェクトの小さな部分の欠落ピクセルを推測するために使用されます。ただし、この方法は入力画像からの補間しかできないため、大きな欠落領域がある場合や照明条件が異なる場合には機能しません。したがって、新しいモデルでは、どこに何があるべきか、またはこれらのピクセルがこの照明でどのように見えるかなどについて推測し、仮定を行うために、より多くの情報が必要になります。

多くの方法は NeRF に基づいてこの問題を解決しますが、新しいモデルでは常にユーザーがより多くの入力条件を提供する必要があり、実際のシナリオのニーズを満たしていません。多くの場合、ユーザーはこのデータをクリアしないため、他の人がモデルをトレーニングするための適切なデータセットを構築することがさらに困難になります。 一般的に、以前の NeRF のようなモデルは、オブジェクトやそれが配置されている環境を実際に理解していませんでした。 したがって、解決すべき本当の問題は照明の問題に戻ります。

研究者の目標は、この新しいモデル アーキテクチャをオンライン画像にも使用することです。つまり、新しいモデルは、NeRF では実現が難しいレベルのリアリティを実現し、さまざまな照明、カメラ、環境、ポーズの画像を処理できる必要があります。 オブジェクト自体の画像以外に必要なのは、大まかな前景セグメンターとカメラ パラメータの推定値だけです。これらはどちらも、他の利用可能なモデルを通じて取得できます。前景セグメンテーションは基本的に、ユーザーが関心を持つオブジェクトが画像内のどこに配置されているかをモデルに伝えるマスクにすぎません。

新しいモデルが他のモデルと異なるのは、入力画像内のオブジェクトのレンダリングを周囲の照明から分離し、これら 2 つのタスクを 2 段階で独立して完了することです。

まず、(a)ネットワークは物体の幾何学的形状を取得します。これはNeRFに最も類似した部分であり、本論文ではジオメトリネットワークと呼びます。入力画像、セグメンテーション マスク、カメラ パラメータ推定値を組み合わせて放射フィールドを構築し、各ピクセルの密度と色を推測します。全体的なプロセスは基本的に NeRF と同じですが、新しいモデルは入力画像のさまざまな照明条件に適応する必要があります。 この違いは、モデル内の 2 つのブランチから生じます。これらのブランチにより、モデルは静的コンテンツをカメラや影などの変化するパラメータから分離できるようになり、静的コンテンツを他の不要なパラメータ (照明など) から正しく分離する方法をモデルにトレーニングできますが、これだけではモデルの空間構造を完全に復元することはできません。 (b)では、研究者は学習した密度場から表面法線を物体の形状テクスチャとして推定します。言い換えれば、(a) で生成された結果は、物体が光に対してどのように反応するかを見つけるのに役立ちます。 この段階では、オブジェクトの偏りのない材料特性を見つけることができ、または Sobel カーネルを使用した 3D 畳み込みを使用して特性の推定値を取得できます。プロセス全体は基本的に、3 次元空間でオブジェクトのすべてのエッジを見つけてエッジの鮮明さを決定するために使用できるフィルターであり、これにより、オブジェクトのさまざまなテクスチャと形状に関する基本情報を提供できます。

ステージ (c) では、モデルによって学習されたジオメトリを調整し、このレンダリング ネットワークを使用して生成された法線を最適化します。 また、マテリアルとライティングの 2 つのブランチも含まれています。球面調和関数を使用して照明モデルを表現し、トレーニング中にその係数を最適化します。 研究者らは論文の中で、球面調和関数はここでは球面上で定義された一連の基底関数を表すために使用でき、球面上で定義された各関数はこれらの球面調和関数の合計として表すことができる、と説明している。この手法は、3D モデルの照明を計算するためによく使用されます。 この方法では、比較的少ないオーバーヘッドで、非常にリアルな影と陰影が生成されます。つまり、推定する必要のあるパラメータの数を減らすだけで、情報量は同じままになります。 そのため、オブジェクト全体の適切な照明をレンダリングする方法を最初から学習する代わりに、新しいモデルでは、表面の各ピクセルの照明を推定するための正しい係数を学習し、問題をいくつかのパラメータにまで減らします。 別のブランチは、いくつかのパラメータに基づいてオブジェクトの材質特性をモデル化する標準の Phong BRDF を使用して、同じ手法に従ってオブジェクトの表面法線を改良するようにトレーニングされます。 最後に、レンダリングとライティングの 2 つのブランチが統合され、各ピクセルの最終的な色が予測されます。 論文の実験部分は NeRF モデルと比較されており、評価指標はピーク信号対雑音比 (PSNR) と構造類似性指標測定 (SSIM) の平均スコアです。

テスト画像の照明条件が不明であることを考慮して、研究者らは同じシーンの別のトレーニング画像から照明パラメータ(埋め込みベクトルまたは SH 係数)を選択し、ネットワークを凍結し、確率的勾配降下法オプティマイザーを使用して 1000 ステップにわたって照明パラメータを最適化しました。 実験結果から、新しいモデルが NeRF よりも大幅に優れていることがわかります。また、実際の効果として、新しいモデルによって生成された結果は NeRF によって生成された結果よりも一貫性があり、滑らかです。

論文の筆頭著者は、南カリフォルニア工科大学の博士課程の学生である Kuang Zhengfei 氏です。彼の主な研究分野は、ニューラル レンダリング、3D 再構築、人間のデジタル化とアニメーション、物理ベースのシミュレーションです。彼は 2019 年に清華大学を卒業し、学士号を取得しました。

<<:  Nature サブジャーナル: 機械学習を使用してヒトの遺伝子制御の背後にある「文法」を明らかにする

>>:  マスク氏のニューラリンクが人間の脳にインターフェースを挿入するにはどれくらいの時間がかかるのでしょうか?

ブログ    
ブログ    

推薦する

音楽駆動型デジタルヒューマン技術の詳細な説明

1. ミュージックXRメーカーMusic XR Makerは、テンセントミュージック初のオーディオお...

...

AIエージェントに完全な人生を与えましょう! HKU NYU Xie Sainingらによる最新の知的研究:仮想は現実である

より強力な AI エージェントを構築するにはどうすればよいでしょうか?答えは、彼らに完全で現実的な世...

AIとITの自動化の6つのレベル

IT サービスの自動化の時代に入りつつあります。しかし、IT 業界では、自動車業界が評価されるのと同...

蘇寧電子商取引プラットフォームにおけるAI技術+短編動画の応用

[51CTO.comより引用] 2018年5月18日〜19日、51CTO主催のグローバルソフトウェア...

プログラミング能力はGPT-4を超え、アルパカコード版「スーパーカップ」が登場、ザッカーバーグ氏も自らLlama3をネタバレ

アルパカファミリーの「最強のオープンソースコードモデル」が「スーパーカップ」を発売しました——今朝、...

...

...

...

分散ストレージシステムにおけるDHTアルゴリズムの改善

1. 概要通常、分散ストレージ システムや分散キャッシュ システムでは、分散ハッシュ (DHT) ア...

物流ロボットが急増中!今後の市場の成長は2つのエンジンによって支えられる

最近、イスラエルを拠点とするスマート物流ロボットのスタートアップであるCAJA Roboticsは、...

クイックソートアルゴリズムの普及チュートリアル

[[121950]]多くは語りません。次に、この記事の主題であるソートアルゴリズムについて説明しまし...

人工知能は非常に人気があります。PULSE は低品質のモザイク画像を保存し、数秒で高解像度の画像に変換できます。

[51CTO.com オリジナル記事] モザイクとはどういう意味ですか?従来のモザイクは、主に映画...

人工知能の時代に著作権はどのように機能するのでしょうか?

今日、私たちはあらゆるツールを利用でき、AI を使って望むものを何でも作成する自由と力を持っています...