この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 髪の毛や皮膚のしわを細かく表現した 3D ドラゴンボール フィギュアをレンダリングするのはどれくらい複雑ですか? クラシックモデル NeRF の場合、同じカメラで特定の距離から撮影したフィギュアの写真が少なくとも100 枚必要です。 しかし今では、新しい AI モデルでは、図全体をレンダリングするために、あらゆるソースからのオンライン画像40 枚のみが必要です。 これらの写真には、撮影角度、距離、明るさの要件はありませんが、復元された写真は鮮明でアーティファクトがありません。 あらゆる角度から材質を推定し、再照明することもできます。 この AI モデルはNeROICと呼ばれ、南カリフォルニア大学と Snap チームによって開発された新しい技術です。 これを見たネットユーザーの中には大喜びする人もいた。
一部のネットユーザーは、 NFT (手動犬の頭)に投機する機会も得ました。 では、NeROIC はどのようにして 2D 入力からオブジェクトの 3D 形状とプロパティを取得するのでしょうか? 材料の照明を予測する改良されたNeRFこのモデルを紹介する前に、NeRF について簡単に確認する必要があります。 NeRF は、5D ベクトル関数を使用して連続シーンを表現する、ニューラル放射輝度フィールドと呼ばれる手法を提案しました。この手法では、5 つのパラメータを使用して空間点の座標位置 (x、y、z) と視線方向 (θ、φ) を表します。 しかし、NeRF にはいくつか問題があります。
今回、 NeROIC は次の 2 つの側面で最適化されました。
主に深度抽出ネットワーク (a) とレンダリング ネットワーク (c) の 2 つのネットワークで構成されています。 1 つ目は、オブジェクトのさまざまなパラメータを抽出するために使用されるディープ抽出ネットワークです。 無制限の入力シーンを実現するためには、まず AI にさまざまな背景から画像を切り取ることを学習させる必要があります。しかし、AI はカメラの位置を正確に推定できないため、切り取られた画像には常に次のようなアーティファクトが存在します (左)。 そのため、ディープ抽出ネットワークではカメラパラメータを導入し、AIがカメラの位置を推定する方法、つまり写真に写っているネットユーザーがどの角度から撮影され、どのくらい離れているかを推定する方法を学習できるようにして、切り抜かれた写真が実際の効果に近くなるようにしています(GT)。 同時に、重要な詳細を保持しながら幾何学的ノイズの影響を排除するために、表面法線を推定する新しいアルゴリズムが設計されました (法線はモデルの表面上のテクスチャであり、光の条件によって変化し、照明のレンダリングに影響します)。 最後のステップはレンダリング ネットワークです。これは抽出されたパラメータを使用して 3D オブジェクト効果をレンダリングします。 具体的には、この論文では、色予測、ニューラル ネットワーク、パラメトリック モデルを組み合わせて色を計算し、最終的な法線を予測する方法を提案しています。 このうち、NeROICの実装フレームワークはPyTorchで構築され、トレーニングには4枚のNVIDIA Tesla V100グラフィックカードが使用されました。 トレーニング中、深度抽出ネットワークの実行には 6 ~ 13 時間かかり、レンダリング ネットワークの実行には 2 ~ 4 時間かかります。 ウェブ画像を使用して3DモデルをレンダリングするNeROIC のトレーニングに使用されるデータセットは、主に次の 3 つの部分で構成されています。 画像はインターネット(一部の商品はAmazonやTaobaoなどのオンラインショッピングプラットフォームから)、NeRD、および著者自身の写真(牛乳、テレビ、モデル)から取得されています。平均して、オブジェクトごとに40枚の写真が収集されます。 それで、このモデルはどれほど効果的でしょうか? この論文ではまず、NeROIC と NeRF を比較します。 直感的な観点から見ると、オブジェクトのレンダリングの詳細と明瞭さの点で、NeROIC は NeRF よりも優れています。 具体的には、ピーク信号対雑音比 (PSNR) と構造類似性 (SSIM) の点では、ディープ抽出ネットワークの「カットアウト」テクノロジは非常に優れており、NeRF よりも優れています。 同時に、この論文ではレンダリング モデルの効果をより多くのシーンでテストし、アーティファクトは発生しないことが判明しました。 また、新しい角度や再照明効果も作成されます。たとえば、これは屋外のシーンです。 屋内シーンの照明には別の効果もあります。 著者らは、NeRF と NeROIC のトレーニングに写真の数を 20 枚、さらには 10 枚に減らすことも試みました。 結果は、データ セットが不十分な場合でも、NeROIC が NeRF よりも優れたパフォーマンスを発揮することを示しています。 しかし、一部のネットユーザーは、作者がガラスや半透明の素材のレンダリング効果を提供していないと述べた。 AI にとって、透明または半透明のオブジェクトを再構築することは、確かに比較的複雑なタスクです。コードがリリースされたら、その効果を試すことができます。 作者によると、コードはまだ準備中とのこと。ネットユーザーたちは「トップ会議か演説後に発表されるかもしれない」と冗談を飛ばした。 第一著者 清華大学卒業生論文の筆頭著者であるKuang Zhengfei氏は現在、南カリフォルニア大学の博士課程の学生であり、彼の指導教官はコンピューターグラフィックスの分野で著名な中国人教授Li Hao氏である。 彼は清華大学コンピュータサイエンス学部を卒業し、胡世民教授のコンピュータグラフィックスチームで研究助手として働いていました。 この記事は彼が Snap でインターンシップをしていたときに書かれたもので、他の著者もすべて Snap チームのメンバーです。 将来的には、自宅で VR クラウドを試すには、ネットユーザーからの「販売ショー」がいくつか必要になるかもしれません。 論文の宛先: https://arxiv.org/abs/2201.02533 プロジェクトアドレス: https://formyfamily.github.io/NeROIC/ |
<<: 自然の中でショウジョウバエがVRをプレイし、注意メカニズムとワーキングメモリを発見
>>: ディープラーニングモデルアーキテクチャを視覚化する6つの一般的な方法の概要
人工知能(AI)は通常、通常のコンピュータ プログラムを通じて人間の知能を表現する技術を指します。コ...
急速に進化する今日のテクノロジー環境において、人工知能 (AI) はあらゆる業界に革命を起こす可能性...
正確な推奨システム モデルは、多くのインターネット製品の中核的な競争力です。パーソナライズされた推奨...
インテリジェントな顧客サービスの評価基準は何かというビジネス上の問い合わせを頻繁に受けます。これは答...
AI の健全性と進歩に関する最近の調査、研究、予測、その他の定量的評価では、労働力の再訓練の必要性、...
[[355787]]画像ソース: https://pixabay.com/images/id-537...
「自動化」の本質的な意味は変わりませんが、その用語の使用法は時間の経過とともに確実に変化してきました...
Apple Carはまた失敗するのでしょうか?最近、著名なアナリストのミンチー・クオ氏が自身のツイッ...
[[244003]]既存の AI ツールやサービスは、従業員に代わるものではなく、ワークフローの改善...
機械学習における公平性に関する研究は本当に正しい方向に進んでいるのでしょうか?人工知能の発展に伴い、...
近年、人工知能の応用は世界中で大きな進歩を遂げています。職場でのビジネス活動の拡大に伴い、クラウド ...
昔、携帯電話がなかった頃は、写真を撮りたい人は写真館に行かなければなりませんでした。写真を撮る機会は...