映画品質の CG レンダリングを作成しましょう!スタンフォード大学の研究者がニューラル光学レンダリングを提案

映画品質の CG レンダリングを作成しましょう!スタンフォード大学の研究者がニューラル光学レンダリングを提案

  [[397642]]

Neural Radiance Fields (NeRF) は、AI 生成の 3D 環境と 3D オブジェクトの作成を可能にするテクノロジーです。

しかし、このような新しい画像合成技術には、膨大なトレーニング時間が必要であり、リアルタイムで応答性の高いインターフェースを可能にする実装が不足しています。

しかし、企業と学界は、この課題に対して Novel View Synthesis (NVS) という新しいアプローチを提供しました。

最近、「Neural Lumigraph Rendering」と題された研究論文では、既存の画像が 2 桁改善され、機械学習パイプラインを通じてリアルタイム CG レンダリングを実現するためのいくつかの手順が実証されたと主張しました。

以前の方法と比較して、ニューラル ライト マップ レンダリングでは、ブレンディング アーティファクトの解像度が向上し、オクルージョンの処理が改善されます。

この論文の寄稿者には、スタンフォード大学とホログラフィックディスプレイ技術企業 Raxium の研究者に加え、Google の主任機械学習アーキテクト、Adobe のコンピューター科学者、StoryFile の最高技術責任者などが含まれている。

ボリューメトリック キャプチャの原理は、被写体の静止画像またはビデオを撮影し、機械学習を使用して、元のドキュメントでカバーされていない視点のアイデアを「埋め込む」ことです。

上記の画像は、Facebook AI の 2019 年の AI 研究から引用したもので、ボリューメトリック キャプチャの 4 つの段階を示しています。

1. 複数のカメラが画像を取得します。

2 エンコーダ/デコーダ アーキテクチャ (またはその他のアーキテクチャ) は、ビューの相関関係を計算して接続します。

3 レイマーチングアルゴリズムは、空間内の各ポイントのボクセル(またはその他の XYZ 空間の幾何学的単位)を計算します。

4 リアルタイムで操作できる完全なエンティティを合成するようにトレーニングします。

これまで、新しいビュー合成がリアルタイムまたは高応答キャプチャの領域を超えてきたのは、このデータ集約型のトレーニング フェーズのおかげです。

実際、新しいビュー合成では、ボリューム空間の完全な 3D マップが生成されます。つまり、それらのポイントを従来のコンピューター生成メッシュに縫い合わせて、リアルタイムの CGI キャラクターを効果的にキャプチャして接続します。

NeRF を使用するアプローチでは、ポイント クラウドと深度マップを利用して、キャプチャ デバイスのスパースな視点間を補間します。

NeRF はメッシュを計算できますが、ほとんどの場合、ボリュームシーンの生成には使用されません。

対照的に、2020 年 10 月にワイツマン科学研究所が公開した暗黙的微分化レンダリング (IDR) 手法は、キャプチャされた配列から自動的に生成される 3D メッシュ情報を活用することに依存しています。

NeRF には IDR のような形状推定機能がありませんが、IDR は Nerf のような画像品質には匹敵できず、どちらもトレーニングと整理に多くのリソースを必要とします。

NLR のカスタム カメラ リグには、16 台の GoPro HERO7 と 6 台のセンター バックボーン H7PRO カメラが搭載されています。リアルタイムレンダリングの場合、最低 60fps で実行されます。

[[397645]]

対照的に、Neural Light Rendering は SIREN (Sinusoidal Representation Network) を活用して、それぞれのアプローチの長所を独自のフレームワークに統合し、既存のリアルタイム グラフィックス パイプラインで直接使用できる出力を生成することを目指しています。

過去 1 年間、SIREN は同様のシナリオで使用され、現在では画像合成コミュニティの趣味家による Colabs で人気の API 呼び出しとなっています。

しかし、NLR の革新性は、SIREN を 2D マルチビュー画像監視に適用した点にあります。

アレイ画像からCGメッシュを抽出した後、メッシュをOpenGLでラスタライズし、メッシュの頂点位置を適切なピクセルにマッピングし、各種寄与マップの融合を計算します。

結果として得られるメッシュは NeRF のメッシュよりも表現力が高く、計算量が少なく、メリットがない領域 (滑らかな顔の皮膚など) に過度の詳細を適用しません。

一方、NLR にはまだ動的ライティングやアクセントライティングの機能がなく、出力はシャドウマップやライティング時に取得されるその他の情報に限定されています。研究者たちは今後の研究でこの問題に取り組むつもりだ。

さらに、この論文では、NLR によって生成されたグラフは、他のいくつかの方法や前述のワイツマン科学の研究ほど正確ではないことも認めています。

ニューラル ネットワークを使用して限られた写真セットから 3D エンティティを作成するというアイデアは NeRF より古く、この技術の研究は 2007 年以前にまで遡ります。

2019年、FacebookのAI研究部門は画期的な研究論文(ニューラルボリューム:画像からの動的レンダリング可能なボリュームの学習)を発表し、機械学習ベースのボリュームキャプチャから生成された合成人間向けのレスポンシブインターフェースを初めて実現しました。

<<:  Google Brain の最新の操作は「レトロ」: 畳み込み注意は不要、画像分類は SOTA に近い

>>:  AI インテリジェント音声認識アルゴリズム パート 2

ブログ    
ブログ    

推薦する

AIコンピューティングパワーの封鎖が激化しています!米国、中国によるアマゾン、マイクロソフトのクラウドサービスの利用を制限する計画

ウォールストリート・ジャーナルは7月4日、米国政府が中国企業による米国メーカーのクラウドコンピューテ...

...

顔認証決済は時代遅れですか?アマゾンはわずか0.3秒で手動支払いをテストした

北京時間9月4日の朝のニュース、ニューヨークポストによると、アマゾンのエンジニアは店内での買い物の精...

デジタル変革の3つの大きな落とし穴に注意: インテルがPing An Healthcare Technologyに「エンドツーエンド」のAI機能を提供

[51CTO.comからのオリジナル記事] 現在、私たちの周りではデジタル変革が起こっています。デジ...

ロボットは労働者を完全に置き換えるのでしょうか?心配しないでください。人間と機械の組み合わせだけが仕事の疲れを軽減できます

英国の著名な分析機関オックスフォード・エコノミクスが発表したデータによると、今から10年後の2030...

Junhao Real EstateはIBM MaximoとTRIRIGAを使用して標準化されたインテリジェントデジタルビジネスシステムを構築しました

IBM は、IBM Maximo インテリジェント資産管理プラットフォームや TRIRIGA スマー...

Moka、業界初となるAIネイティブHR SaaS製品「Moka Eva」をリリース、AGI時代を見据えた準備万端

2023年6月28日、Mokaは北京で2023年夏の新製品発表会を開催した。 Moka CEOのLi...

...

機械学習における欠損値に対処する9つの方法

データサイエンスはデータに関するものです。これは、あらゆるデータ サイエンスや機械学習プロジェクトの...

スタートアップが大手企業から学び機械学習を開発する際に考慮すべき5つの変数

[[186364]]人工知能 (AI) と機械学習 (ML) をめぐる誇大宣伝は信じられないほどのレ...

...

2018 年に人工知能を変える 5 つのビッグデータ トレンド

[[211908]]ビッグデータや人工知能の広範な導入を通じて、これらの新興技術の大きな影響が世界経...

最新の機械学習ツール

コンテクストデータ サイエンスは急速に進化しており、機械学習の役割は、データ サイエンスのハイブリッ...

2021年の人工知能と機械学習の5つのトレンド

人工知能と機械学習は長い間私たちの世界を変えてきましたが、2020年のコロナウイルスのパンデミックは...

...