2Dが3Dになり、視野角を自由に変更でき、高精細な立体感が完璧に復元されます

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

この迫力ある恐竜の化石の写真を見ると、きっとビデオで撮影したんだと思うでしょう？

しかし、真実は、それは完全に静止画像によって生成されたものです。

そうです、 3Dモデリングも必要ありません。

これはカリフォルニア大学バークレー校とGoogleによる最新の研究であるNeRFであり、少数の静止画像を入力するだけで、複数の視点からのリアルな3D効果を実現できる。

この研究のコードとデータもオープンソースになっていることにも注目すべきです。

アイデアがあれば、ぜひ試してみてください。

静止画像、合成されたリアルな3D効果

まず、合成データセットに対する NeRF の効果を見てみましょう。

生成されたオブジェクトは、どの角度で回転しても、照明、影、さらにはオブジェクトの表面の詳細まで非常にリアルであることがわかります。

それは、ビデオ機器を持って、オブジェクトの周囲のビデオを録画するようなものです。

諺にあるように、比較しなければ害はありません。以下は、NeRF の効果と SRN、LLFF、Neural Volumes の効果の比較です。

比較に使用した 3 つの方法が、角度によって多少ぼやけていることは容易にわかります。

NeRFは死角のない360度高精細効果を実現したといえる。

次は NeRF の視点依存の結果です。

カメラの視点を固定し、照会された視線方向を変更することで、視点に依存する外観エンコーディングが NeRF 表現で視覚化されます。

NeRF は、複雑な遮蔽があるシーン内の詳細なジオメトリも表示できます。

実際のシーンに仮想オブジェクトを挿入することもでき、「近くでは大きく、遠くでは小さく」やオクルージョンなどの効果もリアルに再現できます。

もちろん、360度でリアルなシーンを撮影することも可能です。

神経放射場法

このような優れた効果はどのようにして達成されるのでしょうか?

1 つ目は、位置と視線方向で構成される連続 5D 座標によって定義されるベクトル関数としてシーンのボリューム表現を最適化することです。具体的には、5D 座標がカメラ光線に沿ってサンプリングされ、画像が合成されます。

このようなシーン表現は、完全に接続されたディープネットワーク (MLP) にパラメータ化され、5D 座標情報を通じて対応する色とボリューム密度の値が出力されます。

これらの値は、ボリュームレンダリング技術を使用して RGB 画像に合成されます。

レンダリング関数は微分可能であるため、合成画像と実画像間の残差を最小化することでシーン表現を最適化できます。

MLP は 8 つの完全接続層 (ReLU アクティベーション、層あたり 256 チャネル) を使用して入力を処理し、σ と 256 次元の特徴ベクトルを出力することに注意することが重要です。この特徴ベクトルはカメラビューと連結され、さらに 4 つの完全接続レイヤー (ReLU アクティベーション、各 128 チャネル) を通過して、視点に依存する RGB カラーを出力します。

NeRF による RGB カラー出力も、空間位置 x と視線方向 d の 5D 関数です。

これを実行することの利点は比較を通じてわかります。視点の相関関係が削除されると、モデルは鏡面反射を再現できなくなることがわかります。位置エンコーディングが削除されると、モデルの高周波幾何学的テクスチャを表現する能力が大幅に低下し、レンダリングされた外観が過度に滑らかになります。

さらに、研究者らは高解像度の複雑なシーンに対して 2 つの側面で改良を加えました。

まず、入力座標の位置エンコードは、 MLP が高周波関数を表現するのに役立ちます。

2つ目は層別抽出法です。高周波表現をより効率的にサンプリングするために使用されます。

GitHub コードのオープンソース

現在、NeRF プロジェクトのコードは GitHub でオープンソース化されています。

コードは主に Python 3 に基づいています。準備する必要があるライブラリとフレームワークには、TensorFlow 1.15、matplotlib、numpy、imageio、configargparse などがあります。

NeRFの最適化

研究者らによると、NeRF の最適化は 1 つの GPU だけで実行でき、数時間から 1 日か 2 日 (解像度によって異なります) かかるとのことです。

最適化された NeRF から画像をレンダリングするには、約 1 ～ 30 秒しかかかりません。

次のコードを実行して、Lego データセットと LLFF Fern データセットを生成します。

 bash ダウンロード_example_data.sh

低解像度の Fern NeRF を最適化するには:

 Python の run_nerf.py --config config_fern.txt

200 回の反復後、次の結果が得られます。

低解像度の Lego NeRF を最適化するには:

 python run_nerf.py --config config_lego.txt

200 回の反復後、次の結果が得られます。

レンダリングを開始

次のコードを実行して、Fern データセットの事前トレーニング済みの高解像度 NeRF を取得します。

 bash ダウンロード_example_weights.sh

レンダリングコードは render_demo.ipynb にあります。

あるいは、次のように NeRF をグリッドに変換することもできます。

具体的な例は extract_mesh.ipynb にあります。 PyMCubes、trimesh、pyrender パッケージも準備する必要があります。

著者について: 3人の若い才能

この論文の研究チームは、カリフォルニア大学バークレー校、Google Research、カリフォルニア大学サンディエゴ校から構成されています。

共著者は3人います。

ベン・ミルデンホールはスタンフォード大学を卒業し、学士号を取得しました。現在は、バークレー校の電気工学およびコンピューターサイエンス学部 (EECS) の助教授であるレン・ン氏の指導の下、博士課程に在籍しています。コンピュータービジョンとグラフィックスの研究に専念しています。

Pratul P. Srinivasan 氏は、Yiren Wu 氏と Ravi Ramamoorthi 氏の指導の下、バークレー大学で電気電子工学の博士課程に在籍しています。

マシュー・タンシックは、前 2 人の著者の同級生で、MIT で学士号と修士号を取得しました。彼はコンピューターイメージングとコンピュータービジョンの研究に注力しているほか、写真愛好家でもあります。

最適化は 1 つの GPU だけで完了し、最適化後のレンダリングには 1 ～ 30 秒しかかかりません。非常に便利で効率的なプロジェクトですので、今すぐ試してみませんか?

もう一つ

最後に、この分野における興味深い研究を紹介したいと思います。

NeRF は確かに強力ですが、入力としてさらに多くの写真が必要です...

では、たった 1 枚の写真で3D 効果を生み出す方法はあるのでしょうか?

ただ尋ねれば、手に入ります。

以前、Adobe のインターンは、1 つの 2D 画像を数秒で 3D に変換できるインテリジェントな被写界深度アルゴリズムを提案しました。

効果を実感してみましょう。

超大作映画のような雰囲気もあります。

最近、台湾の国立清華大学の研究者らが古い写真を3D画像に変換する新しい方法を考案し、その論文がCVPR 2020に選出されました。

女神オードリー・ヘプバーン、ピカソ、マーク・トウェインを見てください。

今後は写真を振って見るのがより楽しくなりそうな気がします。

「月面着陸」と「宇宙飛行士と握手する人々」の写真の肉眼3D効果を見てみましょう。

かなり没入感があります。

先ほど紹介した Adobe アルゴリズム (背景にリンクを追加) と同様に、この 3D 画像の階層化深度修復テクノロジのコアアルゴリズムもコンテキスト認識修復に関連しています。

レイヤー化された深度画像 (LDI) が初期化され、前景と背景の輪郭を形成するようにカットされ、その後、エッジの背景ピクセルのみが修復されます。エッジの「既知」側からローカルコンテキスト領域が抽出され、「未知」側に合成領域が生成されます (下の図 c を参照)。

そういえば、この技術の成熟は、3D モデリングの経験がない個人のビデオ制作者、ゲーム開発者、アニメーション会社にとって「朗報」と言えるでしょう。

AIテクノロジーにより、3D効果の実現がさらに簡素化されるため、Facebook、Adobe、Microsoftなどの企業がこの分野の研究に投資しています。

最後に、このプロジェクトのコードもオープンソースです...

原稿を書き終える前に、長い間「お蔵入り」していた写真シリーズを準備して、試しに撮ってみました。

これは私が最近見た中で最もクールな 3D 画像のブレークスルーでもあります。

もっとかっこいいものがあれば、ぜひメッセージを残してシェアしてください~~

ポータル

プロジェクトのホームページ: http://www.matthewtancik.com/nerfhttps://shihmengli.github.io/3D-Photo-Inpainting/

GitHub アドレス: https://github.com/bmild/nerf https://github.com/vt-vl-lab/3d-photo-inpainting

<<: モデルはわずか7M：軽量で高精度な顔認識方式DBFace

>>: AI + コンサルティング: データサイエンティストはコンサルタントになるか?

ブログ

2Dが3Dになり、視野角を自由に変更でき、高精細な立体感が完璧に復元されます

静止画像、合成されたリアルな3D効果

神経放射場法

GitHub コードのオープンソース

NeRFの最適化

レンダリングを開始

著者について: 3人の若い才能

もう一つ

ポータル

2020 年の機械学習スタートアップトップ 10

AIは賢くなり、これらの新しい技術は流行の防止と生産の再開に役立つだろう

Microsoft Azure AI テキスト読み上げサービスのアップグレード: 新しい男性の声とより多くの言語サポート

IT 労働者の皆さん、AI があなたの仕事を「奪う」ためにやって来ています!今回はデータセンターからスタートします

スマートグリッドディスパッチ自動化の詳細な説明

人工知能は人々を失業させるだけでしょうか？マッキンゼーの調査と分析では、異なる答えが出ました。

ロボットはどのようにして深く学習するのでしょうか?論理的判断と感情的な選択は依然として障害となっている

推薦する

AIと機械学習がセキュリティの未来をどう変えるのか

AIが高収入の仕事を生み出すと同時に仕事を代替できる理由

図 | 武術の観点から STL ソートアルゴリズムの秘密を探る

すぐに理解できます: 電流制限におけるリーキーバケットとトークンバケットアルゴリズム

顔認識は常に私たちのそばにあり、中秋節は「ハッピースキャン」から始まります

2021年のAIに関する10の大胆な予測

ChatGPT がリリースされてから 1 年が経ちました。主要なオープンソースモデルはすべて追いついたのでしょうか?

生成 AI は私たちに必要な技術革命でしょうか?

ヤン・ルカンのチームの新しい研究結果：自己教師あり学習のリバースエンジニアリング、クラスタリングはこのようにして達成されることが判明

AIは大学入試で高得点のエッセイを書けるようになったが、小説を書くにはまだ遠い