この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 この迫力ある恐竜の化石の写真を見ると、きっとビデオで撮影したんだと思うでしょう? しかし、真実は、それは完全に静止画像によって生成されたものです。 そうです、 3Dモデリングも必要ありません。 これはカリフォルニア大学バークレー校とGoogleによる最新の研究であるNeRFであり、少数の静止画像を入力するだけで、複数の視点からのリアルな3D効果を実現できる。 この研究のコードとデータもオープンソースになっていることにも注目すべきです。 アイデアがあれば、ぜひ試してみてください。 静止画像、合成されたリアルな3D効果まず、合成データセットに対する NeRF の効果を見てみましょう。 生成されたオブジェクトは、どの角度で回転しても、照明、影、さらにはオブジェクトの表面の詳細まで非常にリアルであることがわかります。 それは、ビデオ機器を持って、オブジェクトの周囲のビデオを録画するようなものです。 諺にあるように、比較しなければ害はありません。以下は、NeRF の効果と SRN、LLFF、Neural Volumes の効果の比較です。 比較に使用した 3 つの方法が、角度によって多少ぼやけていることは容易にわかります。 NeRFは死角のない360度高精細効果を実現したといえる。 次は NeRF の視点依存の結果です。 カメラの視点を固定し、照会された視線方向を変更することで、視点に依存する外観エンコーディングが NeRF 表現で視覚化されます。 NeRF は、複雑な遮蔽があるシーン内の詳細なジオメトリも表示できます。 実際のシーンに仮想オブジェクトを挿入することもでき、「近くでは大きく、遠くでは小さく」やオクルージョンなどの効果もリアルに再現できます。 もちろん、360度でリアルなシーンを撮影することも可能です。 神経放射場法このような優れた効果はどのようにして達成されるのでしょうか? 1 つ目は、位置と視線方向で構成される連続 5D 座標によって定義されるベクトル関数としてシーンのボリューム表現を最適化することです。具体的には、5D 座標がカメラ光線に沿ってサンプリングされ、画像が合成されます。 このようなシーン表現は、完全に接続されたディープ ネットワーク (MLP) にパラメータ化され、5D 座標情報を通じて対応する色とボリューム密度の値が出力されます。 これらの値は、ボリュームレンダリング技術を使用して RGB 画像に合成されます。 レンダリング関数は微分可能であるため、合成画像と実画像間の残差を最小化することでシーン表現を最適化できます。 MLP は 8 つの完全接続層 (ReLU アクティベーション、層あたり 256 チャネル) を使用して入力を処理し、σ と 256 次元の特徴ベクトルを出力することに注意することが重要です。この特徴ベクトルはカメラビューと連結され、さらに 4 つの完全接続レイヤー (ReLU アクティベーション、各 128 チャネル) を通過して、視点に依存する RGB カラーを出力します。 NeRF による RGB カラー出力も、空間位置 x と視線方向 d の 5D 関数です。 これを実行することの利点は比較を通じてわかります。視点の相関関係が削除されると、モデルは鏡面反射を再現できなくなることがわかります。位置エンコーディングが削除されると、モデルの高周波幾何学的テクスチャを表現する能力が大幅に低下し、レンダリングされた外観が過度に滑らかになります。 さらに、研究者らは高解像度の複雑なシーンに対して 2 つの側面で改良を加えました。 まず、入力座標の位置エンコードは、 MLP が高周波関数を表現するのに役立ちます。 2つ目は層別抽出法です。高周波表現をより効率的にサンプリングするために使用されます。 GitHub コードのオープンソース現在、NeRF プロジェクトのコードは GitHub でオープンソース化されています。 コードは主に Python 3 に基づいています。準備する必要があるライブラリとフレームワークには、TensorFlow 1.15、matplotlib、numpy、imageio、configargparse などがあります。 NeRFの最適化研究者らによると、NeRF の最適化は 1 つの GPU だけで実行でき、数時間から 1 日か 2 日 (解像度によって異なります) かかるとのことです。 最適化された NeRF から画像をレンダリングするには、約 1 ~ 30 秒しかかかりません。 次のコードを実行して、Lego データセットと LLFF Fern データセットを生成します。
低解像度の Fern NeRF を最適化するには:
200 回の反復後、次の結果が得られます。 低解像度の Lego NeRF を最適化するには:
200 回の反復後、次の結果が得られます。 レンダリングを開始次のコードを実行して、Fern データセットの事前トレーニング済みの高解像度 NeRF を取得します。
レンダリング コードは render_demo.ipynb にあります。 あるいは、次のように NeRF をグリッドに変換することもできます。 具体的な例は extract_mesh.ipynb にあります。 PyMCubes、trimesh、pyrender パッケージも準備する必要があります。 著者について: 3人の若い才能この論文の研究チームは、カリフォルニア大学バークレー校、Google Research、カリフォルニア大学サンディエゴ校から構成されています。 共著者は3人います。 ベン・ミルデンホールはスタンフォード大学を卒業し、学士号を取得しました。現在は、バークレー校の電気工学およびコンピューターサイエンス学部 (EECS) の助教授であるレン・ン氏の指導の下、博士課程に在籍しています。コンピュータービジョンとグラフィックスの研究に専念しています。 Pratul P. Srinivasan 氏は、Yiren Wu 氏と Ravi Ramamoorthi 氏の指導の下、バークレー大学で電気電子工学の博士課程に在籍しています。 マシュー・タンシックは、前 2 人の著者の同級生で、MIT で学士号と修士号を取得しました。彼はコンピューターイメージングとコンピュータービジョンの研究に注力しているほか、写真愛好家でもあります。 最適化は 1 つの GPU だけで完了し、最適化後のレンダリングには 1 ~ 30 秒しかかかりません。非常に便利で効率的なプロジェクトですので、今すぐ試してみませんか? もう一つ最後に、この分野における興味深い研究を紹介したいと思います。 NeRF は確かに強力ですが、入力としてさらに多くの写真が必要です... では、たった 1 枚の写真で3D 効果を生み出す方法はあるのでしょうか? ただ尋ねれば、手に入ります。 以前、Adobe のインターンは、1 つの 2D 画像を数秒で 3D に変換できるインテリジェントな被写界深度アルゴリズムを提案しました。 効果を実感してみましょう。 超大作映画のような雰囲気もあります。 最近、台湾の国立清華大学の研究者らが古い写真を3D画像に変換する新しい方法を考案し、その論文がCVPR 2020に選出されました。 女神オードリー・ヘプバーン、ピカソ、マーク・トウェインを見てください。 今後は写真を振って見るのがより楽しくなりそうな気がします。 「月面着陸」と「宇宙飛行士と握手する人々」の写真の肉眼3D効果を見てみましょう。 かなり没入感があります。 先ほど紹介した Adobe アルゴリズム (背景にリンクを追加) と同様に、この 3D 画像の階層化深度修復テクノロジのコア アルゴリズムもコンテキスト認識修復に関連しています。 レイヤー化された深度画像 (LDI) が初期化され、前景と背景の輪郭を形成するようにカットされ、その後、エッジの背景ピクセルのみが修復されます。エッジの「既知」側からローカル コンテキスト領域が抽出され、「未知」側に合成領域が生成されます (下の図 c を参照)。 そういえば、この技術の成熟は、3D モデリングの経験がない個人のビデオ制作者、ゲーム開発者、アニメーション会社にとって「朗報」と言えるでしょう。 AIテクノロジーにより、3D効果の実現がさらに簡素化されるため、Facebook、Adobe、Microsoftなどの企業がこの分野の研究に投資しています。 最後に、このプロジェクトのコードもオープンソースです... 原稿を書き終える前に、長い間「お蔵入り」していた写真シリーズを準備して、試しに撮ってみました。 これは私が最近見た中で最もクールな 3D 画像のブレークスルーでもあります。 もっとかっこいいものがあれば、ぜひメッセージを残してシェアしてください~~ ポータルプロジェクトのホームページ: http://www.matthewtancik.com/nerfhttps://shihmengli.github.io/3D-Photo-Inpainting/ GitHub アドレス: https://github.com/bmild/nerf https://github.com/vt-vl-lab/3d-photo-inpainting |
<<: モデルはわずか7M:軽量で高精度な顔認識方式DBFace
>>: AI + コンサルティング: データ サイエンティストはコンサルタントになるか?
今日の人事チームにはバランスを取ることが求められています。一方では、データと AI の力を活用してビ...
不安定な市場環境、規制上のハードル、そしてBrexitは、好況時でも最も回復力のある企業にさえ課題を...
データ サイエンスは急速に進化しており、機械学習の役割はデータ サイエンスのハイブリッドな役割から、...
8年生の理科のテストに60点で合格すれば、8万ドル(57万人民元相当)の賞金を獲得できます。 [[...
[[183471]]図1:2017年1月7日、知能ロボット「小宝」が上海市楊浦区のショッピングモール...
すごいですね、ボストン・ダイナミクスのロボット犬が直接話せるようになりました。そして、Siriの「人...
今週の月曜日も、他の月曜日と同様に、Spotify の 1 億人を超えるユーザー全員に新しいプレイリ...
背景機械学習コミュニティでは、教師なし学習(または自己教師あり学習)は長い間、最も価値のある分野の ...
しかし、メディアで大いに宣伝された後、人々は AlphaGo が Deep Blue と同じレベルに...
近年、社会経済の発展に伴い、人工知能技術は科学技術の最前線に立っています。テクノロジーが成熟するにつ...
[51CTO.com からのオリジナル記事] AI テクノロジーは電子商取引にとって不可欠ですが、...