偽3Dシーンがリアルすぎるとネット上で人気に！死角ゼロの1億画素超え、AIレンダリングの新たな高みと称賛

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

[[429616]]

まずは「ビデオ」を見てみましょう。何かおかしいところはありませんか?

実際、これは一連の写真からのレンダリングにすぎません (写真は右下隅で撮影されています)。

生成されるのは単なるビデオではなく、 3D シーンモデルです。高解像度で死角がなく、任意の角度に切り替えることができます。露出やホワイトバランスなどのパラメータを調整して、新しい写真を生成することもできます。

戦車工場などのまったく異なるシナリオでは、一連の写真を使用してリアルな 3D シーンをレンダリングすることもできます。同じ角度は、実際の撮影画像とほぼ「完全に一致」します。

ご存知のとおり、 Apple はこれまでも写真のセットから対象オブジェクトの 3D モデルを生成する機能を開発したことがありますが、それはせいぜい箱などの単一のオブジェクトでした。

今回は全編3Dシーンです！

これはドイツのエアランゲン・ニュルンベルク大学の研究者数名が行ったプロジェクトです。公開されるとすぐに大人気となり、海外のソーシャルメディアでは5,000件以上のいいね！と36万回以上の視聴回数を記録しました。

では、このような魔法のような効果はどのようにして生み出されるのでしょうか?

写真を使用して3Dシーングラフ全体を復元する

全体として、本論文では、AI を使用して入力画像を分析し、新しい角度から新しい画像を出力する、ポイントベースの微分可能ニューラルレンダリングパイプラインADOP (近似微分可能 1 ピクセルポイントレンダリング) を提案しています。

入力時には、3D シーンをモデル化する必要があるため、シーン全体のスパースポイントクラウドデータを取得するには、ここでの写真を厳密に撮影する必要があります。

具体的には、著者らは写真から点群データを取得する際にCOLMAPを使用しました。

まず、各写真の視点を慎重に制御しながら、さまざまな角度からシーンの写真を撮影します。

次に、SfM (Structure From Motion) 法を使用して、カメラの内部および外部パラメータを取得し、シーン全体の 3D 再構築データ、つまりシーン構造を表すスパースポイントクラウドを取得します。

次に、ポイントクラウドなどの情報を含むシーンデータがパイプラインに入力され、さらに処理されます。

パイプラインは主に、微分可能ラスタライザー、ニューラルレンダラー、微分可能トーンマッパーの3 つの部分に分かれています。

まず、マルチ解像度の単一ピクセルラスタライゼーション微分可能レンダラー（微分可能ラスタライザー）を使用して、入力カメラパラメータと再構築されたポイントクラウドデータをスパースニューラルイメージに変換します。

画像とポイントクラウドを位置合わせするモデルの部分は、NavVis データセットを使用してトレーニングされました。

次に、ニューラルレンダラーを使用して影を計算し、スパースニューラルイメージ内の穴を埋めて HDR 画像を生成します。

最後に、すべてのデバイスが HDR 画像をサポートしているわけではないため、ダイナミックレンジを変更し、HDR 画像を LDR 画像に変換してから LDR デバイスに表示するには、物理ベースの微分可能なトーンマッパーが必要です。

トレーニング用にシーンごとに300枚以上の画像

この新しいモデルの利点は何ですか?

モデルのすべての段階は微分可能であるため、このモデルはシーンのすべてのパラメータ(カメラモデル、カメラのポーズ、ポイントの位置、ポイントの色、環境マップ、レンダリングネットワークの重み、ビネット、カメラ応答関数、画像ごとの露出、画像ごとのホワイトバランス) を最適化し、それらを使用してより高品質の画像を生成することができます。

特にトレーニングでは、著者はまず 688 枚の写真 (7300 万点のポイントを含む) を使用してこのニューラルレンダリングパイプラインをトレーニングしました。

デモのいくつかのシーン（電車、灯台、遊園地、遊び場など）では、ハイエンドカメラを使用して 300 ～ 350 枚のフル HD 画像を撮影しました。各シーンで生成されたピクセル数はそれぞれ 10M、8M、12M、11M で、画像の 5% がテストに使用されました。

つまり、このような 3D シーンを作成するには、数百枚程度の画像が必要であり、各画像の撮影角度を厳密に制御する必要があります。

しかし、一部の読者は、AI を使用すれば何百枚もの画像を撮影してシーンを作成でき、現在の手動レンダリングよりもはるかに高速であると述べています。

機能面では、調整可能なパラメータで新しい角度から写真を生成するだけでなく、自動的に補間してシーン全体の3Dレンダリングビデオを生成することもできるため、大きな可能性を秘めていると言えます。

それで、このモデルは他の現在のレンダリングと比べてどうでしょうか?