偽3Dシーンがリアルすぎるとネット上で人気に!死角ゼロの1億画素超え、AIレンダリングの新たな高みと称賛

偽3Dシーンがリアルすぎるとネット上で人気に!死角ゼロの1億画素超え、AIレンダリングの新たな高みと称賛

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

[[429616]]

まずは「ビデオ」を見てみましょう。何かおかしいところはありませんか?

実際、これは一連の写真からのレンダリングにすぎません (写真は右下隅で撮影されています)。

生成されるのは単なるビデオではなく、 3D シーン モデルです。高解像度で死角がなく、任意の角度に切り替えることができます。露出やホワイト バランスなどのパラメータを調整して、新しい写真を生成することもできます。

戦車工場などのまったく異なるシナリオでは、一連の写真を使用してリアルな 3D シーンをレンダリングすることもできます。同じ角度は、実際の撮影画像とほぼ「完全に一致」します。

ご存知のとおり、 Apple はこれまでも写真のセットから対象オブジェクトの 3D モデルを生成する機能を開発したことがありますが、それはせいぜい箱などの単一のオブジェクトでした。

今回は全編3Dシーンです!

これはドイツのエアランゲン・ニュルンベルク大学の研究者数名が行ったプロジェクトです。公開されるとすぐに大人気となり、海外のソーシャルメディアでは5,000以上のいいね!と36万回以上の視聴回数を記録しました。

では、このような魔法のような効果はどのようにして生み出されるのでしょうか?

写真を使用して3Dシーングラフ全体を復元する

全体として、本論文では、AI を使用して入力画像を分析し、新しい角度から新しい画像を出力する、ポイントベースの微分可能ニューラル レンダリング パイプラインADOP (近似微分可能 1 ピクセル ポイント レンダリング) を提案しています。

入力時には、3D シーンをモデル化する必要があるため、シーン全体のスパース ポイント クラウド データを取得するには、ここでの写真を厳密に撮影する必要があります。

具体的には、著者らは写真から点群データを取得する際にCOLMAPを使用しました。

まず、各写真の視点を慎重に制御しながら、さまざまな角度からシーンの写真を撮影します。

次に、SfM (Structure From Motion) 法を使用して、カメラの内部および外部パラメータを取得し、シーン全体の 3D 再構築データ、つまりシーン構造を表すスパース ポイント クラウドを取得します。

次に、ポイント クラウドなどの情報を含むシーン データがパイプラインに入力され、さらに処理されます。

パイプラインは主に、微分可能ラスタライザー、ニューラル レンダラー、微分可能トーン マッパーの3 つの部分に分かれています。

まず、マルチ解像度の単一ピクセルラスタライゼーション微分可能レンダラー(微分可能ラスタライザー)を使用して、入力カメラパラメータと再構築されたポイントクラウドデータをスパースニューラルイメージに変換します。

画像とポイント クラウドを位置合わせするモデルの部分は、NavVis データセットを使用してトレーニングされました。

次に、ニューラル レンダラーを使用して影を計算し、スパース ニューラル イメージ内の穴を埋めて HDR 画像を生成します。

最後に、すべてのデバイスが HDR 画像をサポートしているわけではないため、ダイナミック レンジを変更し、HDR 画像を LDR 画像に変換してから LDR デバイスに表示するには、物理​​ベースの微分可能なトーン マッパーが必要です。

トレーニング用にシーンごとに300枚以上の画像

この新しいモデルの利点は何ですか?

モデルのすべての段階は微分可能であるため、このモデルはシーンのすべてのパラメータ(カメラ モデル、カメラのポーズ、ポイントの位置、ポイントの色、環境マップ、レンダリング ネットワークの重み、ビネット、カメラ応答関数、画像ごとの露出、画像ごとのホワイト バランス) を最適化し、それらを使用してより高品質の画像を生成することができます。

特にトレーニングでは、著者はまず 688 枚の写真 (7300 万点のポイントを含む) を使用してこのニューラル レンダリング パイプラインをトレーニングしました。

デモのいくつかのシーン(電車、灯台、遊園地、遊び場など)では、ハイエンドカメラを使用して 300 ~ 350 枚のフル HD 画像を撮影しました。各シーンで生成されたピクセル数はそれぞれ 10M、8M、12M、11M で、画像の 5% がテストに使用されました。

つまり、このような 3D シーンを作成するには、数百枚程度の画像が必要であり、各画像の撮影角度を厳密に制御する必要があります。

しかし、一部の読者は、AI を使用すれば何百枚もの画像を撮影してシーンを作成でき、現在の手動レンダリングよりもはるかに高速であると述べています。

機能面では、調整可能なパラメータで新しい角度から写真を生成するだけでなく、自動的に補間してシーン全体の3Dレンダリングビデオを生成することもできるため、大きな可能性を秘めていると言えます。

それで、このモデルは他の現在のレンダリングと比べてどうでしょうか?

1億ピクセル以上のシーンをリアルタイムで表示

著者らによると、論文で使用されている効率的な単一ピクセルラスタライゼーション方法により、ADOP は任意のカメラモデルを使用して、 1 億ピクセルを超えるシーンをリアルタイムで表示できるようになります。

肉眼で生成された結果から判断すると、最新のモデルで生成された画像には、多かれ少なかれアーティファクトや非現実的な状況がいくつかあるでしょう。対照的に、ADOP は細部を非常にうまく処理します。

データから判断すると、電車、遊び場、戦車、灯台のシーンのいずれであっても、ADOP モデルのレンダリングでは、ほぼすべてが VGG、LPIPS、PSNR で最高の結果を達成できます (戦車のデータを除く)。

しかし、研究自体にはまだいくつかの限界があります。たとえば、単一ピクセルレンダリングでは、ポイントクラウドがまばらな場合にレンダリングに穴が開くなどの問題がまだ残っています。

しかし、全体的に見ると、3Dシーンのリアルタイム表示の効果は依然として抜群であり、多くの業界関係者は「AIレンダリングの新たな高みに到達した」と述べています。

多くのネットユーザーは、映画スタジオの多くの時間と労力を節約するなど、この研究の用途を想像し始めています。

(映画を学ぶ学生の中には、卒業プロジェクトで直接使用したいという人もいます)

ゲーム業界への影響も非常に良好です。

自宅で3Aの傑作を作れるシーンが実現する日が来るのでしょうか?待つのは本当に辛いです。

これをiPhoneで実現できたら素晴らしいだろうと想像する人もいる(すでにiPhone 15を予約注文した人もいる)。

この研究自体に関しては、部外者の視点から、それは補間モデルのようなものだと感じるネットユーザーもいる(ほぼ同じだと答えたネットユーザーもいる)。

また、ネットユーザーの中には、大量の画像が必要だったため、宣伝ほどの効果はなく、研究の可能性について懐疑的な意見もあった。

著者らはすでに GitHub プロジェクトを立ち上げていますが、コードはまだ公開されていません。興味のある学生は待ってみてください。

オープンソース化の具体的な時期については、「トップカンファレンスでの優勝後に公開する予定」と著者らは述べている。 (この論文がトップカンファレンスに無事に収録されることを願っています~)

論文の宛先:
https://arxiv.org/abs/2110.06635

プロジェクトアドレス(コードはまだ投稿されていません):
https://github.com/darglein/ADOP

<<:  ResNet仮説は覆されたか? Redditの人:長年誰もその原理を理解していなかった

>>:  携帯電話の顔認識はどのように機能しますか?理解を助ける記事

ブログ    

推薦する

BEV におけるレーダー・カメラ間データセット融合に関する実験的研究

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

70年前、彼は試験を避けたかったが、インターネット全体に影響を与えた

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

人工知能を人間化して、その信頼性を確立するにはどうすればよいでしょうか?

人工知能 (AI) はブラックボックスの実践と見なされることが多く、テクノロジー自体の仕組みではなく...

.Netガベージコレクションメカニズムはアルゴリズムと世代の年齢を理解します

ガベージ コレクターは基本的に、すべてのオブジェクトが参照されている場所を追跡し、オブジェクトが参照...

モビリティの未来:スマート、持続可能、効率的

[[348989]] COVID-19のロックダウンの緩和により多くの社会的要因が浮き彫りになりまし...

人工知能の時代において、あなたの子供は15年後にどんな職業に就くことができるでしょうか?

12年後の2030年、現在の小中学生が就職を控える頃の世界は、1.現在の職業の多くが消滅し、2.2...

...

韓国中央銀行が警告:AIが国内で400万の雇用を奪う可能性

IT Homeは11月16日、韓国銀行が最近、人工知能(AI)が労働市場に与える影響に関する調査報告...

...

テンセントの「Hunyuan」AIモデルがCLUE分類リストの歴史的記録を更新

4月29日、テンセントのAIモデル「Hunyuan」がCLUE(中国語言語理解評価コレクション)部門...

見逃せない主流の AI チャットボット プラットフォーム 11 選

人工知能チャットボットはユーザーエクスペリエンスに革命をもたらしました。ロボットはユーザーが必要とす...

...

GoはPythonよりはるかに進んでおり、機械学習の人材は非常に不足しています。世界中の16,655人のプログラマーが真実を語ります

Go は開発者の間でますます人気が高まっています。数年前、Didiのエンジニアから、DidiではGo...

...

...