この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。
まずは「ビデオ」を見てみましょう。何かおかしいところはありませんか? 実際、これは一連の写真からのレンダリングにすぎません (写真は右下隅で撮影されています)。 生成されるのは単なるビデオではなく、 3D シーン モデルです。高解像度で死角がなく、任意の角度に切り替えることができます。露出やホワイト バランスなどのパラメータを調整して、新しい写真を生成することもできます。 戦車工場などのまったく異なるシナリオでは、一連の写真を使用してリアルな 3D シーンをレンダリングすることもできます。同じ角度は、実際の撮影画像とほぼ「完全に一致」します。 ご存知のとおり、 Apple はこれまでも写真のセットから対象オブジェクトの 3D モデルを生成する機能を開発したことがありますが、それはせいぜい箱などの単一のオブジェクトでした。 今回は全編3Dシーンです! これはドイツのエアランゲン・ニュルンベルク大学の研究者数名が行ったプロジェクトです。公開されるとすぐに大人気となり、海外のソーシャルメディアでは5,000件以上のいいね!と36万回以上の視聴回数を記録しました。 では、このような魔法のような効果はどのようにして生み出されるのでしょうか? 写真を使用して3Dシーングラフ全体を復元する全体として、本論文では、AI を使用して入力画像を分析し、新しい角度から新しい画像を出力する、ポイントベースの微分可能ニューラル レンダリング パイプラインADOP (近似微分可能 1 ピクセル ポイント レンダリング) を提案しています。 入力時には、3D シーンをモデル化する必要があるため、シーン全体のスパース ポイント クラウド データを取得するには、ここでの写真を厳密に撮影する必要があります。 具体的には、著者らは写真から点群データを取得する際にCOLMAPを使用しました。 まず、各写真の視点を慎重に制御しながら、さまざまな角度からシーンの写真を撮影します。 次に、SfM (Structure From Motion) 法を使用して、カメラの内部および外部パラメータを取得し、シーン全体の 3D 再構築データ、つまりシーン構造を表すスパース ポイント クラウドを取得します。 次に、ポイント クラウドなどの情報を含むシーン データがパイプラインに入力され、さらに処理されます。 パイプラインは主に、微分可能ラスタライザー、ニューラル レンダラー、微分可能トーン マッパーの3 つの部分に分かれています。 まず、マルチ解像度の単一ピクセルラスタライゼーション微分可能レンダラー(微分可能ラスタライザー)を使用して、入力カメラパラメータと再構築されたポイントクラウドデータをスパースニューラルイメージに変換します。 画像とポイント クラウドを位置合わせするモデルの部分は、NavVis データセットを使用してトレーニングされました。 次に、ニューラル レンダラーを使用して影を計算し、スパース ニューラル イメージ内の穴を埋めて HDR 画像を生成します。 最後に、すべてのデバイスが HDR 画像をサポートしているわけではないため、ダイナミック レンジを変更し、HDR 画像を LDR 画像に変換してから LDR デバイスに表示するには、物理ベースの微分可能なトーン マッパーが必要です。 トレーニング用にシーンごとに300枚以上の画像この新しいモデルの利点は何ですか? モデルのすべての段階は微分可能であるため、このモデルはシーンのすべてのパラメータ(カメラ モデル、カメラのポーズ、ポイントの位置、ポイントの色、環境マップ、レンダリング ネットワークの重み、ビネット、カメラ応答関数、画像ごとの露出、画像ごとのホワイト バランス) を最適化し、それらを使用してより高品質の画像を生成することができます。 特にトレーニングでは、著者はまず 688 枚の写真 (7300 万点のポイントを含む) を使用してこのニューラル レンダリング パイプラインをトレーニングしました。 デモのいくつかのシーン(電車、灯台、遊園地、遊び場など)では、ハイエンドカメラを使用して 300 ~ 350 枚のフル HD 画像を撮影しました。各シーンで生成されたピクセル数はそれぞれ 10M、8M、12M、11M で、画像の 5% がテストに使用されました。 つまり、このような 3D シーンを作成するには、数百枚程度の画像が必要であり、各画像の撮影角度を厳密に制御する必要があります。 しかし、一部の読者は、AI を使用すれば何百枚もの画像を撮影してシーンを作成でき、現在の手動レンダリングよりもはるかに高速であると述べています。 機能面では、調整可能なパラメータで新しい角度から写真を生成するだけでなく、自動的に補間してシーン全体の3Dレンダリングビデオを生成することもできるため、大きな可能性を秘めていると言えます。 それで、このモデルは他の現在のレンダリングと比べてどうでしょうか? 1億ピクセル以上のシーンをリアルタイムで表示著者らによると、論文で使用されている効率的な単一ピクセルラスタライゼーション方法により、ADOP は任意のカメラモデルを使用して、 1 億ピクセルを超えるシーンをリアルタイムで表示できるようになります。 肉眼で生成された結果から判断すると、最新のモデルで生成された画像には、多かれ少なかれアーティファクトや非現実的な状況がいくつかあるでしょう。対照的に、ADOP は細部を非常にうまく処理します。 データから判断すると、電車、遊び場、戦車、灯台のシーンのいずれであっても、ADOP モデルのレンダリングでは、ほぼすべてが VGG、LPIPS、PSNR で最高の結果を達成できます (戦車のデータを除く)。 しかし、研究自体にはまだいくつかの限界があります。たとえば、単一ピクセルレンダリングでは、ポイントクラウドがまばらな場合にレンダリングに穴が開くなどの問題がまだ残っています。 しかし、全体的に見ると、3Dシーンのリアルタイム表示の効果は依然として抜群であり、多くの業界関係者は「AIレンダリングの新たな高みに到達した」と述べています。 多くのネットユーザーは、映画スタジオの多くの時間と労力を節約するなど、この研究の用途を想像し始めています。 (映画を学ぶ学生の中には、卒業プロジェクトで直接使用したいという人もいます) ゲーム業界への影響も非常に良好です。
これをiPhoneで実現できたら素晴らしいだろうと想像する人もいる(すでにiPhone 15を予約注文した人もいる)。 この研究自体に関しては、部外者の視点から、それは補間モデルのようなものだと感じるネットユーザーもいる(ほぼ同じだと答えたネットユーザーもいる)。 また、ネットユーザーの中には、大量の画像が必要だったため、宣伝ほどの効果はなく、研究の可能性について懐疑的な意見もあった。 著者らはすでに GitHub プロジェクトを立ち上げていますが、コードはまだ公開されていません。興味のある学生は待ってみてください。 オープンソース化の具体的な時期については、「トップカンファレンスでの優勝後に公開する予定」と著者らは述べている。 (この論文がトップカンファレンスに無事に収録されることを願っています~) 論文の宛先: プロジェクトアドレス(コードはまだ投稿されていません): |
<<: ResNet仮説は覆されたか? Redditの人:長年誰もその原理を理解していなかった
>>: 携帯電話の顔認識はどのように機能しますか?理解を助ける記事
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
人工知能 (AI) はブラックボックスの実践と見なされることが多く、テクノロジー自体の仕組みではなく...
ガベージ コレクターは基本的に、すべてのオブジェクトが参照されている場所を追跡し、オブジェクトが参照...
[[348989]] COVID-19のロックダウンの緩和により多くの社会的要因が浮き彫りになりまし...
12年後の2030年、現在の小中学生が就職を控える頃の世界は、1.現在の職業の多くが消滅し、2.2...
IT Homeは11月16日、韓国銀行が最近、人工知能(AI)が労働市場に与える影響に関する調査報告...
4月29日、テンセントのAIモデル「Hunyuan」がCLUE(中国語言語理解評価コレクション)部門...
人工知能チャットボットはユーザーエクスペリエンスに革命をもたらしました。ロボットはユーザーが必要とす...
Go は開発者の間でますます人気が高まっています。数年前、Didiのエンジニアから、DidiではGo...