1枚の写真を2分で3Dに変換します。テクスチャ品質とマルチビューの一貫性:新しいSOTA|北京大学が制作

1枚の写真を2分で3Dに変換します。テクスチャ品質とマルチビューの一貫性:新しいSOTA|北京大学が制作

写真を 3D に変換するのにかかる時間はわずか2 分です。

さまざまな視点から見て、質感の品質と一貫性に優れています。

種に関係なく、入力された単一ビュー画像は次のようになります。

2 分後、3D バージョンが完成しました。

△上、Repaint123 ( NeRF )、下、Repaint123 ( GS )

この新しい方法はRepaint123と呼ばれます。その中心となる考え方は、2D 拡散モデルの強力な画像生成能力と再描画戦略のテクスチャ調整能力を組み合わせて、高品質でマルチビューの一貫性のある画像を生成することです。

さらに、本研究では、重なり合う領域に対して可視性を考慮した適応的な再描画強度法を導入しています。

Repaint123 は、以前の方法の大きなマルチパースペクティブ偏差、テクスチャの劣化、生成の遅さなどの問題を解決します。

プロジェクトのコードはまだ GitHub で公開されていませんが、すでに 100 人以上がスターを付けています。

Repaint123 はどのようなものですか?

これまで、画像を 3D に変換する方法としては、スコア蒸留サンプリング (SDS) が一般的に採用されていました。この方法の結果は印象的ですが、マルチビューの不一致、過飽和、過度に滑らかになったテクスチャ、生成速度が遅いなどの問題がいくつかあります。

△上から下へ:Input、Zero123-XL、Magic123、Dream gaussian

これらの問題に対処するために、北京大学、彭城研究所、シンガポール国立大学、武漢大学の研究者らはRepaint123を提案しました。

一般的に、Repaint123 には次のような貢献があります。

(1)Repaint123は、画像から3D生成までの制御可能な再描画プロセスを総合的に考慮することで、高品質の画像シーケンスを生成し、これらの画像が複数の視点から一貫性を保つことを保証します。

(2)Repaint123は、シングルビュー3D生成のための簡単なベンチマーク手法を提案した。

大まかなモデルの段階では、3D 事前分布として Zero123 を使用し、それを SDS 損失関数と組み合わせて、ガウス スプラッティング ジオメトリを最適化することで、大まかな 3D モデルをすばやく (わずか 1 分で) 生成します。

微細モデリング段階では、2D 事前分布として Stable Diffusion を使用し、それを平均二乗誤差 (MSE) 損失関数と組み合わせて、メッシュ テクスチャをすばやく改良し、高品質の 3D モデルを生成します (これもわずか 1 分で)。

(3)多数の実験によりRepaint123法の有効性が実証されている。わずか 2 分で 1 枚の画像から 2D 生成と同等の品質の高品質の 3D コンテンツを生成できます。

△ 3D一貫性と高品質のシングルビュー3D高速生成を実現

具体的な方法を以下で見ていきましょう。

Repaint123 はメッシュ改良段階の最適化に重点を置いており、主な改善方向は、マルチビュー一貫性を備えた高品質の画像シーケンスの生成と、高速で高品質の 3D 再構築の実現という 2 つの側面をカバーしています。

1. マルチビューの一貫性を備えた高品質の画像シーケンスを生成する

マルチビューの一貫性を備えた高品質の画像シーケンスの生成は、次の 3 つの部分に分かれています。

△多視点一貫性画像生成プロセス

DDIM反転

ラフモデル段階で生成された 3D の一貫した低周波テクスチャ情報を保持するために、著者らは DDIM 反転を使用して画像を特定の潜在空間に反転し、後続のノイズ除去プロセスの基礎を築き、忠実で一貫性のある画像を生成しました。

制御可能なノイズ除去

ノイズ除去段階で幾何学的一貫性と長距離テクスチャ一貫性を制御するために、著者らは、粗いモデルレンダリングの深度マップを幾何学的事前情報として使用し、テクスチャ移行のための参照画像のAttention特徴を注入するControlNetを導入しました。

さらに、画像品質を向上させるために分類器を使用しないガイダンスを実行するために、この論文では、CLIP を使用して参照画像を画像キューとしてエンコードし、ノイズ除去ネットワークをガイドします。

再描画

閉塞と重なりの段階的な再描画 画像シーケンス内の隣接する画像の重なり合う領域がピクセル レベルで確実に整列されるように、著者らは段階的なローカル再描画戦略を採用しました。

重なり合う領域はそのままに、基準視点から 360° まで徐々に広がる、調和のとれた一貫性のある隣接領域が生成されます。

しかし、下の図に示すように、著者らは、これまで斜視であった領域の視覚解像度がまっすぐ見ると大きくなるため、重複領域も精緻化する必要があることを発見し、より高周波の情報を補足する必要があることを明らかにしました。

さらに、リファインメントの強度は 1-cosθ* に等しくなります。ここで、 θ* は、以前のすべてのカメラ ビューと表示された表面の法線ベクトル間の角度θの最大値であり、これにより、重複領域が適応的に再描画されます。

△カメラ視野角と精緻化強度の関係

忠実度を確保しながら品質を向上させるために適切な改良強度を選択するために、著者らは射影定理と画像超解像のアイデアを借用し、重なり合う領域を改良するためのシンプルで直接的な可視性を考慮した再描画戦略を提案しています。

2. 高速かつ高品質な3D再構築

下の図に示すように、著者らは高速かつ高品質の 3D 再構築のために 2 段階のアプローチを採用しました。

△Repaint123 2段階シングルビュー3D生成フレームワーク

まず、ガウススプラッティング表現を利用して、妥当な形状と粗いテクスチャを素早く生成しました。

同時に、以前に生成されたマルチビューの一貫した高品質の画像シーケンスの助けを借りて、著者らは、高速な 3D テクスチャ再構築に単純な平均二乗誤差(MSE)損失を使用することができます。

最適な一貫性、品質、スピード

研究者らは、いくつかの単一ビュー生成タスクでそれぞれの方法を比較した。

△ シングルビュー3D生成可視化比較

RealFusion15 および Test-alpha データセットでは、Repaint123 は一貫性、品質、速度の点で最も優れた結果を達成しました。

同時に、著者は論文で使用した各モジュールの有効性と視点の回転増分に関するアブレーション実験も行いました。


また、視野角間隔が60度のときに性能がピークに達することがわかりましたが、視野角間隔が大きすぎると重複領域が減少し、多面的な問題が発生する可能性が高くなるため、最適な視野角間隔は40度であることがわかりました。

論文アドレス: https://arxiv.org/pdf/2312.13271.pdf
コードアドレス: https://pku-yuangroup.github.io/repaint123/
プロジェクトアドレス: https://pku-yuangroup.github.io/repaint123/

<<:  データベース向けに設計: DB-GPTはプライベートLLMテクノロジーを使用して、次世代のデータベースインタラクションを定義します。

>>:  Google DeepMind の最新研究: 敵対的攻撃は人間に対しても有効であり、人間も AI も花瓶を猫と間違える!

ブログ    
ブログ    
ブログ    

推薦する

...

...

「無人時代」が来ます。準備はできていますか?

DJIのドローン、JDの無人倉庫、アリババの無人スーパー、百度の無人自動車など、数年前からすでに台...

各自動車会社の「地図なし」インテリジェント運転ソリューションについてお話ししましょう

01 起源産業発展のニーズ2022年下半期には、高速道路や都市高速道路でのインテリジェント運転の問題...

2020年に注目すべき10のAIトレンド

来年、AI テクノロジーと市場はどのように進化するのでしょうか? 主要な AI トレンドとしては、エ...

2018年ニューリテール5大トレンド:無人小売が広がり続け、人工知能やIoTが新たな価値を創出

[[220105]]画像出典: Visual China 2016年10月の雲旗大会で、ジャック・マ...

C# のデータ構造とアルゴリズムにおけるツリーの役割を紹介します

C# データ構造とアルゴリズムツリーまず、Windows でコマンド ラインに「tree」と入力しま...

...

人工知能は工場のメンテナンスに大きな役割を果たすだろう

検出が難しい機械の故障は最もコストがかかるため、経験豊富な修理技術者の需要が高まっています。今日、多...

ショッピングをもっと便利に:Mogujie ビジュアル検索テクノロジーアーキテクチャの実践

[51CTO.com からのオリジナル記事] 周知のとおり、画像検索はコンピューター ビジョン分野に...

独立サイトへのアクセス数が10万を超えました。YidiantianxiaのKreadoAIのサポートにより、海外のウィッグ市場でこのように活躍できることがわかりました。

近年、ウィッグ業界は海外進出のホットな分野として、国際市場で急速に台頭してきました。 Statist...

科学者が警告:AIが生成したコンテンツでAIを訓練すると、数世代以内に「ゴミ」が生成され始める

6月20日のニュースによると、人工知能分野の専門家は、AIが生成したコンテンツがオンラインに投稿され...

...

OpenAI が ChatGPT と Bing 検索の統合を発表、ChatGPT Plus ユーザーのみが利用可能に

6月28日、モバイルチャットロボットChatGPTがインターネットにアクセスできるようになったが、検...