わずか 2 分で、シングル ビューの 3D 生成が高速かつ良好に行えます。北京大学などが新しいRepaint123法を提案

わずか 2 分で、シングル ビューの 3D 生成が高速かつ良好に行えます。北京大学などが新しいRepaint123法を提案

画像を 3D に変換する方法としては、通常、スコア蒸留サンプリング (SDS) 方式が採用されています。結果は素晴らしいものですが、マルチビューの不一致、過飽和、過度に滑らかなテクスチャ、生成速度の遅さなど、いくつかの欠点が残っています。
これらの問題に対処するため、北京大学、シンガポール国立大学、武漢大学などの研究者は、マルチビューバイアスやテクスチャの劣化を軽減し、生成プロセスを加速するRepaint123を提案しました。

論文アドレス: https://arxiv.org/pdf/2312.13271.pdf

GitHub: https://github.com/PKU-YuanGroup/repaint123

プロジェクトアドレス: https://pku-yuangroup.github.io/repaint123/

核となるアイデアは、2D 拡散モデルの強力な画像生成能力と再描画戦略のテクスチャ調整機能を組み合わせて、一貫性のある高品質のマルチビュー画像を生成することです。

さらに著者らは、再描画プロセス中に生成される画像の品質を向上させるために、重なり合う領域に対して可視性を考慮した適応型再描画強度を提案した。

生成された高品質でマルチビューの一貫性のある画像により、単純な平均二乗誤差 (MSE) 損失を使用した高速な 3D コンテンツ生成が可能になります。

著者らは、Repaint123 が 2 分以内に、マルチビューの一貫性と細かいテクスチャを備えた高品質の 3D コンテンツをゼロから生成できることを実証するために、広範な実験を実施しました。

この記事の主な貢献は次のとおりです。

1. Repaint123 は、画像から 3D 生成までの制御可能な再描画プロセスを完全に考慮し、一貫したマルチビューポイントを持つ高品質の画像シーケンスを生成できます。

2. Repaint123 は、シンプルなシングルビュー 3D 生成ベースラインを提案しました。粗いモデル段階では、Zero123 を 3D 事前分布と SDS 損失として使用して、ガウス スプラッティング ジオメトリを迅速に最適化しました (1 分)。細かいモデル段階では、Stable Diffusion を 2D 事前分布と MSE 損失として使用して、メッシュ テクスチャを迅速に改良しました (1 分)。

3. 広範囲にわたる実験により、Repaint123 メソッドの有効性が検証されました。このメソッドは、1 つの画像からわずか 2 分で 2D 生成と同等の品質の 3D コンテンツを生成できます。

図1: 論文の目的: 高速で一貫性のある高品質の単一ビュー3D生成

具体的な方法:

Repaint123 の主な改善点はメッシュ改良段階に集中しており、一貫した複数の視点による高品質の画像シーケンスの生成と、高速で高品質の 3D 再構築という 2 つの部分で構成されています。

ラフモデルの段階では、3D 表現として 3D ガウス スプラッティングを使用し、SDS 損失を通じてラフモデルのジオメトリとテクスチャを最適化しました。

改良段階では、著者らはラフモデルをメッシュ表現に変換し、段階的かつ制御可能なテクスチャ改良再描画スキームを提案します。

まず、幾何学的な制御と参照画像からのガイダンスを通じて、以前の最適化されたビューと比較して非表示領域を徐々に再描画することにより、新しいビューのビュー一貫性のある画像を取得します。

次に、分類器を使用しないガイダンスに画像キューを使用し、重複領域の生成品質をさらに向上させるための適応型再描画戦略を設計します。

最後に、ビュー一貫性のある高品質の画像を生成することにより、著者らは単純な MSE 損失を利用して 3D コンテンツを迅速に生成します。

複数のビューにわたって一貫した高品質の画像シーケンスの生成:

図 2 に示すように、高品質のマルチビュー一貫性画像シーケンスの生成は、次の 4 つの部分に分かれています。

図2: マルチビュー一貫性画像生成プロセス

DDIM反転

ラフモデル段階で生成された 3D の一貫した低周波テクスチャ情報を保持するために、著者は DDIM 反転を使用して画像を特定の潜在値に反転し、その後のノイズ除去の基礎として機能させて、忠実で一貫性のある画像を生成します。

制御可能なノイズ除去

幾何学的一貫性と長距離テクスチャ一貫性を制御するために、ノイズ除去段階で、ControlNetを使用して、粗いモデルレンダリングの深度マップを幾何学的事前情報として導入し、テクスチャ移行のための参照画像のAttention機能を注入します。

同時に、分類器を使用しないガイダンスを実行して画像品質を向上させるために、この論文では CLIP を使用して参照画像を画像プロンプトノイズ除去ネットワークにエンコードします。

遮蔽マスクを入手

レンダリングされた画像 In の新しいビューと深度マップ Dn からオクルージョン マスク Mn を取得するには、Ir と Dr の再描画された参照ビュー Vr が与えられ、まず深度 Dr を使用して Vr の 2D ピクセルを 3D ポイント クラウドにスケーリングし、次に新しいビュー Vn から 3D ポイント クラウド Pr をレンダリングして深度マップ Dn' を取得します。

2 つの新しいビュー深度マップ (Dn と Dn') 間の深度値が異なる領域を、オクルージョン マスク内の遮蔽領域と見なします。

遮蔽と重なりの両方を段階的に再描画する

画像シーケンス内の隣接する画像の重なり合う領域のピクセルレベルの位置合わせを確実にするために、著者らは段階的なローカル再描画戦略を使用して、重なり合う領域を変更せずに調和のとれた一貫性のある隣接領域を生成し、参照視点から 360° までこれを繰り返しました。

しかし、図 3 に示すように、著者らは、以前は斜視であった領域の視覚解像度がまっすぐ見ると高くなり、より多くの高周波情報を補足する必要があるため、重複領域も改良する必要があることを発見しました。

忠実度を確保しながら品質を向上させるために適切な改良強度を選択するために、著者らは射影定理と画像超解像の考え方を借用し、重複領域を改良するためのシンプルで直接的な可視性認識再描画戦略を提案しました。改良強度は 1-cosθ* に等しく (θ* は以前のすべてのカメラビューと表示される表面の法線ベクトルの間の角度の最大値)、重複領域を適応的に再描画します。

図3: カメラ視野角と改良強度の関係

高速かつ高品質の3D再構築:

図 4 に示すように、著者は 2 段階のアプローチを採用しました。まず、ガウス スプラッティング表現を使用して、適切なジオメトリと粗いテクスチャをすばやく生成しました。同時に、上記で生成されたマルチビューの一貫した高品質の画像シーケンスの助けを借りて、著者は単純な MSE 損失を使用して 3D テクスチャを高速に再構築することができました。

図4: Repaint123 2段階シングルビュー3D生成フレームワーク

実験結果

著者らは、複数の単一ビュー生成タスク方法を比較し、RealFusion15 および Test-alpha データセットで一貫性、品質、速度の点で最先端の結果を達成しました。

シングルビュー3D生成可視化の比較

シングルビュー3D生成の定量的比較

アブレーション実験

同時に、著者は論文で使用した各モジュールの有効性と視点の回転増分に関するアブレーション実験も行いました。

<<:  Microsoft が大規模コード モデル WaveCoder をリリースしました。 4つのコードタスクと20,000のインスタンスデータセットにより、LLMの一般化能力が大幅に向上しました。

>>:  大規模モデルの無限ストリーミング入力推論が 46% 上昇しました。国内オープンソースアクセラレーション「ファミリーバケット」が複数ラウンドの会話の長さの制限を突破

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

人材に余裕がないわけではありませんが、AI 検査の方がコスト効率が良いのです。

著者 | Tu Chengyeレビュー | Chonglou石炭、電力、化学などの多くの産業では、安...

...

人工知能によるモザイク除去ディープ CNN デノイザーと多層隣接コンポーネント埋め込みによるモザイク除去

モザイク除去のための人工知能、ディープ CNN デノイザーとモザイク除去のための多層隣接コンポーネン...

機械は倫理的な判断を下せるのか?

ロボットや機械が下す決定は必ずしも道徳的に正しいとは限りません。テクノロジー企業が機械倫理に注目する...

...

AI応用分野トップ10: AIはかつてないほど優れている

1956 年のダートマス会議で AI が提案されて以来、AI 研究はいくつかの浮き沈みを経験してきま...

機械学習は自動化を成功させる鍵となるのでしょうか?

機械学習 (ML) は情報技術 (IT) の柱の 1 つであり、人工知能のサブセットとして定義できま...

...

自動運転車向けのディープラーニングは課題にどのように対処するのでしょうか?

[[350796]]自動運転車でディープラーニングを使用すると、歩行者の行動を理解したり、最短ルー...

データセット検索アーティファクト! 100 個の大規模な機械学習データセットがここに収集されています

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

リザーブプールコンピューティングにおける新たなブレークスルー:ニューロン数が少なくなり、コンピューティング速度が最大100万倍に高速化

複雑なシステムを予測するには、より多くのニューロンを使用する必要がありますか?ネイチャー・コミュニケ...

...

AI バイアス: なぜ起こるのか、そして企業はどのように修正できるのか

ビジネスや社会で AI の利用が広まるにつれ、企業は機械モデルに現れる人間の偏見に注意を払う必要があ...

AI技術がピカソの隠された絵画の発見を助ける

[[429170]]最近、外国メディアの報道によると、有名になる前のパブロ・ピカソは、必ずしも画材を...