わずか 2 分で、シングル ビューの 3D 生成が高速かつ良好に行えます。北京大学などが新しいRepaint123法を提案

わずか 2 分で、シングル ビューの 3D 生成が高速かつ良好に行えます。北京大学などが新しいRepaint123法を提案

画像を 3D に変換する方法としては、通常、スコア蒸留サンプリング (SDS) 方式が採用されています。結果は素晴らしいものですが、マルチビューの不一致、過飽和、過度に滑らかなテクスチャ、生成速度の遅さなど、いくつかの欠点が残っています。
これらの問題に対処するため、北京大学、シンガポール国立大学、武漢大学などの研究者は、マルチビューバイアスやテクスチャの劣化を軽減し、生成プロセスを加速するRepaint123を提案しました。

論文アドレス: https://arxiv.org/pdf/2312.13271.pdf

GitHub: https://github.com/PKU-YuanGroup/repaint123

プロジェクトアドレス: https://pku-yuangroup.github.io/repaint123/

核となるアイデアは、2D 拡散モデルの強力な画像生成能力と再描画戦略のテクスチャ調整機能を組み合わせて、一貫性のある高品質のマルチビュー画像を生成することです。

さらに著者らは、再描画プロセス中に生成される画像の品質を向上させるために、重なり合う領域に対して可視性を考慮した適応型再描画強度を提案した。

生成された高品質でマルチビューの一貫性のある画像により、単純な平均二乗誤差 (MSE) 損失を使用した高速な 3D コンテンツ生成が可能になります。

著者らは、Repaint123 が 2 分以内に、マルチビューの一貫性と細かいテクスチャを備えた高品質の 3D コンテンツをゼロから生成できることを実証するために、広範な実験を実施しました。

この記事の主な貢献は次のとおりです。

1. Repaint123 は、画像から 3D 生成までの制御可能な再描画プロセスを完全に考慮し、一貫したマルチビューポイントを持つ高品質の画像シーケンスを生成できます。

2. Repaint123 は、シンプルなシングルビュー 3D 生成ベースラインを提案しました。粗いモデル段階では、Zero123 を 3D 事前分布と SDS 損失として使用して、ガウス スプラッティング ジオメトリを迅速に最適化しました (1 分)。細かいモデル段階では、Stable Diffusion を 2D 事前分布と MSE 損失として使用して、メッシュ テクスチャを迅速に改良しました (1 分)。

3. 広範囲にわたる実験により、Repaint123 メソッドの有効性が検証されました。このメソッドは、1 つの画像からわずか 2 分で 2D 生成と同等の品質の 3D コンテンツを生成できます。

図1: 論文の目的: 高速で一貫性のある高品質の単一ビュー3D生成

具体的な方法:

Repaint123 の主な改善点はメッシュ改良段階に集中しており、一貫した複数の視点による高品質の画像シーケンスの生成と、高速で高品質の 3D 再構築という 2 つの部分で構成されています。

ラフモデルの段階では、3D 表現として 3D ガウス スプラッティングを使用し、SDS 損失を通じてラフモデルのジオメトリとテクスチャを最適化しました。

改良段階では、著者らはラフモデルをメッシュ表現に変換し、段階的かつ制御可能なテクスチャ改良再描画スキームを提案します。

まず、幾何学的な制御と参照画像からのガイダンスを通じて、以前の最適化されたビューと比較して非表示領域を徐々に再描画することにより、新しいビューのビュー一貫性のある画像を取得します。

次に、分類器を使用しないガイダンスに画像キューを使用し、重複領域の生成品質をさらに向上させるための適応型再描画戦略を設計します。

最後に、ビュー一貫性のある高品質の画像を生成することにより、著者らは単純な MSE 損失を利用して 3D コンテンツを迅速に生成します。

複数のビューにわたって一貫した高品質の画像シーケンスの生成:

図 2 に示すように、高品質のマルチビュー一貫性画像シーケンスの生成は、次の 4 つの部分に分かれています。

図2: マルチビュー一貫性画像生成プロセス

DDIM反転

ラフモデル段階で生成された 3D の一貫した低周波テクスチャ情報を保持するために、著者は DDIM 反転を使用して画像を特定の潜在値に反転し、その後のノイズ除去の基礎として機能させて、忠実で一貫性のある画像を生成します。

制御可能なノイズ除去

幾何学的一貫性と長距離テクスチャ一貫性を制御するために、ノイズ除去段階で、ControlNetを使用して、粗いモデルレンダリングの深度マップを幾何学的事前情報として導入し、テクスチャ移行のための参照画像のAttention機能を注入します。

同時に、分類器を使用しないガイダンスを実行して画像品質を向上させるために、この論文では CLIP を使用して参照画像を画像プロンプトノイズ除去ネットワークにエンコードします。

遮蔽マスクを入手

レンダリングされた画像 In の新しいビューと深度マップ Dn からオクルージョン マスク Mn を取得するには、Ir と Dr の再描画された参照ビュー Vr が与えられ、まず深度 Dr を使用して Vr の 2D ピクセルを 3D ポイント クラウドにスケーリングし、次に新しいビュー Vn から 3D ポイント クラウド Pr をレンダリングして深度マップ Dn' を取得します。

2 つの新しいビュー深度マップ (Dn と Dn') 間の深度値が異なる領域を、オクルージョン マスク内の遮蔽領域と見なします。

遮蔽と重なりの両方を段階的に再描画する

画像シーケンス内の隣接する画像の重なり合う領域のピクセルレベルの位置合わせを確実にするために、著者らは段階的なローカル再描画戦略を使用して、重なり合う領域を変更せずに調和のとれた一貫性のある隣接領域を生成し、参照視点から 360° までこれを繰り返しました。

しかし、図 3 に示すように、著者らは、以前は斜視であった領域の視覚解像度がまっすぐ見ると高くなり、より多くの高周波情報を補足する必要があるため、重複領域も改良する必要があることを発見しました。

忠実度を確保しながら品質を向上させるために適切な改良強度を選択するために、著者らは射影定理と画像超解像の考え方を借用し、重複領域を改良するためのシンプルで直接的な可視性認識再描画戦略を提案しました。改良強度は 1-cosθ* に等しく (θ* は以前のすべてのカメラビューと表示される表面の法線ベクトルの間の角度の最大値)、重複領域を適応的に再描画します。

図3: カメラ視野角と改良強度の関係

高速かつ高品質の3D再構築:

図 4 に示すように、著者は 2 段階のアプローチを採用しました。まず、ガウス スプラッティング表現を使用して、適切なジオメトリと粗いテクスチャをすばやく生成しました。同時に、上記で生成されたマルチビューの一貫した高品質の画像シーケンスの助けを借りて、著者は単純な MSE 損失を使用して 3D テクスチャを高速に再構築することができました。

図4: Repaint123 2段階シングルビュー3D生成フレームワーク

実験結果

著者らは、複数の単一ビュー生成タスク方法を比較し、RealFusion15 および Test-alpha データセットで一貫性、品質、速度の点で最先端の結果を達成しました。

シングルビュー3D生成可視化の比較

シングルビュー3D生成の定量的比較

アブレーション実験

同時に、著者は論文で使用した各モジュールの有効性と視点の回転増分に関するアブレーション実験も行いました。

<<:  Microsoft が大規模コード モデル WaveCoder をリリースしました。 4つのコードタスクと20,000のインスタンスデータセットにより、LLMの一般化能力が大幅に向上しました。

>>:  大規模モデルの無限ストリーミング入力推論が 46% 上昇しました。国内オープンソースアクセラレーション「ファミリーバケット」が複数ラウンドの会話の長さの制限を突破

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

Baidu Brainのインテリジェント会話エンジンが9つのコア機能のリリースで「警笛を鳴らす」

言語は思考と知識を伝達し、人類の文明を推進します。そして会話によって機械はより賢くなり、人間にとって...

科学記事:強化学習後、ロボット学習のボトルネックをどう突破するのか?

[[340407]]この記事はLeiphone.comから転載したものです。転載する場合は、Lei...

データセンター冷却のための人工知能: 単なる夢物語ではない

現在、AI はデータセンターのあらゆる場所に存在し、ネットワークの管理と保護、アラートのフィルタリン...

...

...

スマートフォンアプリケーションにおける人工知能の役割

人工知能がスマートフォンアプリとユーザーエクスペリエンスをどのように変えているのか。進化し続けるテク...

...

インベントリ | 2018 年のトップ 10 新興テクノロジー: 人体は「医薬品工場」になる

[[244104]] Scientific American誌によると、近い将来、人工知能(AI)が...

情報抽出における画期的な進歩! NLP は大規模に実装されようとしているのでしょうか?

AI におけるブレークスルーには、一般的に 3 つの種類があります。学術ランキングで上位を占め、学...

OpenAIとAppleの分岐点、アルトマンとジョブズが排除された日

何の警告もなく、OpenAIのCEOサム・アルトマンは解雇された。一つの石が千の波紋を呼ぶ。ウルトラ...

...

大規模機械学習のためのプログラミング手法、計算モデル、Xgboost および MXNet の事例

[[191977]]現在、機械学習のトレンドは、従来の方法のシンプルなモデル + 少量データ (手動...

とてもかっこいいですね! Python で人工知能の最適化アルゴリズムを 5 分で理解する

概要勾配降下法は、ニューラル ネットワークでよく使われる最適化アルゴリズムの 1 つです。一般的に、...

自動運転におけるディープラーニングベースの予測と計画の融合手法のレビュー

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

...