わずか 2 分で、シングル ビューの 3D 生成が高速かつ良好に行えます。北京大学などが新しいRepaint123法を提案

わずか 2 分で、シングル ビューの 3D 生成が高速かつ良好に行えます。北京大学などが新しいRepaint123法を提案

画像を 3D に変換する方法としては、通常、スコア蒸留サンプリング (SDS) 方式が採用されています。結果は素晴らしいものですが、マルチビューの不一致、過飽和、過度に滑らかなテクスチャ、生成速度の遅さなど、いくつかの欠点が残っています。
これらの問題に対処するため、北京大学、シンガポール国立大学、武漢大学などの研究者は、マルチビューバイアスやテクスチャの劣化を軽減し、生成プロセスを加速するRepaint123を提案しました。

論文アドレス: https://arxiv.org/pdf/2312.13271.pdf

GitHub: https://github.com/PKU-YuanGroup/repaint123

プロジェクトアドレス: https://pku-yuangroup.github.io/repaint123/

核となるアイデアは、2D 拡散モデルの強力な画像生成能力と再描画戦略のテクスチャ調整機能を組み合わせて、一貫性のある高品質のマルチビュー画像を生成することです。

さらに著者らは、再描画プロセス中に生成される画像の品質を向上させるために、重なり合う領域に対して可視性を考慮した適応型再描画強度を提案した。

生成された高品質でマルチビューの一貫性のある画像により、単純な平均二乗誤差 (MSE) 損失を使用した高速な 3D コンテンツ生成が可能になります。

著者らは、Repaint123 が 2 分以内に、マルチビューの一貫性と細かいテクスチャを備えた高品質の 3D コンテンツをゼロから生成できることを実証するために、広範な実験を実施しました。

この記事の主な貢献は次のとおりです。

1. Repaint123 は、画像から 3D 生成までの制御可能な再描画プロセスを完全に考慮し、一貫したマルチビューポイントを持つ高品質の画像シーケンスを生成できます。

2. Repaint123 は、シンプルなシングルビュー 3D 生成ベースラインを提案しました。粗いモデル段階では、Zero123 を 3D 事前分布と SDS 損失として使用して、ガウス スプラッティング ジオメトリを迅速に最適化しました (1 分)。細かいモデル段階では、Stable Diffusion を 2D 事前分布と MSE 損失として使用して、メッシュ テクスチャを迅速に改良しました (1 分)。

3. 広範囲にわたる実験により、Repaint123 メソッドの有効性が検証されました。このメソッドは、1 つの画像からわずか 2 分で 2D 生成と同等の品質の 3D コンテンツを生成できます。

図1: 論文の目的: 高速で一貫性のある高品質の単一ビュー3D生成

具体的な方法:

Repaint123 の主な改善点はメッシュ改良段階に集中しており、一貫した複数の視点による高品質の画像シーケンスの生成と、高速で高品質の 3D 再構築という 2 つの部分で構成されています。

ラフモデルの段階では、3D 表現として 3D ガウス スプラッティングを使用し、SDS 損失を通じてラフモデルのジオメトリとテクスチャを最適化しました。

改良段階では、著者らはラフモデルをメッシュ表現に変換し、段階的かつ制御可能なテクスチャ改良再描画スキームを提案します。

まず、幾何学的な制御と参照画像からのガイダンスを通じて、以前の最適化されたビューと比較して非表示領域を徐々に再描画することにより、新しいビューのビュー一貫性のある画像を取得します。

次に、分類器を使用しないガイダンスに画像キューを使用し、重複領域の生成品質をさらに向上させるための適応型再描画戦略を設計します。

最後に、ビュー一貫性のある高品質の画像を生成することにより、著者らは単純な MSE 損失を利用して 3D コンテンツを迅速に生成します。

複数のビューにわたって一貫した高品質の画像シーケンスの生成:

図 2 に示すように、高品質のマルチビュー一貫性画像シーケンスの生成は、次の 4 つの部分に分かれています。

図2: マルチビュー一貫性画像生成プロセス

DDIM反転

ラフモデル段階で生成された 3D の一貫した低周波テクスチャ情報を保持するために、著者は DDIM 反転を使用して画像を特定の潜在値に反転し、その後のノイズ除去の基礎として機能させて、忠実で一貫性のある画像を生成します。

制御可能なノイズ除去

幾何学的一貫性と長距離テクスチャ一貫性を制御するために、ノイズ除去段階で、ControlNetを使用して、粗いモデルレンダリングの深度マップを幾何学的事前情報として導入し、テクスチャ移行のための参照画像のAttention機能を注入します。

同時に、分類器を使用しないガイダンスを実行して画像品質を向上させるために、この論文では CLIP を使用して参照画像を画像プロンプトノイズ除去ネットワークにエンコードします。

遮蔽マスクを入手

レンダリングされた画像 In の新しいビューと深度マップ Dn からオクルージョン マスク Mn を取得するには、Ir と Dr の再描画された参照ビュー Vr が与えられ、まず深度 Dr を使用して Vr の 2D ピクセルを 3D ポイント クラウドにスケーリングし、次に新しいビュー Vn から 3D ポイント クラウド Pr をレンダリングして深度マップ Dn' を取得します。

2 つの新しいビュー深度マップ (Dn と Dn') 間の深度値が異なる領域を、オクルージョン マスク内の遮蔽領域と見なします。

遮蔽と重なりの両方を段階的に再描画する

画像シーケンス内の隣接する画像の重なり合う領域のピクセルレベルの位置合わせを確実にするために、著者らは段階的なローカル再描画戦略を使用して、重なり合う領域を変更せずに調和のとれた一貫性のある隣接領域を生成し、参照視点から 360° までこれを繰り返しました。

しかし、図 3 に示すように、著者らは、以前は斜視であった領域の視覚解像度がまっすぐ見ると高くなり、より多くの高周波情報を補足する必要があるため、重複領域も改良する必要があることを発見しました。

忠実度を確保しながら品質を向上させるために適切な改良強度を選択するために、著者らは射影定理と画像超解像の考え方を借用し、重複領域を改良するためのシンプルで直接的な可視性認識再描画戦略を提案しました。改良強度は 1-cosθ* に等しく (θ* は以前のすべてのカメラビューと表示される表面の法線ベクトルの間の角度の最大値)、重複領域を適応的に再描画します。

図3: カメラ視野角と改良強度の関係

高速かつ高品質の3D再構築:

図 4 に示すように、著者は 2 段階のアプローチを採用しました。まず、ガウス スプラッティング表現を使用して、適切なジオメトリと粗いテクスチャをすばやく生成しました。同時に、上記で生成されたマルチビューの一貫した高品質の画像シーケンスの助けを借りて、著者は単純な MSE 損失を使用して 3D テクスチャを高速に再構築することができました。

図4: Repaint123 2段階シングルビュー3D生成フレームワーク

実験結果

著者らは、複数の単一ビュー生成タスク方法を比較し、RealFusion15 および Test-alpha データセットで一貫性、品質、速度の点で最先端の結果を達成しました。

シングルビュー3D生成可視化の比較

シングルビュー3D生成の定量的比較

アブレーション実験

同時に、著者は論文で使用した各モジュールの有効性と視点の回転増分に関するアブレーション実験も行いました。

<<:  Microsoft が大規模コード モデル WaveCoder をリリースしました。 4つのコードタスクと20,000のインスタンスデータセットにより、LLMの一般化能力が大幅に向上しました。

>>:  大規模モデルの無限ストリーミング入力推論が 46% 上昇しました。国内オープンソースアクセラレーション「ファミリーバケット」が複数ラウンドの会話の長さの制限を突破

ブログ    

推薦する

Dharma AI Labが3つのスマートデバイスをリリース、Tmall Genieがオンラインに

アリババのダルマ人工知能研究所は最近、深セン衛星テレビと共同で「Show AI Life」という新製...

新しい脳のようなコンピューティングデバイスは人間の学習をシミュレートできる:この論文はNature Communications誌に掲載された。

「シナプストランジスタ」は、脳の可塑性を模倣して、データの処理と保存を同時に行うことができます。 ...

OpenLLMを使用して大規模なモデルアプリケーションを構築および展開する

この共有のテーマは、「OpenLLM を使用して大規模な言語モデル アプリケーションを迅速に構築およ...

...

Groq LPU の謎を解明: 世界最速のハードウェア アクセラレータの基礎となるアーキテクチャ設計!

先月末、スタートアップ企業Groqの製品が一夜にして人気を博した。自社開発のハードウェアアクセラレー...

...

...

2030 年までに AI と私たちの世界はどうなるでしょうか?

2030年までに、私たちの世界は変わるでしょう。人工知能 (AI) は、スマート シティ、モノのイ...

DeepMind のニューラル ネットワーク記憶研究を分析: 動物の脳をシミュレートして継続的な学習を実現する

1. はじめにインターネットに溢れる AI 関連の情報の大半は、一般の人向けに進歩を説明するものと、...

これらの6つのヒントを活用してAIガバナンスの問題を解決しましょう

AI ガバナンスは、データ プライバシー、アルゴリズムのバイアス、コンプライアンス、倫理など、企業内...

「ビッグデータが古い顧客を殺す」といった混乱が顕著になる中、どのような「アルゴリズム」が必要なのでしょうか?

次のような経験をしたことはありませんか。求人検索サイトで仕事の希望に関するアンケートに答えると、サイ...

新参者と大企業が直接会うとき、研究室なしではやっていけないことがよくある | T Guanhai

インタビューゲスト | アンジー・チュー、ロージー・チャン編集者 | ユン・チャオ海を観察する人は、...

大好きです!初心者に適した 7 つの高品質 AI プロジェクト

人工知能が本格的に普及しつつあります。AIの知識を学ばなければ、自分が新時代の後継者だと言えるでしょ...

2024年にIT業界は成長を遂げる:AIとサイバーセキュリティが最大のホットスポット

IDCは、2024年のIT市場はチャンスに満ちていると指摘した。インフレや経済などの要因が懸念材料と...