高品質なマルチビュー画像生成、シーン素材を完璧に再現！ SFUらはMVDiffusionを提案した

フォトリアリスティックな画像生成は、仮想現実、拡張現実、ビデオゲーム、映画制作などの分野で幅広く応用されています。

過去 2 年間の拡散モデルの急速な発展により、画像生成は大きな進歩を遂げました。テキストの説明に基づいて画像を生成する、Stable Diffusion から派生した一連のオープンソースまたは商用モデルは、デザイン、ゲームなどの分野に大きな影響を与えました。

しかし、与えられたテキストやその他の条件に基づいて高品質のマルチビュー画像を生成する方法は依然として課題であり、既存の方法ではマルチビューの一貫性に明らかな欠陥があります。

現在一般的な方法は、大きく分けて2つのカテゴリーに分けられます。

最初のタイプの方法は、Text2Room や SceneScape などのように、シーンの画像と深度マップを生成し、対応するメッシュを取得することに専念しています。まず、最初の画像は Stable Diffusion を使用して生成され、その後、画像ワーピングと画像修復の自己回帰法を使用して、後続の画像と深度マップが生成されます。

しかし、このようなソリューションでは、複数の画像を生成する過程で徐々にエラーが蓄積されやすく、通常は閉ループの問題（たとえば、カメラが円を描いて回転し、開始位置付近に戻ると、生成されたコンテンツが最初の画像と完全に一致しない）が発生し、シーンが大きい場合や画像間の視点の変化が大きい場合に結果が悪くなります。

2 番目のタイプの方法は、拡散モデルの生成アルゴリズムを拡張し、複数の画像を並列に生成して、単一の画像よりも豊富なコンテンツ (360 度のパノラマを生成したり、画像のコンテンツを両側に無限に外挿したりするなど) を生成するもので、MultiDiffusion や DiffCollage などがこれにあたります。ただし、カメラモデルが考慮されていないため、このような方法で生成された結果は真のパノラマにはなりません。

MVDiffusion の目標は、コンテンツに関して指定されたカメラモデルに厳密に準拠し、統一されたグローバルセマンティクスを持つマルチビューイメージを生成することです。この方法の核となるアイデアは、画像間の対応関係に基づいてノイズ除去と一貫性学習を同時に行うことです。

論文リンク: https://arxiv.org/abs/2307.01097

プロジェクトウェブサイト: https://mvdiffusion.github.io/

デモ: https://huggingface.co/spaces/tangshitao/MVDiffusion

コード: https://github.com/Tangshitao/MVDiffusion

カンファレンス: NeurIPS (スポットライト)

MVDiffusion の目標は、一貫性の高いコンテンツと統一されたグローバルセマンティクスを備えたマルチビュー画像を生成することです。この方法の核となるアイデアは、画像間の対応に基づいて、ノイズ除去とグローバル認識を同時に行うことです。

具体的には、研究者らは、まず複数の画像を並行して処理できるようにすることで既存のテキスト画像拡散モデル（Stable Diffusion など）を拡張し、さらに元の UNet に「対応を考慮した注意」メカニズムを追加して、複数の視点と全体的な統一性の間の一貫性を学習しました。

少量のマルチビュー画像トレーニングデータを微調整することで、最終モデルは一貫性の高いコンテンツを持つマルチビュー画像を同時に生成できるようになります。

MVDiffusion は、次の 3 つの異なるアプリケーションシナリオで優れた結果を達成しました。

1. テキストに基づいて複数のビューを生成し、それらをつなぎ合わせてパノラマ画像を取得します。

2. 遠近法の画像を外挿して（アウトペインティング）、完全な 360 度のパノラマを取得します。

3. シーンのテクスチャを生成します。

アプリケーションシナリオ表示

アプリケーション 1: パノラマ生成 (テキストベース)

パノラマの生成を例にとると、シーンを説明するテキスト（プロンプト）を入力すると、MVDIffusion はシーンのマルチビュー画像を生成できます。

たとえば、「このキッチンは素朴さとモダンさが魅力的に融合しており、大理石のカウンタートップを備えた大きな再生木材のアイランドと、キャビネットに囲まれたシンクが特徴です。アイランドの左側には、ステンレス製の冷蔵庫が立っています。シンクの右側には、落ち着いた色に塗装された木製の組み込みキャビネットがあります」と入力すると、次の 8 つのマルチアングル写真が表示されます。

これらの 8 枚の写真をつなぎ合わせてパノラマ写真を作成できます。

MVDiffusion は、画像ごとに異なるテキスト説明を提供することもサポートしていますが、これらの説明は意味の一貫性を維持する必要があります。

アプリケーション2: パノラマ生成(透視画像から)

MVDiffusion は、遠近法の画像を 360 度のパノラマ画像に変換できます。

たとえば、次のパースペクティブ画像を入力します。

MVDiffusion はさらに次のパノラマを生成できます。

生成されたパノラマは入力画像を意味的に拡張し、左端と右端のコンテンツが接続されていることがわかります（閉ループの問題はありません）。

アプリケーション3: シーンマテリアルの生成

マテリアルのないシーンメッシュを指定すると、MVDiffusion はマテリアル (テクスチャ) を生成できます。

具体的には、まずメッシュをレンダリングしてマルチビュー深度マップを取得します。カメラのポーズと深度マップを通じて、マルチビュー画像のピクセル間の対応関係を取得できます。

次に、MVDiffusion は、マルチビュー深度マップを条件として使用して、一貫性のあるマルチビュー RGB 画像を同期的に生成します。

生成されたマルチビュー画像はコンテンツの一貫性を高く維持できるため、メッシュに投影し直すことで、高品質のテクスチャメッシュを取得できます。

その他の効果の例

パノラマ生成

このアプリケーションシナリオでは、MVDiffusion のトレーニングに使用されるマルチビュー画像データはすべて屋内シーンのパノラマ画像ですが、スタイルは単一であることに留意してください。

ただし、MVDiffusion は元の Stable Diffusion のパラメータを変更せず、新しく追加された Correspondence-aware Attention のみをトレーニングしました。

最後に、モデルは指定されたテキストに基づいて、さまざまなスタイル (屋外、漫画など) のマルチビュー画像を生成することもできます。

単一ビュー外挿

シーンマテリアル生成

まず、3 つの異なるタスクにおける MVDiffusion の具体的な画像生成プロセスを紹介し、次にこの手法の中核となる「Correspondence-aware Attention」モジュールを紹介します。図1: MVDiffusionの概要

1. パノラマ生成（テキストベース）

MVDiffusion は、8 つの重なり合う画像 (透視画像) を同時に生成し、これらの 8 つの画像をつなぎ合わせてパノラマ画像を作成します。これら 8 つの透視画像では、2 つの画像間のピクセルの対応は 3x3 のホモグラフィックマトリックスによって決定されます。

具体的な生成プロセスでは、MVDiffusion はまずガウスランダム初期化を通じて 8 つの視点から画像を生成します。

次に、これらの 8 つの画像は、同期ノイズ除去のためにマルチブランチの安定拡散事前トレーニング済み Unet ネットワークに入力され、生成された結果が得られます。

新しい「対応認識アテンション」モジュール (上図の水色) が UNet ネットワークに追加され、さまざまな視点にわたる幾何学的一貫性を学習して、これら 8 枚の写真を一貫したパノラマにつなぎ合わせることができるようになります。

2. パノラマ生成（透視画像から）

MVDiffusion は、単一の透視画像をパノラマ画像に仕上げることもできます。パノラマ生成と同様に、MVDiffusion は、ランダムに初期化された 8 つのビュー画像 (透視画像に対応するビューを含む) を、マルチブランチの Stable Diffusion Inpainting 事前トレーニング済み UNet ネットワークに入力します。

違いは、安定拡散インペインティングモデルの UNet では、条件付き画像と生成される画像を区別するために追加の入力マスクが使用されることです。

透視画像に対応する透視ビューの場合、このマスクは 1 であり、このブランチの UNet は透視画像を直接復元します。他のパースペクティブの場合、このマスクは 0 であり、対応するブランチの UNet は新しいパースペクティブイメージを生成します。

同様に、MVDiffusion は「Correspondence-aware Attention」モジュールを使用して、生成された画像と条件付き画像間の幾何学的一貫性と意味的統一性を学習します。

3. シーンマテリアルの生成

MVDiffusion は、まず深度マップとカメラのポーズに基づいて軌跡上に RGB 画像を生成し、次に TSDF 融合を使用して、生成された RGB 画像を指定された深度マップとメッシュに合成します。

RGB 画像のピクセル対応は、深度マップとカメラポーズを通じて取得できます。

パノラマ生成と同様に、マルチブランチ UNet を使用し、「対応を考慮した注意」を挿入して、ビュー間の幾何学的一貫性を学習します。

4. 対応を考慮した注意メカニズム

MVDiffusion の中核である「Correspondence-aware Attention」(CAA) は、複数のビュー間の幾何学的一貫性と意味的統一性を学習するために使用されます。

MVDiffusion は、Stable Diffusion UNet 内の各 UNet ブロックの後に「対応を考慮した注意」ブロックを挿入します。 CAA は、ソースフィーチャマップと N 個のターゲットフィーチャマップを考慮して機能します。

ソースフィーチャマップ内の位置については、ターゲットフィーチャマップ内の対応するピクセルとその近傍に基づいて注目出力を計算します。

具体的には、各ターゲットピクセル t^l について、MVDiffusion は (x/y) 座標に整数変位 (dx/dy) を追加して K x K 近傍を考慮します。ここで、|dx|<K/2 かつ |dy|<K/2 です。

実際の使用では、MVDiffusion は K=3 を使用し、9 点の近傍を選択してパノラマの品質を向上させます。幾何学的条件によって制限されるマルチビュー画像生成では、操作効率を向上させるために K=1 が使用されます。

CAA モジュールの計算は、上図の式に示すように、標準的なアテンションメカニズムに従います。ここで、W_Q、W_K、W_V は、クエリ、キー、および値マトリックスの学習可能な重みです。ターゲット機能は整数位置に配置されているのではなく、双線形補間によって取得されます。

主な違いは、ソース画像内の対応する位置 s^l と s 間の 2D 変位 (パノラマ) または 1D 深度誤差 (幾何学的) に基づいて、ターゲットフィーチャに位置エンコーディングを追加することです。

パノラマ生成 (アプリケーション 1 およびアプリケーション 2) では、この変位によってローカル近傍内の相対的な位置が提供されます。

深度から画像への生成 (アプリケーション 3) では、視差によって深度の不連続性や遮蔽に関する手がかりが得られ、これは高忠実度の画像生成にとって非常に重要です。

変位は 2D (変位) または 1D (深度誤差) ベクトルであり、MVDiffusion は x 座標と y 座標の変位に標準の周波数エンコーディングを適用することに注意してください。

<<: 清華大学、マイクロソフトなど大学がリマインダーエンジニアを排除？ LLMと進化的アルゴリズムを組み合わせて強力なプロンプト最適化ツールを作成する

>>: DeepMindの創設者：生成AIは単なる過渡期であり、将来AIは無料になり、インタラクティブAIは人類を変えるだろう

ブログ

DockerとFlaskをベースにしたディープラーニングモデルのデプロイメント！

ブログ

高品質なマルチビュー画像生成、シーン素材を完璧に再現！ SFUらはMVDiffusionを提案した

アプリケーションシナリオ表示

アプリケーション 1: パノラマ生成 (テキストベース)

アプリケーション2: パノラマ生成(透視画像から)

アプリケーション3: シーンマテリアルの生成

1. パノラマ生成（テキストベース）

2. パノラマ生成（透視画像から）

3. シーンマテリアルの生成

4. 対応を考慮した注意メカニズム

DockerとFlaskをベースにしたディープラーニングモデルのデプロイメント！

人工知能がブルーカラーの仕事に取って代わると、どのような影響があるでしょうか?

2021 年にセキュリティビデオ分析に影響を与える新しいテクノロジーとトレンドは何でしょうか?

データ + 進化的アルゴリズム = データ駆動型進化的最適化?進化的アルゴリズムと数学的最適化

2021年に理解すべき5つのAIコンセプト

AIロボットの出現により、運転訓練業界における知能の新たな章が開かれた。

推薦する

AI戦争が近づく中、ChatGPTが軍事禁止を解除

マスク氏が公式に「脳をスライス」し、ニューラリンクの内部研究室の写真が公開された！ 7年間で2万2000件の手術を計画、スーパーAIに対抗すべく研究開発に全力

機械学習とデータサイエンスのための最も人気のある Python ライブラリトップ 10

すべての携帯電話にAIが搭載されているのに、なぜそれを軽蔑するのですか?

クラウドとジェネレーティブ AI の今後の動向

医療業界における人工知能の5つの主要な応用シナリオと典型的な事例

RFID と AI が出会うとき: 「敵」か「味方」か?

天津市が顔認証訴訟で勝利、コミュニティが顔認証を唯一のアクセス手段として使用することは違法と判断

人工知能は意識のギャップを埋めることができるか？

製造業における人工知能の8つの応用シナリオ

マイクロソフトはOpenAIの警告を無視し、未熟なBingチャットサービスを開始したと報じられている。

アリババDAMOアカデミーが自社開発の音声認識モデルDFSMNをリリースしオープンソース化を発表

人工知能のゲーム理論：エージェントと人間、エージェントと環境の間のゲーム関係の予備的調査