フォトリアリスティックな画像生成は、仮想現実、拡張現実、ビデオゲーム、映画制作などの分野で幅広く応用されています。 過去 2 年間の拡散モデルの急速な発展により、画像生成は大きな進歩を遂げました。テキストの説明に基づいて画像を生成する、Stable Diffusion から派生した一連のオープンソースまたは商用モデルは、デザイン、ゲームなどの分野に大きな影響を与えました。 しかし、与えられたテキストやその他の条件に基づいて高品質のマルチビュー画像を生成する方法は依然として課題であり、既存の方法ではマルチビューの一貫性に明らかな欠陥があります。 現在一般的な方法は、大きく分けて2つのカテゴリーに分けられます。 最初のタイプの方法は、Text2Room や SceneScape などのように、シーンの画像と深度マップを生成し、対応するメッシュを取得することに専念しています。まず、最初の画像は Stable Diffusion を使用して生成され、その後、画像ワーピングと画像修復の自己回帰法を使用して、後続の画像と深度マップが生成されます。 しかし、このようなソリューションでは、複数の画像を生成する過程で徐々にエラーが蓄積されやすく、通常は閉ループの問題(たとえば、カメラが円を描いて回転し、開始位置付近に戻ると、生成されたコンテンツが最初の画像と完全に一致しない)が発生し、シーンが大きい場合や画像間の視点の変化が大きい場合に結果が悪くなります。 2 番目のタイプの方法は、拡散モデルの生成アルゴリズムを拡張し、複数の画像を並列に生成して、単一の画像よりも豊富なコンテンツ (360 度のパノラマを生成したり、画像のコンテンツを両側に無限に外挿したりするなど) を生成するもので、MultiDiffusion や DiffCollage などがこれにあたります。ただし、カメラ モデルが考慮されていないため、このような方法で生成された結果は真のパノラマにはなりません。 MVDiffusion の目標は、コンテンツに関して指定されたカメラ モデルに厳密に準拠し、統一されたグローバル セマンティクスを持つマルチビュー イメージを生成することです。この方法の核となるアイデアは、画像間の対応関係に基づいてノイズ除去と一貫性学習を同時に行うことです。 論文リンク: https://arxiv.org/abs/2307.01097 プロジェクトウェブサイト: https://mvdiffusion.github.io/ デモ: https://huggingface.co/spaces/tangshitao/MVDiffusion コード: https://github.com/Tangshitao/MVDiffusion カンファレンス: NeurIPS (スポットライト) MVDiffusion の目標は、一貫性の高いコンテンツと統一されたグローバル セマンティクスを備えたマルチビュー画像を生成することです。この方法の核となるアイデアは、画像間の対応に基づいて、ノイズ除去とグローバル認識を同時に行うことです。 具体的には、研究者らは、まず複数の画像を並行して処理できるようにすることで既存のテキスト画像拡散モデル(Stable Diffusion など)を拡張し、さらに元の UNet に「対応を考慮した注意」メカニズムを追加して、複数の視点と全体的な統一性の間の一貫性を学習しました。 少量のマルチビュー画像トレーニング データを微調整することで、最終モデルは一貫性の高いコンテンツを持つマルチビュー画像を同時に生成できるようになります。 MVDiffusion は、次の 3 つの異なるアプリケーション シナリオで優れた結果を達成しました。 1. テキストに基づいて複数のビューを生成し、それらをつなぎ合わせてパノラマ画像を取得します。 2. 遠近法の画像を外挿して(アウトペインティング)、完全な 360 度のパノラマを取得します。 3. シーンのテクスチャを生成します。 アプリケーションシナリオ表示アプリケーション 1: パノラマ生成 (テキストベース)パノラマの生成を例にとると、シーンを説明するテキスト(プロンプト)を入力すると、MVDIffusion はシーンのマルチビュー画像を生成できます。 たとえば、「このキッチンは素朴さとモダンさが魅力的に融合しており、大理石のカウンタートップを備えた大きな再生木材のアイランドと、キャビネットに囲まれたシンクが特徴です。アイランドの左側には、ステンレス製の冷蔵庫が立っています。シンクの右側には、落ち着いた色に塗装された木製の組み込みキャビネットがあります」と入力すると、次の 8 つのマルチアングル写真が表示されます。 これらの 8 枚の写真をつなぎ合わせてパノラマ写真を作成できます。 MVDiffusion は、画像ごとに異なるテキスト説明を提供することもサポートしていますが、これらの説明は意味の一貫性を維持する必要があります。 アプリケーション2: パノラマ生成(透視画像から)MVDiffusion は、遠近法の画像を 360 度のパノラマ画像に変換できます。 たとえば、次のパースペクティブ画像を入力します。 MVDiffusion はさらに次のパノラマを生成できます。 生成されたパノラマは入力画像を意味的に拡張し、左端と右端のコンテンツが接続されていることがわかります(閉ループの問題はありません)。 アプリケーション3: シーンマテリアルの生成マテリアルのないシーン メッシュを指定すると、MVDiffusion はマテリアル (テクスチャ) を生成できます。 具体的には、まずメッシュをレンダリングしてマルチビュー深度マップを取得します。カメラのポーズと深度マップを通じて、マルチビュー画像のピクセル間の対応関係を取得できます。 次に、MVDiffusion は、マルチビュー深度マップを条件として使用して、一貫性のあるマルチビュー RGB 画像を同期的に生成します。 生成されたマルチビュー画像はコンテンツの一貫性を高く維持できるため、メッシュに投影し直すことで、高品質のテクスチャメッシュを取得できます。 その他の効果の例 パノラマ生成 このアプリケーション シナリオでは、MVDiffusion のトレーニングに使用されるマルチビュー画像データはすべて屋内シーンのパノラマ画像ですが、スタイルは単一であることに留意してください。 ただし、MVDiffusion は元の Stable Diffusion のパラメータを変更せず、新しく追加された Correspondence-aware Attention のみをトレーニングしました。 最後に、モデルは指定されたテキストに基づいて、さまざまなスタイル (屋外、漫画など) のマルチビュー画像を生成することもできます。 単一ビュー外挿 シーンマテリアル生成 まず、3 つの異なるタスクにおける MVDiffusion の具体的な画像生成プロセスを紹介し、次にこの手法の中核となる「Correspondence-aware Attention」モジュールを紹介します。図1: MVDiffusionの概要 1. パノラマ生成(テキストベース)MVDiffusion は、8 つの重なり合う画像 (透視画像) を同時に生成し、これらの 8 つの画像をつなぎ合わせてパノラマ画像を作成します。これら 8 つの透視画像では、2 つの画像間のピクセルの対応は 3x3 のホモグラフィック マトリックスによって決定されます。 具体的な生成プロセスでは、MVDiffusion はまずガウスランダム初期化を通じて 8 つの視点から画像を生成します。 次に、これらの 8 つの画像は、同期ノイズ除去のためにマルチブランチの安定拡散事前トレーニング済み Unet ネットワークに入力され、生成された結果が得られます。 新しい「対応認識アテンション」モジュール (上図の水色) が UNet ネットワークに追加され、さまざまな視点にわたる幾何学的一貫性を学習して、これら 8 枚の写真を一貫したパノラマにつなぎ合わせることができるようになります。 2. パノラマ生成(透視画像から)MVDiffusion は、単一の透視画像をパノラマ画像に仕上げることもできます。パノラマ生成と同様に、MVDiffusion は、ランダムに初期化された 8 つのビュー画像 (透視画像に対応するビューを含む) を、マルチブランチの Stable Diffusion Inpainting 事前トレーニング済み UNet ネットワークに入力します。 違いは、安定拡散インペインティング モデルの UNet では、条件付き画像と生成される画像を区別するために追加の入力マスクが使用されることです。 透視画像に対応する透視ビューの場合、このマスクは 1 であり、このブランチの UNet は透視画像を直接復元します。他のパースペクティブの場合、このマスクは 0 であり、対応するブランチの UNet は新しいパースペクティブ イメージを生成します。 同様に、MVDiffusion は「Correspondence-aware Attention」モジュールを使用して、生成された画像と条件付き画像間の幾何学的一貫性と意味的統一性を学習します。 3. シーンマテリアルの生成MVDiffusion は、まず深度マップとカメラのポーズに基づいて軌跡上に RGB 画像を生成し、次に TSDF 融合を使用して、生成された RGB 画像を指定された深度マップとメッシュに合成します。 RGB 画像のピクセル対応は、深度マップとカメラポーズを通じて取得できます。 パノラマ生成と同様に、マルチブランチ UNet を使用し、「対応を考慮した注意」を挿入して、ビュー間の幾何学的一貫性を学習します。 4. 対応を考慮した注意メカニズムMVDiffusion の中核である「Correspondence-aware Attention」(CAA) は、複数のビュー間の幾何学的一貫性と意味的統一性を学習するために使用されます。 MVDiffusion は、Stable Diffusion UNet 内の各 UNet ブロックの後に「対応を考慮した注意」ブロックを挿入します。 CAA は、ソース フィーチャ マップと N 個のターゲット フィーチャ マップを考慮して機能します。 ソース フィーチャ マップ内の位置については、ターゲット フィーチャ マップ内の対応するピクセルとその近傍に基づいて注目出力を計算します。 具体的には、各ターゲット ピクセル t^l について、MVDiffusion は (x/y) 座標に整数変位 (dx/dy) を追加して K x K 近傍を考慮します。ここで、|dx|<K/2 かつ |dy|<K/2 です。 実際の使用では、MVDiffusion は K=3 を使用し、9 点の近傍を選択してパノラマの品質を向上させます。幾何学的条件によって制限されるマルチビュー画像生成では、操作効率を向上させるために K=1 が使用されます。 CAA モジュールの計算は、上図の式に示すように、標準的なアテンション メカニズムに従います。ここで、W_Q、W_K、W_V は、クエリ、キー、および値マトリックスの学習可能な重みです。ターゲット機能は整数位置に配置されているのではなく、双線形補間によって取得されます。 主な違いは、ソース画像内の対応する位置 s^l と s 間の 2D 変位 (パノラマ) または 1D 深度誤差 (幾何学的) に基づいて、ターゲット フィーチャに位置エンコーディングを追加することです。 パノラマ生成 (アプリケーション 1 およびアプリケーション 2) では、この変位によってローカル近傍内の相対的な位置が提供されます。 深度から画像への生成 (アプリケーション 3) では、視差によって深度の不連続性や遮蔽に関する手がかりが得られ、これは高忠実度の画像生成にとって非常に重要です。 変位は 2D (変位) または 1D (深度誤差) ベクトルであり、MVDiffusion は x 座標と y 座標の変位に標準の周波数エンコーディングを適用することに注意してください。 |
<<: 清華大学、マイクロソフトなど大学がリマインダーエンジニアを排除? LLMと進化的アルゴリズムを組み合わせて強力なプロンプト最適化ツールを作成する
>>: DeepMindの創設者:生成AIは単なる過渡期であり、将来AIは無料になり、インタラクティブAIは人類を変えるだろう
[[278064]]時系列は標準的な分析手法ですが、より高度な機械学習ツールでは、より正確な予測モデ...
[[211908]]ビッグデータや人工知能の広範な導入を通じて、これらの新興技術の大きな影響が世界経...
今年、ChatGPTはインターネット全体で人気を博しました。近年、AI人工知能は大きな進歩を遂げ、あ...
週末にニュースを見て衝撃を受けました。Google は最近、同社が開発したロボット (AI) システ...
科学技術の継続的な発展と革新が生産性の継続的な進歩を推進しています。産業革命以来、機械化された作業は...
GPT-4 はより愚かになった、というのは本当ですか? ? ?スタンフォード大学とカリフォルニア大学...
10月6日、EngadgetやWiredなどの海外メディアの報道によると、メリーランド大学の研究チー...
[[248486]]グーグルの自動運転車開発会社ウェイモはすでに試験的な移動サービスの一部を有料化...
人工知能は、さまざまなエンタープライズ システム、特に分析や異常検出のユース ケースで実際に応用され...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
8月24日、市場調査会社ガートナーの最新予測によると、 AI向けハードウェアの世界販売収益は2023...
[51CTO.comからのオリジナル記事] 突然の流行に直面して、国民は情報の適時性、透明性、伝達効...