中国科学院とアリババが開発したFF3Dでは、カスタムスタイルの3Dポートレートを作成するのにわずか3分しかかかりません。

3D ポートレート合成は、常に AIGC の注目を浴びている分野です。 NeRF と 3D 対応 GAN の進歩に伴い、高品質の 3D ポートレートを合成しても、もはやすべての人の期待に応えることはできません。テキストの説明を直接使用して、希望する 3D ポートレートスタイルの合成をガイドするなど、3D ポートレートのスタイル属性を簡単な方法でカスタマイズできることが、より高い目標になっています。

しかし、3D ポートレートの様式化には共通の問題があります。高品質の 3D ポートレート合成モデルをトレーニングすると (たとえば、EG3D モデルのトレーニング)、後からそのモデルに大幅な様式の変更を加えることが困難になることがよくあります。モデルの潜在空間編集に基づく方法は、事前トレーニング済みの 3D ポートレート合成モデルのデータ分布によって制限されます。異なる視点から 3D ポートレートを直接様式化すると、3D の一貫性が損なわれます。また、様式化された多視点ポートレートデータセットを自分で収集して作成するには、非常にコストがかかります。上記の問題により、様式化された 3D ポートレートを簡単に作成することが困難になります。

この記事の著者は、テキスト記述に基づいてカスタマイズされた 3D ポートレートの様式化を迅速に実現できる、シンプルで効率的な様式化された 3D ポートレートの合成方法を提案しています。

写真

論文アドレス: https://arxiv.org/pdf/2306.15419.pdf
プロジェクトウェブサイト: https://tianxiangma.github.io/FF3D/

方法論フレームワーク

この方法には、2 つの主要なステップがあります。1. 小規模なサンプルの様式化された肖像画データセットの構築、2. 画像から三面体モデルへの微調整。方法フレームワークは次のとおりです。

写真

2つの事前モデルを使用して、小規模なサンプルの様式化された肖像画データセットを構築する

多視点の様式化された肖像画データを手動で収集することは困難ですが、研究チームは既存の事前トレーニング済みモデルを使用して、そのようなデータを間接的に構築することができます。この論文では、この目標を達成するために、EG3D と Instruct-pix2pix (IP2P) という 2 つの事前トレーニング済み事前モデルを採用しています。

EG3D は、次のようにカウントされる、マルチビュー 3D の一貫したポートレート合成結果を提供するために使用される、高品質の 3D 対応 GAN メソッドです。 theta はモデルのパラメータ、w は潜在空間 W からランダムにサンプリングされたベクトルエンコード、v はポートレートのレンダリング方向です。この研究では、a w をランダムにサンプリングし、-30 度から 30 度の範囲のピッチ角とヨー角からさまざまな視点で i*i ポートレートを均一にサンプリングします。

IP2P は大規模なテキストガイド付き画像編集モデルであり、この研究では、さまざまな視点からの肖像画の様式化された編集を実行するために使用されます。 phi はモデルパラメータ、I は入力ポートレート画像、n はランダムノイズ、c はテキストの条件付き入力 (後で t で表される) です。 T の助けを借りて、研究チームはさまざまな視点から上記の i*i の肖像画をテキストガイド付きの様式化された編集を行うことができます。同時に、研究チームは実験で、いくつかのテキストプロンプトの下で異なる視点から見た同じ肖像画に対する IP2P の様式化された編集結果がかなり異なることを発見しました。そのため、本研究では推論プロセスにいくつかの改良を加え、元のノイズnをに置き換えました。この式は、ノイズ n と入力ポートレート I の情報の加重融合を表しており、異なる視点からのポートレート I の様式化された編集結果が同じに近くなります。さらに、本研究では、IP2Pの生成品質を高めるために補助テキストプロンプトtdと否定テキストプロンプトtnを導入しました。つまり、新しいテキストプロンプトはです。

上記のプロセスに基づいて、本研究では次のような様式化された肖像画の合成パイプラインを提案しました。

写真

。このプロセスは純粋なモデル推論であり、追加のトレーニングは必要ありません。研究チームは、さまざまな視点からの i*i 合成肖像画について、小規模なサンプルの様式化された肖像画データセット Ds を迅速に構築できます。

画像から三面体モデルへの微調整

Ds を構築した後、データセットのポートレートスタイルに準拠した 3D モデルを学習する必要があります。この問題に対処するために、研究チームは、肖像画像から三面体表現へのマッピングを確立できる Image-to-Triplane (I2T) ネットワークを提案しました。この研究では、事前トレーニング済みの EG3D モデルの Triplane 合成ネットワークを、本論文で提案された I2T ネットワークに置き換え、残りのレンダリングネットワークを再利用します。

Ds データセット内のさまざまな視点からの様式化された肖像画は 3D に一貫性がないため、肖像画から三面図表現への正確なマッピング関係を確立するには、まず I2T ネットワークを事前トレーニングする必要があります。研究チームは EG3D の合成データを使用して I2T ネットワークを事前トレーニングしました。トレーニング損失関数は次のようになります。

写真

H は I2T ネットワークを表し、If はポジティブビューポートレート画像入力 (EG3D サンプリングによって提供)、p は Triplane 表現の真の値 (EG3D サンプリングによって提供) です。

研究チームは、事前にトレーニングされた I2T ネットワークを使用して、構築された Ds データセットを迅速に微調整し、I2T の潜在空間を Ds データセットのスタイル分布に適合させることができます。モデルの微調整の損失関数には、再構築損失と密度正規化損失が含まれます。モデルの微調整は非常に効率的で、約 3 分で完了できます。この時点で、カスタムスタイル (テキストプロンプト t を使用して指定) の 3D ポートレートモデルを取得できます。

実験

この記事のホームページには、一連の高品質で様式化された 3D ポートレート合成結果が示されています。本論文の方法のスケーラビリティを検証するために、研究チームはマルチスタイルおよびマルチアイデンティティのポートレートデータセットを構築しました。彼らは ChatGPT を使用して、芸術的なスタイル、映画のキャラクタースタイル、ゲームのキャラクタースタイル、基本的な属性編集スタイルなど、さまざまなスタイルタイプの 100 個の質問プロンプトを生成しました。それぞれのスタイルについて、この記事のポートレート様式化パイプラインを使用して、さまざまな視点から 10 x 10 の様式化されたポートレートを合成し、10,000 枚の画像を含むマルチスタイルの単一アイデンティティポートレートデータセット (MSSI) を構築します。さらに、MSSI に基づいて、各スタイルのアイデンティティ属性が拡張され、つまり、異なる w ベクトルがランダムにサンプリングされて、マルチスタイルマルチアイデンティティポートレートデータセット (MSMI) が取得されます。この 2 つのデータセットに対するこの方法の微調整されたモデルの 3D ポートレート合成結果は次のとおりです。

写真

I2T の ws 潜在空間での補間により、3D ポートレートのスタイル変更を実現できます。

この方法とベースライン方法の比較結果は次のとおりです。

方法の詳細と実験結果については、原著論文とプロジェクトのウェブサイトを参照してください。

<<: Google AI はすべてを食べています!すべての公開コンテンツはAIトレーニングのためにクロールされ、プライバシーポリシーが更新されました

>>: 大規模言語モデルの視覚的才能: GPTは文脈学習を通じて視覚的タスクも解決できる