中国科学院とアリババが開発したFF3Dでは、カスタムスタイルの3Dポートレートを作成するのにわずか3分しかかかりません。

中国科学院とアリババが開発したFF3Dでは、カスタムスタイルの3Dポートレートを作成するのにわずか3分しかかかりません。

3D ポートレート合成は、常に AIGC の注目を浴びている分野です。 NeRF と 3D 対応 GAN の進歩に伴い、高品質の 3D ポートレートを合成しても、もはやすべての人の期待に応えることはできません。テキストの説明を直接使用して、希望する 3D ポートレート スタイルの合成をガイドするなど、3D ポートレートのスタイル属性を簡単な方法でカスタマイズできることが、より高い目標になっています。

しかし、3D ポートレートの様式化には共通の問題があります。高品質の 3D ポートレート合成モデルをトレーニングすると (たとえば、EG3D モデルのトレーニング)、後からそのモデルに大幅な様式の変更を加えることが困難になることがよくあります。モデルの潜在空間編集に基づく方法は、事前トレーニング済みの 3D ポートレート合成モデルのデータ分布によって制限されます。異なる視点から 3D ポートレートを直接様式化すると、3D の一貫性が損なわれます。また、様式化された多視点ポートレート データセットを自分で収集して作成するには、非常にコストがかかります。上記の問題により、様式化された 3D ポートレートを簡単に作成することが困難になります。

この記事の著者は、テキスト記述に基づいてカスタマイズされた 3D ポートレートの様式化を迅速に実現できる、シンプルで効率的な様式化された 3D ポートレートの合成方法を提案しています。

写真


  • 論文アドレス: https://arxiv.org/pdf/2306.15419.pdf
  • プロジェクトウェブサイト: https://tianxiangma.github.io/FF3D/

方法論フレームワーク

この方法には、2 つの主要なステップがあります。1. 小規模なサンプルの様式化された肖像画データセットの構築、2. 画像から三面体モデルへの微調整。方法フレームワークは次のとおりです。

写真

2つの事前モデルを使用して、小規模なサンプルの様式化された肖像画データセットを構築する

多視点の様式化された肖像画データを手動で収集することは困難ですが、研究チームは既存の事前トレーニング済みモデルを使用して、そのようなデータを間接的に構築することができます。この論文では、この目標を達成するために、EG3D と Instruct-pix2pix (IP2P) という 2 つの事前トレーニング済み事前モデルを採用しています。

EG3D は、次のようにカウントされる、マルチビュー 3D の一貫したポートレート合成結果を提供するために使用される、高品質の 3D 対応 GAN メソッドです。 theta はモデルのパラメータ、w は潜在空間 W からランダムにサンプリングされたベクトルエンコード、v はポートレートのレンダリング方向です。この研究では、a w をランダムにサンプリングし、-30 度から 30 度の範囲のピッチ角とヨー角からさまざまな視点で i*i ポートレートを均一にサンプリングします。

IP2P は大規模なテキストガイド付き画像編集モデルであり、この研究では、さまざまな視点からの肖像画の様式化された編集を実行するために使用されます。 phi はモデルパラメータ、I は入力ポートレート画像、n はランダムノイズ、c はテキストの条件付き入力 (後で t で表される) です。 T の助けを借りて、研究チームはさまざまな視点から上記の i*i の肖像画をテキストガイド付きの様式化された編集を行うことができます。同時に、研究チームは実験で、いくつかのテキストプロンプトの下で異なる視点から見た同じ肖像画に対する IP2P の様式化された編集結果がかなり異なることを発見しました。そのため、本研究では推論プロセスにいくつかの改良を加え、元のノイズnを に置き換えました。この式は、ノイズ n と入力ポートレート I の情報の加重融合を表しており、異なる視点からのポートレート I の様式化された編集結果が同じに近くなります。さらに、本研究では、IP2Pの生成品質を高めるために補助テキストプロンプトtdと否定テキストプロンプトtnを導入しました。つまり、新しいテキストプロンプトはです

上記のプロセスに基づいて、本研究では次のような様式化された肖像画の合成パイプラインを提案しました。

写真

。このプロセスは純粋なモデル推論であり、追加のトレーニングは必要ありません。研究チームは、さまざまな視点からの i*i 合成肖像画について、小規模なサンプルの様式化された肖像画データセット Ds を迅速に構築できます。

画像から三面体モデルへの微調整

Ds を構築した後、データセットのポートレートスタイルに準拠した 3D モデルを学習する必要があります。この問題に対処するために、研究チームは、肖像画像から三面体表現へのマッピングを確立できる Image-to-Triplane (I2T) ネットワークを提案しました。この研究では、事前トレーニング済みの EG3D モデルの Triplane 合成ネットワークを、本論文で提案された I2T ネットワークに置き換え、残りのレンダリング ネットワークを再利用します。

Ds データセット内のさまざまな視点からの様式化された肖像画は 3D に一貫性がないため、肖像画から三面図表現への正確なマッピング関係を確立するには、まず I2T ネットワークを事前トレーニングする必要があります。研究チームは EG3D の合成データを使用して I2T ネットワークを事前トレーニングしました。トレーニング損失関数は次のようになります。

写真

H は I2T ネットワークを表し、If はポジティブビューポートレート画像入力 (EG3D サンプリングによって提供)、p は Triplane 表現の真の値 (EG3D サンプリングによって提供) です。

研究チームは、事前にトレーニングされた I2T ネットワークを使用して、構築された Ds データセットを迅速に微調整し、I2T の潜在空間を Ds データセットのスタイル分布に適合させることができます。モデルの微調整の損失関数には、再構築損失と密度正規化損失が含まれます。モデルの微調整は非常に効率的で、約 3 分で完了できます。この時点で、カスタム スタイル (テキスト プロンプト t を使用して指定) の 3D ポートレート モデルを取得できます。

実験

この記事のホームページには、一連の高品質で様式化された 3D ポートレート合成結果が示されています。本論文の方法のスケーラビリティを検証するために、研究チームはマルチスタイルおよびマルチアイデンティティのポートレートデータセットを構築しました。彼らは ChatGPT を使用して、芸術的なスタイル、映画のキャラクター スタイル、ゲームのキャラクター スタイル、基本的な属性編集スタイルなど、さまざまなスタイル タイプの 100 個の質問プロンプトを生成しました。それぞれのスタイルについて、この記事のポートレート様式化パイプラインを使用して、さまざまな視点から 10 x 10 の様式化されたポートレートを合成し、10,000 枚の画像を含むマルチスタイルの単一アイデンティティ ポートレート データセット (MSSI) を構築します。さらに、MSSI に基づいて、各スタイルのアイデンティティ属性が拡張され、つまり、異なる w ベクトルがランダムにサンプリングされて、マルチスタイル マルチアイデンティティ ポートレート データセット (MSMI) が取得されます。この 2 つのデータセットに対するこの方法の微調整されたモデルの 3D ポートレート合成結果は次のとおりです。

写真

I2T の ws 潜在空間での補間により、3D ポートレートのスタイル変更を実現できます。

この方法とベースライン方法の比較結果は次のとおりです。

方法の詳細と実験結果については、原著論文とプロジェクトのウェブサイトを参照してください。

<<:  Google AI はすべてを食べています!すべての公開コンテンツはAIトレーニングのためにクロールされ、プライバシーポリシーが更新されました

>>:  大規模言語モデルの視覚的才能: GPTは文脈学習を通じて視覚的タスクも解決できる

ブログ    

推薦する

2019年ロボカップのハイライト!人間が4対1で勝利し、中国チームが多くの賞を獲得した

[[271788]]今月、オーストラリアのシドニーで2019年ロボカップ(ロボットワールドカップ)が...

AmazonがTitanシリーズのAIモデルを発売:画像やテキストを生成でき、価格と性能のバランスが取れていると主張

アマゾンは12月1日、昨日のre:Inventカンファレンスで、アマゾン初の画像生成モデル「Tita...

2019 年の人工知能に関する 5 つの予測: 実用的な AI

[[251873]] 2019 年に AI を推進するものは何でしょうか? Forrester R...

...

GPT-4を無料で入手するための5つのツール

翻訳者 |陳俊レビュー | Chonglou OpenAIがもたらしたGPT-4が、世界で最も人気が...

脳コンピューターインターフェースの新発見!眠りに落ちた後、脳は起きている時の経験を再生する

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

自動運転高速道路の技術仕様の導入によってメリットを享受できる分野はどこでしょうか?

自動運転車を大規模に公道に導入するには、車自体が技術基準を満たしていることを確認するだけでは十分では...

...

人工知能を活用するメリットと課題

人工知能 (AI) は、世界中の家庭や企業において、未来の夢から現代の現実へと変化しました。 AI ...

ビジュアルトランスフォーマーのより深い理解: ビジュアルトランスフォーマーの解剖学

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

信じてはいけないクラウドコンピューティングと人工知能に関する2つの誤解

クラウド コンピューティングによってデータ センターが消滅し、AI プロジェクトは失敗する運命にある...

Keras+LSTM+CRF を使用した固有表現抽出 NER の練習

[[339715]]テキスト分割、品詞タグ付け、固有表現認識は、自然言語処理の分野では非常に基本的な...

「顔スキャン」はもはやジョークではなく、マスクを着用していても機能します

[51CTO.comからのオリジナル記事] 近年、人工知能、ビッグデータ、クラウドコンピューティング...

アメリカのAI企業の優位性を打ち破り、AI数学オープンソースモデルでアベルが1位に

ChatGPTに代表される大型モデル製品は新たな産業革命を先導し、国内外の機関が関連技術研究に積極的...

GPU を通じて Pandas のパフォーマンスを高速化するもう 1 つのデータ処理ツールです。

NVIDIA の RAPIDS cuDF は、データの読み込み、結合、集約、フィルタリング、その他...