中国科学院とアリババが開発したFF3Dでは、カスタムスタイルの3Dポートレートを作成するのにわずか3分しかかかりません。

中国科学院とアリババが開発したFF3Dでは、カスタムスタイルの3Dポートレートを作成するのにわずか3分しかかかりません。

3D ポートレート合成は、常に AIGC の注目を浴びている分野です。 NeRF と 3D 対応 GAN の進歩に伴い、高品質の 3D ポートレートを合成しても、もはやすべての人の期待に応えることはできません。テキストの説明を直接使用して、希望する 3D ポートレート スタイルの合成をガイドするなど、3D ポートレートのスタイル属性を簡単な方法でカスタマイズできることが、より高い目標になっています。

しかし、3D ポートレートの様式化には共通の問題があります。高品質の 3D ポートレート合成モデルをトレーニングすると (たとえば、EG3D モデルのトレーニング)、後からそのモデルに大幅な様式の変更を加えることが困難になることがよくあります。モデルの潜在空間編集に基づく方法は、事前トレーニング済みの 3D ポートレート合成モデルのデータ分布によって制限されます。異なる視点から 3D ポートレートを直接様式化すると、3D の一貫性が損なわれます。また、様式化された多視点ポートレート データセットを自分で収集して作成するには、非常にコストがかかります。上記の問題により、様式化された 3D ポートレートを簡単に作成することが困難になります。

この記事の著者は、テキスト記述に基づいてカスタマイズされた 3D ポートレートの様式化を迅速に実現できる、シンプルで効率的な様式化された 3D ポートレートの合成方法を提案しています。

写真


  • 論文アドレス: https://arxiv.org/pdf/2306.15419.pdf
  • プロジェクトウェブサイト: https://tianxiangma.github.io/FF3D/

方法論フレームワーク

この方法には、2 つの主要なステップがあります。1. 小規模なサンプルの様式化された肖像画データセットの構築、2. 画像から三面体モデルへの微調整。方法フレームワークは次のとおりです。

写真

2つの事前モデルを使用して、小規模なサンプルの様式化された肖像画データセットを構築する

多視点の様式化された肖像画データを手動で収集することは困難ですが、研究チームは既存の事前トレーニング済みモデルを使用して、そのようなデータを間接的に構築することができます。この論文では、この目標を達成するために、EG3D と Instruct-pix2pix (IP2P) という 2 つの事前トレーニング済み事前モデルを採用しています。

EG3D は、次のようにカウントされる、マルチビュー 3D の一貫したポートレート合成結果を提供するために使用される、高品質の 3D 対応 GAN メソッドです。 theta はモデルのパラメータ、w は潜在空間 W からランダムにサンプリングされたベクトルエンコード、v はポートレートのレンダリング方向です。この研究では、a w をランダムにサンプリングし、-30 度から 30 度の範囲のピッチ角とヨー角からさまざまな視点で i*i ポートレートを均一にサンプリングします。

IP2P は大規模なテキストガイド付き画像編集モデルであり、この研究では、さまざまな視点からの肖像画の様式化された編集を実行するために使用されます。 phi はモデルパラメータ、I は入力ポートレート画像、n はランダムノイズ、c はテキストの条件付き入力 (後で t で表される) です。 T の助けを借りて、研究チームはさまざまな視点から上記の i*i の肖像画をテキストガイド付きの様式化された編集を行うことができます。同時に、研究チームは実験で、いくつかのテキストプロンプトの下で異なる視点から見た同じ肖像画に対する IP2P の様式化された編集結果がかなり異なることを発見しました。そのため、本研究では推論プロセスにいくつかの改良を加え、元のノイズnを に置き換えました。この式は、ノイズ n と入力ポートレート I の情報の加重融合を表しており、異なる視点からのポートレート I の様式化された編集結果が同じに近くなります。さらに、本研究では、IP2Pの生成品質を高めるために補助テキストプロンプトtdと否定テキストプロンプトtnを導入しました。つまり、新しいテキストプロンプトはです

上記のプロセスに基づいて、本研究では次のような様式化された肖像画の合成パイプラインを提案しました。

写真

。このプロセスは純粋なモデル推論であり、追加のトレーニングは必要ありません。研究チームは、さまざまな視点からの i*i 合成肖像画について、小規模なサンプルの様式化された肖像画データセット Ds を迅速に構築できます。

画像から三面体モデルへの微調整

Ds を構築した後、データセットのポートレートスタイルに準拠した 3D モデルを学習する必要があります。この問題に対処するために、研究チームは、肖像画像から三面体表現へのマッピングを確立できる Image-to-Triplane (I2T) ネットワークを提案しました。この研究では、事前トレーニング済みの EG3D モデルの Triplane 合成ネットワークを、本論文で提案された I2T ネットワークに置き換え、残りのレンダリング ネットワークを再利用します。

Ds データセット内のさまざまな視点からの様式化された肖像画は 3D に一貫性がないため、肖像画から三面図表現への正確なマッピング関係を確立するには、まず I2T ネットワークを事前トレーニングする必要があります。研究チームは EG3D の合成データを使用して I2T ネットワークを事前トレーニングしました。トレーニング損失関数は次のようになります。

写真

H は I2T ネットワークを表し、If はポジティブビューポートレート画像入力 (EG3D サンプリングによって提供)、p は Triplane 表現の真の値 (EG3D サンプリングによって提供) です。

研究チームは、事前にトレーニングされた I2T ネットワークを使用して、構築された Ds データセットを迅速に微調整し、I2T の潜在空間を Ds データセットのスタイル分布に適合させることができます。モデルの微調整の損失関数には、再構築損失と密度正規化損失が含まれます。モデルの微調整は非常に効率的で、約 3 分で完了できます。この時点で、カスタム スタイル (テキスト プロンプト t を使用して指定) の 3D ポートレート モデルを取得できます。

実験

この記事のホームページには、一連の高品質で様式化された 3D ポートレート合成結果が示されています。本論文の方法のスケーラビリティを検証するために、研究チームはマルチスタイルおよびマルチアイデンティティのポートレートデータセットを構築しました。彼らは ChatGPT を使用して、芸術的なスタイル、映画のキャラクター スタイル、ゲームのキャラクター スタイル、基本的な属性編集スタイルなど、さまざまなスタイル タイプの 100 個の質問プロンプトを生成しました。それぞれのスタイルについて、この記事のポートレート様式化パイプラインを使用して、さまざまな視点から 10 x 10 の様式化されたポートレートを合成し、10,000 枚の画像を含むマルチスタイルの単一アイデンティティ ポートレート データセット (MSSI) を構築します。さらに、MSSI に基づいて、各スタイルのアイデンティティ属性が拡張され、つまり、異なる w ベクトルがランダムにサンプリングされて、マルチスタイル マルチアイデンティティ ポートレート データセット (MSMI) が取得されます。この 2 つのデータセットに対するこの方法の微調整されたモデルの 3D ポートレート合成結果は次のとおりです。

写真

I2T の ws 潜在空間での補間により、3D ポートレートのスタイル変更を実現できます。

この方法とベースライン方法の比較結果は次のとおりです。

方法の詳細と実験結果については、原著論文とプロジェクトのウェブサイトを参照してください。

<<:  Google AI はすべてを食べています!すべての公開コンテンツはAIトレーニングのためにクロールされ、プライバシーポリシーが更新されました

>>:  大規模言語モデルの視覚的才能: GPTは文脈学習を通じて視覚的タスクも解決できる

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

Google 研究者: AI が優秀すぎて「ラインを落とした」

数日前、人工知能の分野でほとんどブラックユーモアとも言えるニュースが発表された。Google のエン...

ガートナー: 2020 年の人工知能の成熟度曲線、どのテクノロジーが価値があるか

1. ガートナー: 2018 年から 2020 年までの AI 成熟度曲線の概要最近、世界的に有名な...

一枚の紙で AI を騙せる。これが OpenAI の最も先進的な視覚モデルでしょうか?

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

ムスク・ニューラリンクに挑戦!スタンフォード大学の新しい脳コンピューターインターフェースは脳とシリコンベースのチップを直接接続する

[[319624]]最近、スタンフォード大学の研究者らは、脳をシリコンベースの技術に直接接続できる新...

中国の人工知能チップ市場の分析と展望

技術の進歩はあらゆる産業革命の原動力となってきましたが、人類社会は人工知能技術の進歩により、いわゆる...

香港最大のAI詐欺事件!ディープフェイクが「英国人CFO」の顔をすり替え、同社から2億香港ドルを直接詐取

ここ数日、古くからあるAIアプリケーション「AI変顔」が何度も話題となり、ホットな検索ワードに何度も...

スマート教育を開発することの価値は何でしょうか? 5GとAIが重要な役割を果たす

国内の感染予防・抑制状況が基本的に安定してきたため、各地で大学や小中学校などで「授業再開」が実施され...

10x Nvidia GPU: Google TPUスタートアップチームによる、モデル固有の大型チップが一夜にして有名に

モデルが GPT-3.5 のように数千億の規模に達すると、トレーニングと推論のための計算能力は一般的...

...

クラウドベースの生成 AI: 構築するか、購入するか?

デビッド・リンシカム編纂者 | Yan Zheng制作:51CTO テクノロジースタック(WeCha...

人気の説明: キャッシュ、キャッシュ アルゴリズム、キャッシュ フレームワークの概要

[[437580]]導入私たちは皆、キャッシュについて聞いたことがあります。キャッシュとは何かと尋ね...

かつて人類を滅ぼす恐れがあったロボットは、商業的なパフォーマンスツールになりました。人工知能は結局のところまだ高価すぎます。

人類文明の継続的な発展に伴い、社会の分業は大きな変化を遂げ、さまざまな産業の置き換えと反復において、...

会話型AIが重要なサービスに与える影響

コミュニケーションツールが進化するにつれ、電話や携帯電話は人々が情報を素早く共有する能力に大きな影響...

...