「ヴィンセントピクチャー」がまたバージョンアップしました!パーソナライズされたリファレンスを学習し、無制限で多様な画像を生成し、おもちゃの建物を簡単に設計します

「ヴィンセントピクチャー」がまたバージョンアップしました!パーソナライズされたリファレンスを学習し、無制限で多様な画像を生成し、おもちゃの建物を簡単に設計します

最近、南カリフォルニア大学、ハーバード大学などの研究チームが、プロンプトベースの新しい学習法「DreamDistribution」を提案しました。

この方法により、テキストプロンプト (Vincent 画像、Vincent 3D など) に基づく任意の生成モデルが、参照画像のセットを介して対応する視覚属性の共通性と変化するテキストプロンプトの分布を学習できるようになります。

写真

論文アドレス: https://arxiv.org/abs/2312.14216

プロジェクトのホームページ: https://briannlongzhao.github.io/DreamDistribution/

コードリンク: https://github.com/briannlongzhao/DreamDistribution

それだけでなく、学習したプロンプト分布を使用して、参照画像に似ているがより多様な画像を生成することもできます。また、分布の分散を調整して多様性を制御したり、複数のプロンプト分布を組み合わせて混合コンセプト画像を生成するなどの操作もサポートしています。

簡単に言えば、わずか数枚から十数枚の参考画像があれば、参考画像の視覚効果と一致し、多様性に富んだ画像を無限に生成でき、ガンダム玩具モデルのさまざまな新しいデザインを簡単に生成できます。

写真

3D 生成モデルをプラグ アンド プレイすると、さまざまなスタイルのスポーツカーや建物なども生成できます。

写真

また、Textual Inversion や DreamBooth と同様のテキストガイド編集機能もサポートしています。

写真

3D 生成の編集機能も備えています。

写真

トレーニング後の世代の多様性の制御をサポートする操作(2 行目から下に行くほど多様性が増加します)。

写真

さまざまな概念の組み合わせをサポートします:

写真

下の図に示すように、ユーザーはさまざまなガンダムのおもちゃの画像などの参照画像のセットを提供するだけで、DreamDistribution はこの画像セットに対応するテキストプロンプト分布 D* を学習できます。

写真

次に、推論時に、D* からサンプリングして、十分な変化と多様性を持つ分布内出力画像を生成します。

さらに、D* は、テキストガイドによる編集もサポートしており、Jumping D* のプロンプト分布からサンプリングして、ジャンプポーズのガンダムのおもちゃの画像を生成するなど、画像の変更を生成できます。

私たちの方法は下流の生成モデルから比較的独立しているため、学習したプロンプト分布は他のテキストプロンプトベースの生成タスクにも適用できます。

デモで示した MVDream ベースのテキストから 3D への生成例に加えて、同様のプロンプト変更を使用して、適切な変更を加えたテキスト プロンプトに準拠する 3D モデル レンダリングを生成することもできます。

研究の動機

拡散生成モデルが勢いを増すにつれて、ビジュアル生成の品質が向上しています。

DALL·E、Imagen、Stable Diffusion、MidJourney などの最先端の画像生成モデルや、その他の一連のテキスト生成画像モデルは、すでに非常に高品質の画像を生成できます。

同時に、テキストプロンプトでは視覚概念の詳細を要約することが難しいため、Textual InversionやDreamBoothなどの研究では、画像誘導方式によるモデル生成の制御性とパーソナライゼーション(パーソナライズ/カスタマイズ)機能を追求しています。つまり、生成モデルは参照画像に基づいて、特定のペットの犬、特定のおもちゃなどのパーソナライズされた概念を理解し、テキスト誘導プロンプト編集を通じてパーソナライズされた概念の変化に基づいて画像を生成します。

ただし、これらの方法はすべて特定のインスタンスをパーソナライズすることに重点を置いていますが、多くの場合、ユーザーはより抽象的な視覚的特徴をパーソナライズして新しいインスタンスを生成する必要があります。たとえば、一貫したデザイン スタイルで新しいガンダムのおもちゃを生成したり、同様のスタイルで新しい漫画のキャラクターや新しい絵画を生成したりする場合などです。

既存のインスタンスレベルのパーソナライゼーション方法を使用する場合、参照画像内の指定されたインスタンスとは異なる画像を生成することは困難です。参照画像が同じインスタンスを表していない場合、既存のインスタンスレベルのパーソナライゼーション方法では参照画像の変更をキャプチャできず、生成プロセスの多様性が制限されます。

方法の概要

DreamDistribution のトレーニング方法は、主に 3 つの部分に分かれています。

1. Textual Inversion に似たプロンプト学習方法に基づいて、固定長のプロンプト埋め込みのみが更新され、残りの下流​​のテキスト エンコーダーと拡散モデルのパラメーターは固定されます。

2. プロンプト学習に基づいて、プロンプト分布学習が導入されます。つまり、同じ長さの複数のテキストプロンプト埋め込みを保存し、これらのプロンプトの意味的特徴を使用して、意味空間内のプロンプトのガウス分布を適合させます。

同時に、異なるプロンプトが意味空間内で異なる特徴を持つことを保証するために、意味空間内の異なるプロンプト間のコサイン類似度を最小化する直交損失項が導入されます。

3. 全体の分布を最適化するために、複数の微分可能なサンプリングに重いパラメータ法が使用されます。最終的な損失関数は、下流の生成モデルのトレーニングに使用されるものと同じ画像再構成損失またはノイズ予測の平均二乗損失関数、およびハイパーパラメータによって制御される直交損失関数です。

推論中に、学習したテキストプロンプト分布から直接サンプリングし、それを下流の生成モデルのプロンプト入力として使用して画像を出力できます。

写真

テキストガイドによるプロンプトの変更が必要な場合は、埋め込み空間内のすべてのプロンプトに同じテキストプレフィックスまたはサフィックスが追加され、ガウス分布がセマンティックフィーチャ空間で再調整され、下流の生成モデルの入力としてサンプリングされます。

実験と結果

多様で個性的な世代

まず、私たちの方法が多様でパーソナライズされた画像を生成する能力を実証します。 DreamDistribution によって生成された画像は、トレーニング画像と異なり、多様性が高く、トレーニング画像の共通の視覚的特徴を保持します。

テキストでは簡単に説明できないが、同時にいくつかの類似した視覚特性を持つトレーニング画像のセット (通常 5 ~ 20 枚) が与えられた場合、学習した分布から入力キューとして単純にサンプリングするだけで、多様な分布内画像を生成することができます。

したがって、学習されたプロンプト分布は、トレーニング画像セットに対応する説明の分布として見ることができます。

ベースラインと比較

Textual Inversion、DreamBooth、Custom Diffusion などの一般的なインスタンス レベルのパーソナライゼーション方法と比較します。

また、短い説明をテキストプロンプトとして使用する方法と、詳細な説明を含む長いテキストをプロンプトとして使用する方法を比較しました。これらの比較は、トレーニング画像の類似性と多様性の両方を処理できる当社の方法の能力を強調しています。

同じ事前トレーニング済みの Stable Diffusion バージョン 2.1 が使用され、ベースライン作業で提供されたデフォルトのハイパーパラメータが使用されます。

比較結果

下の図は、ベースライン メソッドとの視覚的な比較を示しています。短いテキストプロンプト方式も長いテキストプロンプト方式も、参照画像と視覚的に一致する結果を生成することはできません。これは、事前トレーニング済みの生成モデルが理解する名詞が参照画像から逸脱する可能性があり、参照画像の詳細を言葉で説明するのが難しいためです。

ベースラインのパーソナライゼーション方法を使用して生成された画像は、多くの場合、すべての例にわたって限られたバリエーションしか示さなかったり、参照画像と一致しない視覚特性を示したりします。これらの方法はすべて、画像内の概念を単一の固定された手がかりの埋め込みに関連付けようとするため、意味的に固定された埋め込みにはバリエーションがありません。

ノイズ除去プロセスによって多少のランダム性が生じる可能性がありますが、トレーニングの目標はさまざまな異なる概念を同じ固定された埋め込みに関連付けることであるため、1) プロンプト埋め込みがアンダーフィッティングとなり、オブジェクト カテゴリ自体の名詞など、過度に広範な概念のみを学習し、生成された画像が参照画像と一致しなくなる (下の図の中央の列から 2 行目と 4 行目を参照)、または 2) トレーニング画像の特定の視覚的組み合わせに適合し、生成された画像の多様性が欠如する (下の図の左の列から 2 行目、3 行目、4 行目を参照) という結果になります。

複数の手がかりモデルを使用し、手がかり分布を最適化して複数の概念をモデル化することで、提案された方法は、左の列の最後の行のような視点などのより多様な外観や実質的な変化を生み出すことができます。私たちの方法では、中央の列の最後の行の例に示すように、マテリアルと背景情報をモデル化し、色とポーズに大きな変化のある新しいインスタンスを生成することもできます。

写真

線や全体的なスタイルなどを変更し、右の列の最後の行のような新しいグラフィティ作品を生成します。全体として、DreamDistribution は、参照画像と一致する適切な視覚特性を維持しながら、色、視点、ポーズ、レイアウト、詳細デザインなどに大きな変化をもたらす画像を生成できます。

品質と多様性の評価

現実世界のオブジェクトの写真(大規模および小規模)、有名アーティストのアートワーク、注目すべきスタイルの漫画キャラクターのイラスト、オンラインコミュニティのイラストレーターのアートワークなど、12 種類の多様な画像シナリオで DreamBooth、Textual Inversion、Custom Diffusion、DreamDistribution をトレーニングし、多様性と品質の面で定量的な評価を行います。

自動評価指標

合成画像の多様性と実際の画像との類似性を測定する確立された自動評価メトリックを使用して、生成された画像を評価します。

以下の表では、FID、CLIP-I、DINO などの一般的な指標を使用して画像品質を評価しています。私たちの方法は、3 つの品質メトリックすべてで最高の品質を達成しており、プロンプトの要件を満たすより高品質の画像を作成できることを示しています。

写真

さらに、密度とカバレッジのメトリックが表 1 に報告されています。密度は、実際のサンプルが密集している領域を測定し、カバレッジは、少なくとも 1 つの生成されたサンプルを含む実際のサンプルの近傍の割合を計算し、画像の多様性を反映します。当社のアプローチは、全体的に最高のカバレッジと多様性を実現します。

人間による評価

12 セットの参照画像に基づいて手動で評価を行いました。各参照画像セットに対して、ベースライン方式と独自の方式を使用して画像を生成し、各方式で 40 枚の画像が生成され、合計 1,920 枚の画像が生成されます。独立した注釈者を 10 人割り当てました。

12 個の参照セットのそれぞれについて、注釈者は、参照セットとの類似性と生成されたセット内の多様性の認識に基づいて、生成された画像の中で最も好ましいセットを選択するように求められました。

メソッドは匿名化されているため、注釈者はどの生成されたセットがどのメソッドに対応するかを知ることができません。合計120個のサンプルを収集し、好みの頻度を数えました。 3 つのベースライン モデルと比較すると、生成された画像は多様性の点で全体的に優れたパフォーマンスを発揮します。

迅速な配布の制御可能性

次の図は、テキストガイドによるプロンプト編集の生成結果をさらに示しています。

写真

テキストガイドによるプロンプト編集に加えて、学習されたプロンプト分布は、分散をスケーリングすることで生成の多様性を制御することもできます。下の図に示すように、スケーリング係数 γ が大きくなると、生成される画像はよりランダムになり、スケーリング係数が 0 に等しい場合、生成される画像の多様性とランダム性は大幅に低下します。

写真

異なるプロンプト分布を重み付けして追加することで、概念が混在した画像を生成することもできます。下の図に示すように、中国の山水画とゴッホの絵画に対応するプロンプト分布を異なる割合で混合することで、2つの特徴が混在したさまざまな画像を生成できます。

写真

3D生成への応用

私たちの方法は下流の生成モデルから独立しているため、学習したキューの分布は、3D へのテキスト生成など、他のテキスト キュー駆動型生成タスクにプラグ アンド プレイで使用できます。

写真

私たちの実験では、3D生成モデルとしてMVDreamを使用しています。結果は、3D生成タスクにおいて多様な生成機能とテキストプロンプト編集機能を反映できることも示しています。

写真

要約する

この研究は、インスタンス レベルではなく、より広範な画像セット レベルでのパーソナライズされた生成タスクに焦点を当てており、生成される画像はより多様で革新的であると同時に、参照画像のいくつかの視覚的特性に準拠しています。

生成効果はトレーニング画像の品質と多様性に大きく依存するなど、この研究にはまだいくつかの欠点があり、3D 生成の結果にはまだ改善の余地があります。

研究者たちは、将来的にはこの手法をより堅牢に最適化し、同様の 3D 生成タスクでのパフォーマンスを向上できるようになることを期待しています。詳細は原文記事をご参照ください。

参考文献:

https://briannlongzhao.github.io/DreamDistribution/

<<:  拡散モデル画像理解力がSOTAをリフレッシュ! ByteDance Fudanチームが新たな「メタプロンプト」戦略を提案

>>:  2024 年のデータ テクノロジーのトレンド: 基礎モデルと機密コンピューティング

推薦する

ALS の少年がアリ数学コンテストで輝く!ブラックホールを研究するためにMITに独学で入学、指導者はホーキングと非常に似ている

今年のアリババ世界数学コンテストでは、特別優秀賞受賞者が決定しました。 ALSを患う20歳の少年、ル...

スーパードライグッズ: データサイエンスの全体像を概観する記事: 法則、アルゴリズム、問題の種類...

Pradeep Menon 氏は、ビッグデータ、データ サイエンス、データ アーキテクチャの分野で...

AIは人間の感情を理解できるのか?

温かく思いやりのある、一緒にいてくれる「ダバイ」が欲しいと願う人は多いだろうが、ダバイのように人間の...

...

...

テンセントが自動運転車市場に参入、百度セキュリティが共同で「OASESスマート端末セキュリティエコロジカルアライアンス」を設立

テンセントは自動運転システムを開発し、無人運転市場への参入も狙っている。百度セキュリティはファーウェ...

衝撃の2017年!この10日間は中国の人工知能の時代

2017年にはすでに「残高不足」が発生。今年、中国の人工知能開発は多くの進歩を遂げ、実りある成果を達...

銀行の二重生体認証実験:二重のトラブルか二重のセキュリティか?

2つの生体認証技術は顔認証と指紋認証です。実験では、両方ともモバイルデバイスを通じて実装され、2つ...

IoTとAIがスマートホームにもたらす効果

スマートシティ建設が国家戦略となり、ハイテクが急速に発展するにつれて、スマートシティはバージョン1....

Baidu Brain EasyDL Professional Editionは、Baiduの超大規模事前学習済みモデルをリリースしました

ディープラーニングの分野では、「転移学習」という用語がますます注目を集めています。パフォーマンスが優...

話題の「人工知能」について、気になるNの質問にお答えします

人工知能は、かなり長い間人気を博してきました。多くの投資家、起業家、そしてあらゆる規模の企業が、この...

...

あなたが書いた ML コードはどれくらいのメモリを占有しますか?これはとても重要なことですが、多くの人がまだそれを理解していません。

[[405865]]機械学習タスクを実行するときは、コードを使用してモデルのメモリ使用量をすばやく...

...