旅の途中を超えて？文脈学習に基づく画像拡散モデルのトレーニング [Frontiers]

1. 背景知識 - テキスト画像生成の現状

まずは背景知識をご紹介します。テキスト画像生成モデルについては、誰もがよく知っているはずです。「imagen」、「stable diffusion」、「dalle2」、「midjourney」などの一連のモデルは、優れた結果と大きな進歩を達成しています。これらのモデルは、与えられたテキストとほぼ一致する画像を生成することができ、多くの場合、生成された画像は想像力にあふれています。彼らが作成した画像は、Web 上で見つけるのが難しいことがよくあります。たとえば、次の写真を撮ります。

2 台のロボットがエッフェル塔の前で乾杯しています。このようなシーンはインターネット上では簡単には得られず、生成モデルを通じてのみ作成できます。

しかし、その優れたパフォーマンスにもかかわらず、これらのモデルは現在、唯一の制御可能な信号として主にテキストに依存しているという問題を抱えています。しかし、特に自然言語では正確に記述することが難しいオブジェクトの位置、角度、姿勢などの特定の詳細を記述する場合、テキストではニーズを完全に満たすことができない場合があります。

さらに、生成された人物やシーンを自然言語で記述できる場合でも、結果が必ずしも正確であるとは限りません。「私の犬」や「自分のランドセル」など、特定のシーンやオブジェクトを生成する必要がある場合、現在のモデルでは、唯一の制御信号としてテキストにしか依存できないため、対処が困難です。そのため、ここでは、生成モデルのパーソナライゼーションという非常に興味深い研究分野が生まれており、これは主に、生成モデルがよりパーソナライズされたコンテンツを作成する方法に焦点を当てています。その中でも、非常に期待されている論文は「Dream Booth」と呼ばれています。その中心となるアイデアは、犬などの特定の対象物があると仮定して、いくつかの例を示し、画像生成モデルにさまざまなシナリオや状態でこの犬の画像を生成させてみるというものです。

つまり、特定のシーンやその他の同様の状況で右側の犬の写真に基づいて、上の写真の左側の犬の写真を生成するなど、さまざまなコンテキストや状況でパーソナライズされた画像を生成できるということです。モデルに生成プロセスの制御をさらに与えると興味深いでしょう。この共有セッションのテーマは、パーソナライズされた生成の可能性をさらに高める方法です。

ただし、「Dream Booth」は良い結果を達成したとはいえ、普遍的な解決策ではないことに注意する必要があります。方法は以下のように非常に簡単です。

基本的な考え方は、指定されたオブジェクトがあると仮定し、そのオブジェクトの写真を複数枚（通常は 3 ～ 5 枚）撮影し、「安定拡散」などのモデルを使用して勾配降下法の微調整を実行することです。この微調整プロセスは約 1,000 ステップ続き、最後に微調整されたモデルを保存します。微調整により、モデルは指定されたオブジェクトをある程度理解するようになり、このオブジェクトに関連する他のシーンの画像を生成するときに非常に優れたパフォーマンスを発揮します。微調整プロセスでは、モデルは勾配降下法などの方法を通じて指定された項目の特性に徐々に適応します。これが、優れたパフォーマンスの理由の 1 つです。

さらに、「Dream Booth」と非常に似ていますが、少し異なる方法である Textual Inversion もあります。

この方法では、モデル全体を微調整する必要はなく、特定の埋め込みベクトルを微調整する必要があります。まず、指定されたオブジェクトに対して特別な埋め込みを設計し、次にモデルの他のパラメータを固定して、この特別な埋め込みのみを調整します。この特別な埋め込みは、メインオブジェクトを表現する方法を学習できます。最後に、画像を生成するときに、調整された埋め込みを使用して生成プロセスをガイドできます。

埋め込みは、生成されたコンテンツに特定の主題の特性を持たせることができるアダプターのようなものです。実際、これはパラメータを効率的に調整する方法です。微調整は必要ですが、メモリ要件は比較するとはるかに低くなります。しかし、この方法にも欠点があり、その効果は明らかに「ドリームブース」ほど良くありません。これは、調整するパラメータが少ないため、生成効果が限られているためです。現在、両方のモデルにはいくつか致命的な問題があり、具体的には、微調整プロセスに非常に時間がかかり、大量の GPU メモリが必要になります。もう 1 つの問題は、各主題を微調整し、そのチェックポイントを保存する必要があることです。「安定拡散」などのモデルを使用する場合、微調整操作には約 10 GB のサイズのチェックポイントを保存する必要があります。トピックが 100 個ある場合、必要なストレージ容量は 1 TB を超えます。この場合、モデルのスケーラビリティは大きく影響を受けます。

これらの方法に共通するのは、いずれも特定のオブジェクトに関する特定の情報をモデルに導入し、それによってモデルが関連画像を生成する際の精度を高めようとする点です。モデル全体を微調整するか、特定の埋め込みを調整するかに関係なく、特定の個体を生成するモデルのパフォーマンスを向上させることが目標です。

2. 動機: コンテキスト学習画像生成モデルがなぜ必要なのか?

この講演では、上記の問題を回避しながら、微調整なしで生成モデルをパーソナライズする方法を紹介します。これは主に私の 2 つの論文に基づいています。1 つは「Subject-driven Text-to-Image Generation via Apprenticeship Learning」(見習い学習による主題主導のテキストから画像への生成) で、これはまだ編集待ちです (アーカイブ)。もう 1 つは ICLR 2023 に含まれている論文「Re-Imagen: Retrieval-Augmented Text-to-Image Generator」です。

さて、まずは私たちの目標について予備的に見てみましょう。文脈学習に関しては、誰もがよく知っています。大規模な自然言語処理モデルでは、主にコンテキスト学習法（「コンテキスト内学習」とも呼ばれる）が使用されます。利点は、タスクごとに異なるモデルを構築する必要がないことです。代わりに、1 つのモデルを使用するだけで、コンテキスト内での継続的なプロンプトや例を通じて、モデルが例に基づいて一般化して未知のタスクを解決する方法を学習します。この学習方法は、ゼロサンプル学習を実現できます。自然言語処理の大規模モデル（GPTシリーズなど）の場合、このコンテキスト学習は非常に成功しています。多くの特定の問題を解決するために、勾配降下法などのトレーニング方法は必要ありません。これは、将来の大きなトレンドを反映しています。

パーソナライズされた画像生成の分野でコンテキスト学習を利用できれば非常に有益でしょう。たとえば、子犬のサンプル画像をいくつか提供し、新しい環境での犬の行動を指定するテキストとともに新しい拡散モデルに入力すると、拡散モデルは新しい環境での犬の画像を生成できます。

このアプローチでは、モデルの微調整が不要になり、トピックごとに拡散モデルのコピーを保存する必要がありません。必要なモデルは 1 つだけで、推論時間は以前よりも 10 倍以上高速になります。

しかし、この理想的な状況をどのように実現するのでしょうか?画像生成モデルと自然言語生成モデルの違いを探る必要があります。自然言語モデルにおけるコンテキスト学習は、事前トレーニングから生まれます。事前トレーニングは、多数の自然な文 (連続したトークンで構成) と、モデルが現在のトークンに基づいて文内の次のトークンを予測するメカニズムを通じて実現されます。このような大規模な言語モデルが自動的にコンテキスト学習機能を獲得できるというのは、実に不思議なことのように思えます。この現象について議論している研究は数多くありますが、事前トレーニング後にモデルがこの能力を自動的に獲得する理由はまだ不明です。ただし、現在のところ、画像生成モデルには同様の機能はありません。事前トレーニングプロセスでは、入力として複数の連続した画像テキストを使用せず、単一のテキストと画像のペア学習のみに焦点を当てているため、コンテキスト情報が不足しています。このような事前トレーニングでは、画像生成モデルはコンテキスト学習機能を実現できません。

このようなコンテキスト学習機能を備えた拡散モデルをトレーニングするには、いくつかの改善が必要です。まず、既存のネットワーク構造では制御信号としてテキストしか受け入れられないため、ネットワークアーキテクチャを調整する必要があります。デモンストレーションとコンテキストの追加例ができたので、それらをネットワーク構造に取り込む方法を検討する必要があります。そのためには、新しいネットワークアーキテクチャの設計が必要です。

次に、トレーニングデータも調整する必要があります。テキストと同様に、モデルがコンテキスト学習の能力を獲得するには、複数の連続した類似の画像とテキストの例が必要です。したがって、データ面の改善が必要です。次に、この新しいネットワークアーキテクチャを設計する方法について説明します。

3. 設計: 既存のモデルをコンテキスト内で学習できるようにする方法

1. 設計 - ネットワークアーキテクチャ

標準的なテキストから画像への生成モデルアーキテクチャは、通常、上図に示すように UNet で構成されます。 UNet は、まずノイズの多い画像を畳み込み、ダウンサンプリングして、より小さな特徴マップを取得し、次にそれをアップサンプリングし、その他の畳み込み演算を追加して、最後に特徴マップを入力画像と同じサイズに復元します。これら 2 つのステップは、主にノイズ除去プロセスをシミュレートするためのものです。

この UNet は、テキスト制御信号をキャプチャするためのアテンションメカニズムを追加し、テキスト情報を使用して拡散プロセスをガイドする点で、通常の UNet とは異なります。このプロセスでは、この UNet にグラフィックの例を追加する方法を検討する必要があります。

実は非常にシンプルで、UNet には実際にエンコーダーの機能が備わっていることがわかります。左側の部分は、ダウンサンプリングによって大きな画像を特徴マップに圧縮します。これはエンコーダーと見なすことができます。右側の部分はデコーダーとして見ることができ、画像と関連テキストを特徴マップにエンコードできます。したがって、このダウンサンプリングされたエンコーダーのみを使用して、同じ方法を使用して画像とテキストの例を特徴マップに圧縮できます。

画像とテキストのペアが複数ある場合は、それらを個別に処理し、複数の特徴マップを接続して近傍表現を取得できます。

これを行う利点は、UNet エンコーダーを再利用するときに、この情報を同じ特徴空間に投影できることです。これにより、モデルがこの情報に集中しやすくなります。したがって、最終的なネットワークアーキテクチャは次の図のようになります。

画像を前の画像に対してノイズ除去します。以前は、テキストで制御されていました。ここでは、いくつかのコンテキスト例を追加します。 UNet エンコーダーを再利用して例をエンコードし、特徴マップを取得するだけで、アテンションメカニズムはテキストだけでなく、新しいコンテキスト例の特徴にも焦点を当てます。

私たちが行ったことは実は非常にシンプルで、ネットワークに追加の注意レイヤーを追加して、画像やテキストの例などの参照用制御信号に注意を向けられるようにしただけです。これが私たちの新しいアーキテクチャです。ただし、特定の主題またはトピックに関する複数の画像とテキストのデータのペアがないため、現時点ではこのネットワークをトレーニングすることはできません。

したがって、次に検討する必要があるのは、この新しいトレーニングデータをどのように取得するかということです。

2. 設計トレーニングデータ

理想的には、画像とテキストのコンテキスト内学習 (ICL) データは同様の構造を持つ必要があります。各データペアは、TEXT1-IMAGE1、TEXT2-IMAGE2、...、TEXTN-IMAGEN などのテキストと画像で構成されています。これらの画像とテキストのペアには、特定の類似点があります。たとえば、すべて同じ主題を説明したり、同じスタイルを説明したりすることができます。それらを組み合わせて、いくつかを例として、この主題の新しい画像を生成します。この方法でトレーニングされたモデルは、画像を生成するときに入力例を自動的に参照します。

したがって、TEXTN-IMAGEN で構成されたクラスター化された画像の束が必要になります。各クラスでは、その中のすべての画像が特定の主題に関するものであるか、特定のテーマを持っていることが保証されます。しかし、そのような理想的なデータは現時点では Google 内に存在しません。インターネットからクロールされたデータはすべて独立した画像とテキストデータであり、主題やテーマによって分類されていません。それらを分類することも非常に困難です。クリップに基づくいくつかの戦略を使用することもできますが、効果は非常に低いです。

最後に、私たちの作業には次の側面が含まれます。画像とテキストのペアリングデータを再クロールし、URL に従ってこれらの画像とテキストをクラスタ化します。特に電子商取引のウェブサイトでは、同じウェブページの画像とテキストは密接に関連していると想定されます。例えば、同じウェブページで販売されている靴が、異なるシーンで撮影されているなど、非常に貴重なリソースだと考えています。ただし、Web ページに、互いに類似性のないさまざまなランダムな画像が含まれている場合など、特殊なケースもあります。この場合、相関関係は悪いので、どのように対処すればよいでしょうか?これに対処するために、いくつかのフィルタリング対策を実施しました。異なる画像グループ内の画像間の CLIP スコアを計算してフィルタリングし、画像間の類似性を評価します。

次に、対応する CLIP スコアが特定のしきい値を下回る場合、類似性の低い画像とテキストのクラスターを除外しますが、フィルタリングは非常に厳格であることに注意してください。ただし、データセットのサイズが大きいため、コンテンツの 90% を除外した後でも、数十メガバイトの使用可能なデータがまだ残っています。

さらに、インターネットからクロールされた画像とテキストのペアにはグループ内のテキストノイズが多く含まれており、異なるクラスター内の画像の共通機能を効果的に反映することが難しいことにも気付きました。場合によっては、テキストの内容が非常に雑然としていて、画像との関連性がほとんどないことがあります。この問題を克服するために、Google の事前トレーニング済み言語モデルを使用してこれらの画像の説明テキストを再生成し、Palm などの方法を使用してこれらの説明をさらにクリーンアップし、生成された説明が画像の内容とより一致するようにしました。

次の例では、自動的に構築された画像データセット (ICL データセット) の 2 つの例を示して、これを説明します。

この例では、画像クラスタリングの例を示します。各例の異なる画像には、異なるテキストラベルが付けられています。これらの画像とテキストラベルは Palm によって生成されます。最初の例では、同じポットがさまざまなシーンでどのように見えるかを確認できます。写真の下のテキストはラベルです。 2 番目の例の主語はキツネであり、ラベルが異なります。この例はデモンストレーションのみを目的としていることに注意してください。実際のデータのノイズは例よりもはるかに高くなります。これは、一般的な印象を与えるためだけのものです。

これらの画像を取得した後、最初は最初の 2 つの画像をサンプルとして使用し、モデルに 3 番目の画像を生成させるという単純なアプローチを試しました。しかし、実験により、このアプローチは非常に非効率的であることがわかっています。トレーニング後、モデルは単純なコピーアンドペーストモードに陥ることが多く、入力テキストの内容を無視してサンプルを直接出力としてコピーします。主な理由は、私たちが構築した画像とテキストのグループ内の画像とテキストがあまりにも類似しているため、モデルが革新的でないコピー操作を実行する傾向があるためです。ほとんどの場合、モデルは画像間の違いをほとんど認識せず、一方を他方の位置に単純にコピーします。私たちは長い間この問題について考えており、モデルがこの局所最適状態に陥るのを防ぐ方法を見つけたいと考えていました。しかし、この問題を解決するための非常に直感的な方法を見つけるのは困難であることがわかりました。

まず、生成されたターゲット画像とその他の関連する例が十分に異なることをどのように保証するかを検討する必要があります。つまり、画像であれテキストであれ、機能に大きな違いがあるはずです。上の写真の 1 番目と 3 番目のポットを例にとると、それらの間にはかなりの類似点があります。ただし、画像の 1 つに、人が物体を持っているシーンなど、明らかな違いがある場合、モデルはテキストラベルに基づいてこの違いを生成することを余儀なくされますが、実際のクロールプロセスでこれを取得するのは非常に困難です。したがって、この問題に対処するために、私たちは合成的なアプローチを採用しました。

具体的には、まずこれらのクラスターからテキストを抽出し、大規模な言語モデルを使用して、「ティーポットを持った男性」などのさまざまなシナリオのテキスト説明を生成します。次に、これらのターゲット画像を生成するために Dream Booth を使用しました。Dream Booth の使用はコストがかかり、最終モデルには適していませんが、データを生成する手段としては非常に効果的です。

私たちのアプローチは、まずこれらのクラスターからテキスト記述を選択し、次に大規模な言語モデルを使用して新しいテキスト記述を生成し、次にこのクラスで Dream Booth をトレーニングし、トレーニングされた Dream Booth を使用してこれらの新しいターゲット画像を生成するという、次のステップで構成されています。 Dream Booth は画像生成が非常に優れていますが、失敗するケースもまだ多くあることに注意することが重要です。そのため、大量の Dream Booth 画像を生成した後、ヒューリスティックフィルタリングや CLIP スコアに基づくフィルタリングなど、多くのフィルタリングが実行されました。最終的に、生成された画像の約 20 ～ 30% のみを保持し、残りは品質が十分でないとして破棄されました。一連の処理を経て、最終的に数十万のクラスタリングデータを含むデータセットが得られ、これがその後のモデルトレーニングのデータの基礎となりました。

さらなるトレーニングプロセスは次のとおりです。

まず、上の図はサンプルを示しており、左側に例、右側にターゲット画像があります。トレーニングのプロセスは次のとおりです。

一般的なプロセスは次のようになります。図のエンコーダーを再利用して、複数のサンプルをエンコーダーでエンコードして特徴マップを取得し、特徴マップを連結します。右側のターゲット画像はノイズ除去ターゲットとして使用されます。まず、対象画像のノイズを除去し、次にその対象画像をノイズ除去の対象として使用します。ノイズを追加した後、同じデコーダーを使用してノイズ除去操作を実行します。さらに、図には示されていませんが、モデルの制御性を高めるために、対象画像のテキスト記述も導入しています。

私たちはこのモデルを「SuTI」と呼んでいます。これは「Subject-Driven Text to Image Generation」の略です。この学習に使用したデータセットは、Dream Booth が生成したデータである ICL V2 データセットです。入力例は実際の画像ですが、出力対象は綿密な設計によって生成された画像であり、これにより学習の制御性が向上する点に留意してください。 SuTI モデルをトレーニングする際、約 50 万のトレーニングデータがあるにもかかわらず、モデルのトレーニングプロセスにはそれほど時間がかからないことがわかりました。約 1 日で、モデルは約数十万回の反復を経て、かなり高いレベルに到達できます。

IV. 結果と展望

モデルのトレーニング中、画像生成モデルの近傍として 3 つの例を提供するアプローチを採用しました。このようにして、モデルは注意メカニズムを通じてこれら 3 つの例に焦点を当て、被写体の外観に関する情報を取得し、最終的にターゲット画像を生成することができます。 SuTI モデルをトレーニングした後、モデルがいくつかのスキルを備えていることが確認されました。 1 つ目は様式化スキルです。これにより、対象にさまざまな芸術的スタイルを適用したり、対象をさまざまな環境に配置したり、さまざまな動きを与えたりすることができます。被写体をさまざまな視点から観察し、色などの属性の一部を変更することもできます。また、被写体にさまざまなアクセサリや衣服を追加することもできます。実験パラメータは次のとおりです。

モデル出力の例を以下に示します。

たとえば、入力画像の主題はアヒルのおもちゃであり、生成フェーズでは、ピカソやレンブラントの芸術的なスタイルを使用するなど、テキストを使用して生成される主題のスタイルを指定しようとします。私たちのモデルは、さまざまな芸術的スタイルの画像を生成できます。芸術についてあまり詳しくない私にとって、これらの絵画は非常に優れているように見えます。たとえば、小さな黄色いアヒルには、ゴッホの「星月夜」のスタイルやその他の詳細が組み込まれています。たとえば、写真の犬の場合、モデルは上から、横から、後ろからなど、さまざまな方向からのビューを生成でき、それらはすべてモデル出力に反映されます。生成速度は非常に速く、約20〜30秒で生成できます。

さらに、このモデルは被験者の感情を処理することもできます。たとえば、犬を落ち込んだり、幸せにしたり、眠くしたりすることができます。一方、被写体の色を青、緑、紫、ピンクなどに変更するなど、被写体のいくつかのプロパティを変更することもできます。

また、犬にシェフの制服、警察の制服、看護師の制服などを着せるなど、アクセサリーの追加も試しました。生成された画像は、モデルの制御下で高度なリアリティと合理性を示しました。

さらに、私たちの研究では広範囲にわたる人間による評価が行われ、220 個の独自のプロンプトを作成し、30 人の異なる被験者でテストしました。

まず、テキストベースのガイダンスに基づいてモデルによって生成された画像が、指定された主題とどの程度一致しているかを評価します。被写体の配置とは、生成された画像内の被写体が元の被写体とどの程度類似しているかを指します。このアライメントメトリックは、評価者が画像の類似性を評価したスコアとして表します。スコアの範囲は、類似性がまったくない場合は 0、完全に類似している場合は 10 です。最後に、これらのスコアの平均を取って、主題の整合の尺度を取得します。

2 番目のスコアリング指標は、生成された結果がテキストラベルにどの程度忠実であるかです。たとえば、図 21 で生成された子犬が、説明の「シェフの服装」や「警察の服装」などの内容を完全に正確に反映しているかどうかなどです。テキストの内容を無視して、犬の画像だけをコピーして貼り付ける可能性はありますか。

さらに、3 番目のスコアリング指標は画像の信憑性です。偽造（ARTIFACT）等の痕跡はありますか？

これらの生成された画像はすべて、当社の評価システムにおいて比較的現実的な特徴を示しています。上記のさまざまなスコアリングメトリックをベンチマークデータセット全体で集計します。これらの指標に関するさまざまなサンプルの平均スコアを計算することで、全体のパーセンテージスコアを取得できます。これらのスコアは、Textual inversion、Null-Text Inversion、Imagic、Dream Booth、Stable Diffusion、Re-Imagen、InstructPix2Pix など、多くのベースラインモデルのパフォーマンスを考慮に入れています。ドル記号は、一部のモデルでは微調整時にスペースと時間がかかることを示しています。 Imagic ではテーマの適応に 70 分かかりますが、当社のモデルでは 30 秒しかかかりません。私たちのモデルは「Instruct Pix2 Pix」ほど高速ではないかもしれませんが、後者よりもはるかに優れたパフォーマンスを発揮します。たとえば、トピックの点では、当社のモデルは「dream Boost」を上回り、テキストの配置において優れたパフォーマンスを発揮します。私たちのモデルは、90% のケースでテキストと完全に統合できます。同時に、当社のモデルによって生成された画像は、PS の痕跡がほとんどない状態で 92% の視覚的リアリティを実現します。しかし、「Dream Booth」はこの点でははるかに優れたパフォーマンスを発揮し、約 98% の時間で操作の兆候はなく、画像は非常にリアルでした。「テキスト反転」と比較すると、私たちのモデルはわずかに優れています。

これら 3 つの側面を個別に考慮した後、総合評価スコアに似た総合スコアを付与しました。画像が 3 つの側面すべてで満点を獲得した場合、スコアは 1 になります。最後に、平均スコアを計算して最終的な総合評価を得ました。総合スコアから判断すると、当社のモデル「SuTI」が現在市場で最高のパフォーマンスを発揮していることは特筆に値します。「Dream Booth」と比較すると、当社のモデルは 7 パーセントポイント優れています。他のモデルと比較すると、その利点はより明白で、40%以上に近づいています。

要約すると、私たちのモデルは優れたパフォーマンスを示し、Google 内で大きな注目を集めています。

しかし、前述したように、パーソナライズされた生成は大きく進歩したにもかかわらず、フォトリアリズムはまだ最適ではありません。現在、リアリズムスコアは 92% です。これらの画像をよく見ると、まだ歪みがあることに気がつくでしょう。例えば、犬の画像と背景を組み合わせた場合、実際の元の画像と比較すると、まだ若干のギャップが残ります。対照的に、私たちのモデルは「Dream Booth」と比較すると自然さの点でわずかに劣ります。この状況は、特に顔やテキストの詳細の処理において、モデルの限界を反映しており、効果は比較的低いです。

私たちの現在の主な目標は、このモデルをより大規模に拡張して、上記の問題に対処することです。さらに、SuTI スキルにさらに多くの機能を追加する予定です。現在、スタイライゼーション、再コンテキスト化などの 5 つのスキルがありますが、Control Net と同様に、ポーズコンテンツの統合、バウンディングボックスの追加などのスキルをさらに追加したいと考えています。さらに、画像のスタイルを変えて新しいコンテキストに配置できる構成スキルも導入する予定です。これは、現在のモデルでは実現できない複雑なタスクです。私たちは、データセットとモデルのサイズを拡大してより多くのスキルを付与することで、モデルのパフォーマンスを継続的に向上させることに取り組んでいます。私たちの目標は、さまざまな制御信号をモデルに組み込むことです。最終的には、システム全体を命令チューニング形式で構築したいと考えています。なお、以前のモデルは著作権の問題があったため、再トレーニングを行い、基本的に完成しています。 7月には、このモデルをGoogle Cloudに公開し、皆様と共有する予定です。このモデルは、「Palm 2」と同様に、Vertex AI プラットフォームで見つけることができます。 Google Cloud にサインアップするだけで、当社のモデルを試すことができます。基本的なビルド操作は無料で、一定量の使用後にのみ料金が発生します。

5. 質疑応答

Q1: 陳文湖さんのお話をありがとうございました。内容はとても興味深いです。さて、Q&Aセッションに移りますが、コメント欄にはすでにいくつかの質問があることに気づきました。最初の質問は、トレーニングデータに基づいて、画像とテキストの配置しか取得できないのに、それを適用するとスタイルや角度などの属性が強化されるのはなぜかということです。

A1: 実際、トレーニングデータにはこれらのスタイル属性も含まれています。たとえば、TEAPOT のようなプロンプトの場合は、「ピカソスタイルの TEAPOT イメージを生成します。」となります。次に、「Dream Booth」を通じて、ピカソスタイルの TEAPOT イメージを生成できます。これは単なる例です。さらに、プロンプトを構築する際には、スタイルや視点などのさまざまな属性をカバーする非常に多様なプロンプトを生成する大規模な言語モデルを使用します。たとえば、プロンプトには、「下からの TEAPOT」など、特定のスタイルや特定の視点が含まれる場合があります。「Dream Boost」によって生成された画像は、成功した場合、TEAPOTを下からの視点で表示します。これが、その効果の理由です。

Q2: トレーニングデータには、実際にはすでにこれらの画像とテキストのペアと生成されたシーケンスが含まれています。

A2: はい、トレーニングデータはすでにかなり豊富で、いわゆるスキルがすでに含まれています。

Q3: では、これらのデータセットを増やすと、モデルのパフォーマンスをさらに向上させることができますか?

A3: はい、その通りです。このフレームワークの素晴らしい点の 1 つは、特定のスキルセットに制限されない点だと思います。新しいスキルセットを入力と出力の形式でパッケージ化する方法があれば、同じトレーニング方法を使用してモデルをトレーニングできます。

Q4: さて、次は2番目の質問です。SuTIのスキルポイントが特定のネットワーク構造設計にどのように対応しているかについてです。

A4: この質問にはすでに答えたと思います。私たちのネットワーク構造は、入力指示と出力に基づいて適応する注意メカニズムとして考えることができます。さまざまなスキルが入力と出力を通じてモデルに渡され、モデルは一般化されます。これは指示の調整感覚に似ています。異なる指示を与えると、異なる出力が得られます。ネットワーク構造自体はあまり変化せず、通常の拡散モデルとなります。

Q5: 実際、構造上の特別な処理を必要とせずに、スキルをデータによって実際に定義する方がよいアプローチだと思います。

A5: はい、それがスキルです。実際、このネットワーク構造は非常に一般的な注意メカニズムとみなすことができます。さまざまなスキルが入力形式と出力形式にパッケージ化されてモデルに提供され、モデルはそれに応じてスキルを処理できます。もちろん、この問題については後でさらに議論されるでしょう。現在、これら 5 つのスキルでは、ネットワーク構造に特別な調整は必要ありません。ただし、新たに追加されたスキルの一部については、構造的な調整が必要になる場合があります。たとえば、キャラクターにいくつかのキーポイントや顔のメッシュを提供する場合、これらの新しい制御信号は新しいエンコーダーでエンコードする必要があり、以前の Unet ダウンサンプリングレイヤーは使用できなくなります。この場合、ネットワークは入力された制御信号が通常の画像であると想定しますが、座標などの他の信号がある場合は、ネットワークアーキテクチャを再調整し、これらの新しい制御信号を処理するための新しいアテンションメカニズムを追加する必要がある場合があります。

Q6: はい、これは実際に私が聞きたかった質問への答えです。実際、これを Control Net などの作業と組み合わせると、さらに興味深い結果が得られる可能性があります。

A6: 実際、当社の現在のモデルバージョンはすでに Control Net と組み合わせることができます。この論文では詳しく説明していませんが、たとえば黄色いアヒルのような一部のオブジェクトの場合、ポーズが 1 つしかない場合があり、制御の観点ではあまり意味がない可能性があります。しかし、犬のような物体は複数のポーズをとることができるため、空中に胴体の形のようなものを描き、モデルがこの胴体に体を接続して特定のポーズをとることができます。

Q7: はい、あと1分あります。次に最後の質問に移ります。ここでは、同じエンコーダを使用してテキスト画像を同じドメインに揃える方法について説明します。これ以外に何か方法はありますか？

A7: 他に方法はありますか?別のアプローチは、同じエンコーダを使用しないことです。たとえば、CLIP、BLIP などの他のエンコーダーを使用することもできます。しかし、私たちの実験では、これらの方法はあまりうまく機能しないことがわかりました。もちろん、以前使用していたエンコーダのパラメータ数はそれほど多くありませんでしたが、現在では22B [1]などのより大きなエンコーダがいくつかあり、より大きな特徴マップを持つことができ、モデルが共通のフィールドに注意を払うことができるようになりました。私たちのモデルは同じエンコーダーを再利用するため、元のモデルのエンコーダーを共有し、基本的にこの機能マップを通じて同じ機能空間で動作します。

<<: 自動運転システム向けBEV 3D検出改善戦略の総合分析

>>: マイクロソフトが Windows 11 RP 22621/22631.2787 プレビューアップデートをリリース、モニター間の Copilot 機能などを追加