ヴィンセントの画像プロンプトはもう退屈でも長くもありません! LLM強化拡散モデル、簡単な文章で高品質の画像を生成できる

ヴィンセントの画像プロンプトはもう退屈でも長くもありません! LLM強化拡散モデル、簡単な文章で高品質の画像を生成できる

拡散モデルは、テキストプロンプトのガイダンスに基づいて高品質でコンテンツが豊富な画像を生成できる、主流のテキストから画像への生成モデルになりました。

ただし、入力プロンプトが簡潔すぎると、既存のモデルでは意味理解と常識的推論に限界が生じ、生成される画像の品質が大幅に低下します。

物語の手がかりを理解するモデルの能力を向上させるために、中山大学 HCP 研究所の Lin Jing 氏のチームは、事前トレーニング済みの拡散モデルに適用できる、シンプルでありながら効果的なパラメータ効率の高い微調整方法 SUR アダプタ、つまり意味理解および推論アダプタを提案しました。

論文アドレス: https://arxiv.org/abs/2305.05189

オープンソースアドレス: https://github.com/Qrange-group/SUR-adapter

この目標を達成するために、研究者らはまず、意味的に修正された 57,000 以上のマルチモーダル サンプルを含むデータセット SURD を収集して注釈を付けました。各サンプルには、単純な物語プロンプト、複雑なキーワードベースのプロンプト、高品質の画像が含まれています。

次に研究者は、物語プロンプトの意味表現を複雑なプロンプトと整合させ、知識蒸留を通じて大規模言語モデル (LLM) の知識を SUR アダプターに転送します。これにより、強力な意味理解と推論機能が得られ、テキストから画像への生成のための高品質のテキスト意味表現を構築できます。

複数の LLM と事前トレーニング済みの拡散モデルを統合することで実験を行い、画像の品質を低下させることなく、拡散モデルが簡潔な自然言語の説明を効果的に理解して推論できることを示します。

この方法により、テキストから画像への拡散モデルが使いやすくなり、ユーザーエクスペリエンスが向上し、ユーザーフレンドリーなテキストから画像への生成モデルの開発がさらに進み、単純な物語プロンプトと複雑なキーワードベースのプロンプト間の意味のギャップを埋めることができます。

背景

現在、安定拡散に代表されるテキストから画像への事前トレーニング済み拡散モデルは、AIGC 分野で最も重要な基本モデルの 1 つとなり、画像編集、ビデオ生成、3D オブジェクト生成などのタスクで大きな役割を果たしています。

しかし、現在の事前トレーニング済み拡散モデルの意味機能は主に CLIP などのテキスト エンコーダに依存しており、その意味理解機能は拡散モデルの生成効果に関連しています。

この論文ではまず、視覚的質問応答タスク (VQA) で一般的に使用される質問カテゴリ「カウント」、「色」、「アクション」に基づいて対応するプロンプトを作成し、手動でカウントして、安定拡散の画像とテキストのマッチング精度をテストします。

次の表は、作成できるさまざまなプロンプトの例を示しています。

結果は下の表の通りです。記事によると、現在のテキスト-画像事前トレーニング拡散モデルには深刻な意味理解の問題があることがわかりました。多数の質問の画像-テキストマッチング精度は50%未満であり、一部の質問では精度が0%に過ぎません。

したがって、テキスト生成の条件を満たす画像を取得するには、事前トレーニング済みの拡散モデルでエンコーダーのセマンティック機能を強化する方法を見つける必要があります。

方法の概要

1. データの準備

まず、一般的に使用されている拡散モデルのオンライン ウェブサイト lexica.art、civitai.com、stablediffusionweb から大量の画像とテキストのペアを取得し、クリーンアップとスクリーニングを行って 57,000 を超える高品質 (複雑なプロンプト、単純なプロンプト、画像) のトリプルを取得し、SURD データセットを形成します。

図に示すように、複雑なプロンプトとは、拡散モデルが画像を生成する際に必要なテキストプロンプト条件を指します。通常、これらのテキストプロンプトには複雑な形式と説明があります。シンプルプロンプトは、人間の説明に準拠した言語形式である BLIP によって生成された画像のテキスト説明です。

一般的に言えば、拡散モデルでは、通常の人間の言語の説明に準拠した単純なプロンプトと意味的に十分に一致する画像を生成することは困難ですが、複雑なプロンプト (ユーザーはこれを拡散モデルの「呪文」と冗談で呼んでいます) では満足のいく結果を達成できます。

2. 大規模言語モデルの意味抽出

本論文では、特定の隠れ層で大規模言語モデルの意味的特徴を抽出し、アダプタによって導かれた大規模言語モデル情報と元のテキストエンコーダによって出力された意味的特徴を線形結合して最終的な意味的特徴を得るためのトランスフォーマー構造のアダプタを導入します。

大規模言語モデルでは、さまざまなサイズの LLaMA モデルを使用します。拡散モデルの UNet 部分のパラメータは、トレーニング プロセス全体を通じて固定されます。

3. 画質の復元

本稿の構成では、事前学習済みの大規模モデルの推論プロセスに学習可能なモジュールを導入しているため、事前学習済みモデルの元の画像生成品質がある程度損なわれています。そのため、画像生成の品質を元の事前学習済みモデルの生成品質レベルに戻す必要があります。

本論文では、SURDデータセットのトリプレットを使用して、トレーニングで対応する品質損失関数を導入し、画像生成品質を回復します。具体的には、本論文では、新しいモジュールを通過した後に単純なプロンプトによって取得された意味的特徴が、複雑なプロンプトの意味的特徴と可能な限り一致することを期待しています。

下の図は、事前トレーニング済みの拡散モデルに対する SUR アダプタの微調整フレームワークを示しています。右側はアダプタのネットワーク構造を示しています。

実験結果

この論文では、セマンティックマッチングと画像品質という 2 つの観点から SUR アダプタのパフォーマンスを検証します。

一方、次の表に示すように、SUR アダプタは、さまざまな実験設定下で Wensheng グラフ拡散モデルにおける一般的な意味不一致の問題を効果的に軽減できます。意味基準のさまざまなカテゴリでは、精度がある程度向上します。

一方、本論文では、BRISQUEなどの一般的に用いられる画質評価指標を用いて、オリジナルの事前学習拡散モデルとSURアダプタ使用後の拡散モデルで生成された画像の品質について統計的検定を行った結果、両者の間に有意な差がないことがわかった。

同時に、人間の嗜好に関するアンケートテストも実施しました。

上記の分析は、提案された方法が、画像生成の品質を維持しながら、事前にトレーニングされたテキストから画像への変換に固有の画像とテキストの不一致の問題を軽減できることを示しています。

以下のように画像生成の具体例を定性的に紹介することもできます。より詳細な分析や詳細については、こちらの記事やオープンソースリポジトリを参照してください。

 

HCPラボの紹介

中山大学のヒューマン・コンピュータ・オブジェクト融合研究所(HCPラボ)は、2010年に林静教授によって設立されました。近年、マルチモーダルコンテンツ理解、因果および認知推論、具体化された知能などの分野で豊富な学術成果を達成し、国内外の科学技術賞や最優秀論文賞を数多く受賞しており、製品レベルのAI技術とプラットフォームの構築に取り組んでいます。

<<:  NVIDIA DLSS 3.5 がリリースされました!新しいAI「光再構成」は超リアルな光と影を実現し、新旧両方のグラフィックカードでサポートされています。

>>:  マスク氏がテスラFSD V12の試乗を生放送!世界初のエンドツーエンドAI自動運転、10,000台のH100でトレーニング

ブログ    
ブログ    
ブログ    

推薦する

公開鍵暗号を解読することは可能ですか?

Q: 正しくインストールされ、操作されていれば、公開鍵インフラストラクチャ (PKI) は破られな...

...

AIの力を借りれば、罠だらけのジムは歴史の舞台から消えるのでしょうか?

[[336650]]驚くべきことに、COVID-19の世界的大流行の中で、フィットネスやエクササイ...

2018 年後半のディープラーニング プロジェクトをお見逃しなく!

[[252582]]ビッグデータダイジェスト制作翻訳者:fuma、Ni Ni、Jiang Baos...

...

弁護士の仕事もAIによって奪われるのでしょうか?ユーザー: 他に何ができますか?

モバイルインターネット時代の到来により、AIは前例のない成果を達成し、人々の生活のあらゆる側面に入り...

...

日本のCGマスターがまた登場!リアルタイムの顔キャプチャのための 3D モデリング ソフトウェア

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

FacebookのAIはたった1語で手書きを真似できるが、オープンソース化するには強力すぎる

Facebook は最近、画像内のテキスト スタイルをコピーして再現できる新しい画像 AI「Text...

強化学習のフレームワークは AI 開発に新たなアイデアを生み出すでしょうか?

[[256809]]アルゴリズムを理解しておらず、AI機能を備えたアプリを開発したいアプリ開発者の...

...

近い将来、人工知能は多くの人々の仕事を置き換えることになるだろう

清華大学金融学科教授の李道奥氏は、ハーバード大学で経済学の博士号を取得。スタンフォード大学フーバー研...

ディープラーニングタスクに最適な GPU を選択するにはどうすればよいでしょうか?

ディープラーニングは計算集約型の分野であり、GPU の選択によってディープラーニングの実験が根本的に...

ジェネレーティブ AI によるヘルスケアの変革: 新たなユースケースと将来の可能性

ヘルスケアとウェルネスのダイナミックな分野では、ANI と生成 AI の組み合わせによる革命が進行し...