画像とテキストを統合的に生成するMiniGPT-5が登場:トークンがVokenになり、モデルは書き込みを継続できるだけでなく、自動的に画像を追加することもできます

ビッグモデルは言語から視覚へと飛躍し、テキストと画像のコンテンツをシームレスに理解して生成する可能性を秘めています。最近の一連の調査では、マルチモーダル機能の統合は増加傾向にあるだけでなく、マルチモーダル会話からコンテンツ作成ツールに至るまで、重要な進歩をもたらしていることがわかっています。大規模言語モデルは、テキストの理解と生成において比類のない能力を発揮しています。しかし、一貫したテキストの物語と画像を同時に生成することは、まだ未開発の分野です。

最近、カリフォルニア大学サンタクルーズ校の研究チームは、「生成的ヴォーケン」という概念に基づいた革新的なインターリーブ型視覚言語生成技術である MiniGPT-5 を提案しました。

論文アドレス: https://browse.arxiv.org/pdf/2310.02239v1.pdf
プロジェクトアドレス: https://github.com/eric-ai-lab/MiniGPT-5

MiniGPT-5 は、特別な視覚トークン「generative voken」を介して Stable Diffusion メカニズムと LLM を組み合わせることで、熟練したマルチモーダル生成の新しいモデルを先導します。同時に、この記事で提案されている 2 段階のトレーニング方法は、記述のない基礎段階の重要性を強調し、データが不足している場合でもモデルが「繁栄」できるようにします。私たちのアプローチの汎用フェーズではドメイン固有の注釈は必要ないため、私たちのソリューションは既存のアプローチとは異なります。生成されたテキストと画像の一貫性を確保するために、二重損失戦略が機能し、生成ヴォーケン法と分類法によってこの効果がさらに強化されます。

これらの技術を基にして、この研究は変革的なアプローチを示しています。研究チームは、ViT (Vision Transformer) と Qformer を大規模な言語モデルとともに使用して、マルチモーダル入力を生成音声に変換し、高解像度の Stable Diffusion2.1 とシームレスに組み合わせて、コンテキスト認識型画像生成を実現しました。この論文では、補助入力としての画像を命令調整方法と組み合わせ、テキストと画像の生成損失の使用を先駆的に導入し、テキストと視覚の相乗効果を拡大しています。

MiniGPT-5 は、CLIP 制約などのモデルと一致し、拡散モデルを MiniGPT-4 と巧みに組み合わせて、ドメイン固有の注釈に依存せずに、より優れたマルチモーダル結果を実現します。最も重要なことは、私たちの戦略は、マルチモーダル視覚言語基盤モデルの進歩を活用し、マルチモーダル生成機能を強化するための新たな青写真を提供できることです。

下の図に示すように、MiniGPT5 は、元のマルチモーダル理解およびテキスト生成機能に加えて、合理的で一貫性のあるマルチモーダル出力も提供できます。

この論文の貢献は、次の 3 つの側面に反映されています。

私たちは、新しい一般的な技術であり、LLM や逆生成音声よりも効果的であることが示されているマルチモーダルエンコーダーを使用し、それを Stable Diffusion と組み合わせて、インターリーブされた視覚出力と言語出力を生成することを提案します (マルチモーダル生成のためのマルチモーダル言語モデル)。
私たちは、記述不要のマルチモーダル生成のための新しい 2 段階トレーニング戦略の導入に焦点を当てています。ユニモーダルアライメントステージでは、多数のテキストと画像のペアから、テキストがアライメントされた高品質の視覚的特徴を取得します。マルチモーダル学習フェーズには、新しいトレーニングタスクであるプロンプトコンテキスト生成が含まれており、これにより、視覚プロンプトとテキストプロンプトが適切に調整されて生成されるようになります。トレーニングフェーズ中に分類器を使用しないガイダンスを組み込むと、生成品質がさらに向上します。
他のマルチモーダル生成モデルと比較して、MiniGPT-5 は CC3M データセットで最先端のパフォーマンスを実現します。 MiniGPT-5 は、VIST や MMDialog などのよく知られたデータセットでも新しいベンチマークを確立します。

次に、研究の詳細を見てみましょう。

方法の概要

大規模言語モデルにマルチモーダル生成機能を持たせるために、研究者らは、事前トレーニング済みのマルチモーダル大規模言語モデルとテキストから画像への生成モデルを統合する構造化フレームワークを導入しました。異なるモデル分野間の違いに対処するために、生の画像で直接トレーニングできる「生成ヴォーケン」と呼ばれる特別な視覚シンボルを導入しました。さらに、2 段階のトレーニング方法が推進され、分類器を使用しないブートストラップ戦略と組み合わせることで、生成品質がさらに向上します。

マルチモーダル入力ステージ

MiniGPT-4 などの大規模マルチモーダルモデルの最近の進歩は、マルチモーダル理解に重点が置かれており、画像を連続入力として処理できるようになりました。その機能をマルチモーダル生成に拡張するために、研究者は視覚的特徴を出力するために特別に設計された生成音声エンジンを導入しました。さらに、マルチモーダル出力学習のために、大規模言語モデル (LLM) フレームワーク内でパラメータ効率の高い微調整手法を採用しました。

マルチモーダル出力生成

生成されたトークンを生成モデルに正確に合わせるために、次元マッチング用のコンパクトなマッピングモジュールを策定し、テキスト空間損失や潜在拡散モデル損失などのいくつかの教師あり損失を組み込みます。テキスト空間損失は、モデルがトークンの正しい位置を学習するのに役立ちますが、潜在的拡散損失は、トークンを適切な視覚的特徴に直接配置します。生成トークンの特徴は画像によって直接誘導されるため、この方法では包括的な画像の説明は必要なく、説明不要の学習を実現します。

トレーニング戦略

テキスト領域と画像領域間の領域シフトが無視できないことを考慮すると、インターリーブされたテキストと画像の限られたデータセットで直接トレーニングすると、位置ずれや画像品質の低下につながる可能性があることがわかります。

そこで、彼らはこの問題を軽減するために 2 つの異なるトレーニング戦略を採用しました。最初の戦略では、分類器を使用しないブートストラップ手法を採用して、拡散プロセス全体を通じて生成されたトークンの有効性を向上させます。2 番目の戦略は 2 段階で実行されます。最初の事前トレーニング段階では、粗い特徴の調整に重点を置き、その後の微調整段階では、複雑な特徴の学習に専念します。

実験と結果

モデルの有効性を評価するために、研究者らは複数のベンチマークを選択し、一連の評価を実施しました。実験はいくつかの重要な疑問を解決することを目的としていました。

MiniGPT-5 は信頼できる画像ともっともらしいテキストを生成できますか?
MiniGPT-5 は、シングルパスおよびマルチパスのインターリーブされた視覚言語生成タスクにおいて、他の SOTA モデルと比較してどのように機能しますか?
各モジュールの設計は全体的なパフォーマンスにどのような影響を与えますか?

異なるトレーニング段階での異なるベンチマークでのモデルのパフォーマンスを評価するために、MiniGPT-5 の定量分析サンプルを以下の図 3 に示します。

ここでの評価は、視覚（画像関連のメトリック）と言語（テキストメトリック）の両方に及び、提案されたモデルの汎用性と堅牢性を実証します。

VIST 最終段階評価

最初の一連の実験では、単一ステップの評価、つまり最後のステップでプロンプトモデルに基づいて対応する画像を生成します。結果は表 1 に示されています。

3 つの設定すべてにおいて、MiniGPT-5 は微調整された SD 2 よりも優れたパフォーマンスを発揮します。特に、MiniGPT-5 (LoRA) モデルの CLIP スコアは、画像プロンプトとテキストプロンプトを組み合わせた場合に特に、複数のプロンプトタイプにわたって他のバリアントよりも一貫して優れています。一方、FID スコアは MiniGPT-5(プレフィックス) モデルの競争力を強調しており、画像埋め込みの品質 (CLIP スコアに反映) と画像の多様性とリアリズム (FID スコアに反映) の間にトレードオフがある可能性があることを示唆しています。ユニモーダル登録段階なしで VIST で直接トレーニングされたモデル (UAS なしの MiniGPT-5) と比較すると、モデルは意味のある画像を生成する能力を保持しますが、画像の品質と一貫性は大幅に低下します。この観察は、2 段階のトレーニング戦略の重要性を強調しています。

VIST マルチステップ評価

より詳細かつ包括的な評価では、研究者らはモデルに過去の歴史的背景を体系的に提供し、その後、各ステップで生成された画像と物語を評価しました。

表 2 と 3 は、これらの実験の結果をまとめたものであり、それぞれ画像と言語のメトリックに関するパフォーマンスをまとめたものです。実験結果によると、MiniGPT-5 は、元のモデルのマルチモーダル理解機能を損なうことなく、すべてのデータで横長のマルチモーダル入力プロンプトを使用して、一貫性のある高品質の画像を生成できることがわかりました。これは、さまざまな設定における MiniGPT-5 の有効性を強調しています。

VIST 人間評価

表4に示すように、MiniGPT-5は57.18%のケースでより関連性の高いテキスト記述を生成し、52.06%のケースでより優れた画像品質を提供し、57.62%のシナリオでより一貫性のあるマルチモーダル出力を生成します。仮定法なしでテキストから画像へのプロンプトナレーションを使用する 2 段階のベースラインと比較すると、これらのデータは、より強力なマルチモーダル生成機能を明確に示しています。

MMDialog 複数回の評価

結果を表 5 に示します。MiniGPT-5 は、より正確なテキスト応答を生成する点でベースラインモデル Divter を上回っています。生成された画像の品質は似ていますが、MiniGPT-5 は MM 相関の点でベースラインモデルを上回っており、画像生成を適切にローカライズし、一貫性の高いマルチモーダル応答を生成する方法をより適切に学習できることを示しています。

効果は何ですか？ MiniGPT-5の出力を見てみましょう。下の図 7 は、CC3M 検証セットにおける MiniGPT-5 とベースラインモデルの比較を示しています。

下の図 8 は、MiniGPT-5 と VIST 検証セットのベースラインモデルの比較を示しています。

下の図 9 は、MMDialog テストセットにおける MiniGPT-5 とベースラインモデルの比較を示しています。

研究の詳細については原著論文を参照してください。

<<: AIの恋人の唆しでエリザベス女王暗殺未遂の罪で懲役9年の判決を受けた男

>>: アルトマンのYCスピーチ: ChatGPTを攻撃する者は死ぬ、私ができるからといって、あなたにもできるとは限らない