ビッグモデルは言語から視覚へと飛躍し、テキストと画像のコンテンツをシームレスに理解して生成する可能性を秘めています。最近の一連の調査では、マルチモーダル機能の統合は増加傾向にあるだけでなく、マルチモーダル会話からコンテンツ作成ツールに至るまで、重要な進歩をもたらしていることがわかっています。大規模言語モデルは、テキストの理解と生成において比類のない能力を発揮しています。しかし、一貫したテキストの物語と画像を同時に生成することは、まだ未開発の分野です。 最近、カリフォルニア大学サンタクルーズ校の研究チームは、「生成的ヴォーケン」という概念に基づいた革新的なインターリーブ型視覚言語生成技術である MiniGPT-5 を提案しました。
MiniGPT-5 は、特別な視覚トークン「generative voken」を介して Stable Diffusion メカニズムと LLM を組み合わせることで、熟練したマルチモーダル生成の新しいモデルを先導します。同時に、この記事で提案されている 2 段階のトレーニング方法は、記述のない基礎段階の重要性を強調し、データが不足している場合でもモデルが「繁栄」できるようにします。私たちのアプローチの汎用フェーズではドメイン固有の注釈は必要ないため、私たちのソリューションは既存のアプローチとは異なります。生成されたテキストと画像の一貫性を確保するために、二重損失戦略が機能し、生成ヴォーケン法と分類法によってこの効果がさらに強化されます。 これらの技術を基にして、この研究は変革的なアプローチを示しています。研究チームは、ViT (Vision Transformer) と Qformer を大規模な言語モデルとともに使用して、マルチモーダル入力を生成音声に変換し、高解像度の Stable Diffusion2.1 とシームレスに組み合わせて、コンテキスト認識型画像生成を実現しました。この論文では、補助入力としての画像を命令調整方法と組み合わせ、テキストと画像の生成損失の使用を先駆的に導入し、テキストと視覚の相乗効果を拡大しています。 MiniGPT-5 は、CLIP 制約などのモデルと一致し、拡散モデルを MiniGPT-4 と巧みに組み合わせて、ドメイン固有の注釈に依存せずに、より優れたマルチモーダル結果を実現します。最も重要なことは、私たちの戦略は、マルチモーダル視覚言語基盤モデルの進歩を活用し、マルチモーダル生成機能を強化するための新たな青写真を提供できることです。 下の図に示すように、MiniGPT5 は、元のマルチモーダル理解およびテキスト生成機能に加えて、合理的で一貫性のあるマルチモーダル出力も提供できます。 この論文の貢献は、次の 3 つの側面に反映されています。
次に、研究の詳細を見てみましょう。 方法の概要大規模言語モデルにマルチモーダル生成機能を持たせるために、研究者らは、事前トレーニング済みのマルチモーダル大規模言語モデルとテキストから画像への生成モデルを統合する構造化フレームワークを導入しました。異なるモデル分野間の違いに対処するために、生の画像で直接トレーニングできる「生成ヴォーケン」と呼ばれる特別な視覚シンボルを導入しました。さらに、2 段階のトレーニング方法が推進され、分類器を使用しないブートストラップ戦略と組み合わせることで、生成品質がさらに向上します。 マルチモーダル入力ステージ MiniGPT-4 などの大規模マルチモーダル モデルの最近の進歩は、マルチモーダル理解に重点が置かれており、画像を連続入力として処理できるようになりました。その機能をマルチモーダル生成に拡張するために、研究者は視覚的特徴を出力するために特別に設計された生成音声エンジンを導入しました。さらに、マルチモーダル出力学習のために、大規模言語モデル (LLM) フレームワーク内でパラメータ効率の高い微調整手法を採用しました。 マルチモーダル出力生成 生成されたトークンを生成モデルに正確に合わせるために、次元マッチング用のコンパクトなマッピング モジュールを策定し、テキスト空間損失や潜在拡散モデル損失などのいくつかの教師あり損失を組み込みます。テキスト空間損失は、モデルがトークンの正しい位置を学習するのに役立ちますが、潜在的拡散損失は、トークンを適切な視覚的特徴に直接配置します。生成トークンの特徴は画像によって直接誘導されるため、この方法では包括的な画像の説明は必要なく、説明不要の学習を実現します。 トレーニング戦略 テキスト領域と画像領域間の領域シフトが無視できないことを考慮すると、インターリーブされたテキストと画像の限られたデータセットで直接トレーニングすると、位置ずれや画像品質の低下につながる可能性があることがわかります。 そこで、彼らはこの問題を軽減するために 2 つの異なるトレーニング戦略を採用しました。最初の戦略では、分類器を使用しないブートストラップ手法を採用して、拡散プロセス全体を通じて生成されたトークンの有効性を向上させます。2 番目の戦略は 2 段階で実行されます。最初の事前トレーニング段階では、粗い特徴の調整に重点を置き、その後の微調整段階では、複雑な特徴の学習に専念します。 実験と結果モデルの有効性を評価するために、研究者らは複数のベンチマークを選択し、一連の評価を実施しました。実験はいくつかの重要な疑問を解決することを目的としていました。
異なるトレーニング段階での異なるベンチマークでのモデルのパフォーマンスを評価するために、MiniGPT-5 の定量分析サンプルを以下の図 3 に示します。 ここでの評価は、視覚(画像関連のメトリック)と言語(テキスト メトリック)の両方に及び、提案されたモデルの汎用性と堅牢性を実証します。 VIST 最終段階評価 最初の一連の実験では、単一ステップの評価、つまり最後のステップでプロンプト モデルに基づいて対応する画像を生成します。結果は表 1 に示されています。 3 つの設定すべてにおいて、MiniGPT-5 は微調整された SD 2 よりも優れたパフォーマンスを発揮します。特に、MiniGPT-5 (LoRA) モデルの CLIP スコアは、画像プロンプトとテキストプロンプトを組み合わせた場合に特に、複数のプロンプトタイプにわたって他のバリアントよりも一貫して優れています。一方、FID スコアは MiniGPT-5(プレフィックス) モデルの競争力を強調しており、画像埋め込みの品質 (CLIP スコアに反映) と画像の多様性とリアリズム (FID スコアに反映) の間にトレードオフがある可能性があることを示唆しています。ユニモーダル登録段階なしで VIST で直接トレーニングされたモデル (UAS なしの MiniGPT-5) と比較すると、モデルは意味のある画像を生成する能力を保持しますが、画像の品質と一貫性は大幅に低下します。この観察は、2 段階のトレーニング戦略の重要性を強調しています。 VIST マルチステップ評価 より詳細かつ包括的な評価では、研究者らはモデルに過去の歴史的背景を体系的に提供し、その後、各ステップで生成された画像と物語を評価しました。 表 2 と 3 は、これらの実験の結果をまとめたものであり、それぞれ画像と言語のメトリックに関するパフォーマンスをまとめたものです。実験結果によると、MiniGPT-5 は、元のモデルのマルチモーダル理解機能を損なうことなく、すべてのデータで横長のマルチモーダル入力プロンプトを使用して、一貫性のある高品質の画像を生成できることがわかりました。これは、さまざまな設定における MiniGPT-5 の有効性を強調しています。 VIST 人間評価 表4に示すように、MiniGPT-5は57.18%のケースでより関連性の高いテキスト記述を生成し、52.06%のケースでより優れた画像品質を提供し、57.62%のシナリオでより一貫性のあるマルチモーダル出力を生成します。仮定法なしでテキストから画像へのプロンプトナレーションを使用する 2 段階のベースラインと比較すると、これらのデータは、より強力なマルチモーダル生成機能を明確に示しています。 MMDialog 複数回の評価 結果を表 5 に示します。MiniGPT-5 は、より正確なテキスト応答を生成する点でベースライン モデル Divter を上回っています。生成された画像の品質は似ていますが、MiniGPT-5 は MM 相関の点でベースライン モデルを上回っており、画像生成を適切にローカライズし、一貫性の高いマルチモーダル応答を生成する方法をより適切に学習できることを示しています。 効果は何ですか? MiniGPT-5の出力を見てみましょう。下の図 7 は、CC3M 検証セットにおける MiniGPT-5 とベースライン モデルの比較を示しています。 下の図 8 は、MiniGPT-5 と VIST 検証セットのベースライン モデルの比較を示しています。 下の図 9 は、MMDialog テスト セットにおける MiniGPT-5 とベースライン モデルの比較を示しています。 研究の詳細については原著論文を参照してください。 |
<<: AIの恋人の唆しでエリザベス女王暗殺未遂の罪で懲役9年の判決を受けた男
>>: アルトマンのYCスピーチ: ChatGPTを攻撃する者は死ぬ、私ができるからといって、あなたにもできるとは限らない
英国を拠点とするサマド・エアロスペースは、E-スターリングeVTOL機の半分の規模の試作品の開発を進...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
「グーグルには現在、先見の明のあるリーダーはいない。経営陣から上級副社長、副社長に至るまで、彼らは皆...
世界中で大きなデジタル革命が起こっています。技術の進歩により、イノベーション、俊敏性、市場開発が加速...
新たな進歩の時代を迎えるにあたり、「スマートホーム」という概念がかつてないほど普及しています。人工知...
今日まで人工知能は発展してきましたが、人工知能は意識を持っているのでしょうか?チューリング賞受賞者の...
2023年には、個人にとっても企業にとっても「脆弱性」はほぼ普遍的な状態になります。世界経済が大き...
昨日の午後、百度は新製品発表会で「小度」スマートスピーカーを発表しました。このスマートスピーカーは百...
9 月 19 日、Jim Fan は Fudan NLP チームからの LLM ベースのエージェント...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
利益率が圧迫されている中、ロボティック・プロセス・オートメーション (RPA) を導入することでコス...