画像を外国語として扱うKuaishouと北京大学のマルチモーダル大規模モデルはDALLE-3に匹敵する

画像を外国語として扱うKuaishouと北京大学のマルチモーダル大規模モデルはDALLE-3に匹敵する

GPT や LLaMA などの現在の大規模言語モデルは、自然言語処理の分野で大きな進歩を遂げており、複雑なテキスト コンテンツを理解して生成することができます。しかし、大規模な言語モデルの強力な理解および生成機能をマルチモーダル データに転送できれば、大量の画像やビデオを簡単に理解し、写真とテキストの両方を含むコンテンツの作成を支援できると考えたことがありますか。最近、快手と北京大学の共同研究による最新のマルチモーダル大型モデルであるLaVITが、このアイデアを徐々に現実のものにしつつあります。


  • 論文タイトル: 動的離散視覚トークン化による LLM における統合言語視覚事前トレーニング
  • 論文アドレス: https://arxiv.org/abs/2309.04669
  • コードモデルアドレス: https://github.com/jy0205/LaVIT

モデルの概要

新しいタイプの汎用マルチモーダル ベース モデルとして、LaVIT は言語モデルのように視覚コンテンツを理解および生成できます。 LaVIT は、自己回帰方式で次の画像またはテキスト トークンを予測するという、大規模言語モデルの成功したトレーニング パラダイムを継承しています。トレーニング後は、マルチモーダル汎用インターフェースとして機能し、さらに微調整することなく、マルチモーダル理解および生成タスクを実行できます。たとえば、LaVIT には次の機能があります。

高品質なテキストから画像への変換を実現: LaVIT は、指定されたテキスト プロンプトに基づいて、高品質でマルチアスペクト比の美しい画像を生成できます。その画像生成能力は、Parti、SDXL、DALLE-3 などの最先端の画像生成モデルに匹敵します。

マルチモーダルプロンプトに基づく画像生成: LaVIT では画像とテキストの両方が離散化されたトークンとして均一に表現されるため、複数のモーダルの組み合わせ (テキスト、画像 + テキスト、画像 + 画像など) をプロンプトとして受け入れ、微調整なしで対応する画像を生成できます。

画像の内容を理解して質問に答える: 入力画像が与えられると、LaVIT は画像の内容を読み取り、その意味を理解することができます。たとえば、モデルは入力画像のキャプションを提供し、対応する質問に答えることができます。

方法の概要

LaVIT のモデル構造を下図に示します。最適化プロセス全体は 2 つの段階から構成されます。

図: LaVIT モデルの全体的なアーキテクチャ

ステージ 1: 動的ビジュアル トークナイザー

自然言語のような視覚コンテンツを理解し、生成できるようにするために、LaVIT は、LLM が理解できる外国語と同じように、視覚コンテンツ (連続信号) をテキストのようなトークン シーケンスに変換する、適切に設計されたビジュアル トークナイザーを導入しています。著者は、統一された視覚と言語モデリングを実現するために、ビジュアルトークナイザーは次の 2 つの特性を持つ必要があると考えています。

  1. 離散化: 視覚トークンは、テキストのような離散化された形式で表現する必要があります。この 2 つのモダリティの統一された表現は、LaVIT が統一された自己回帰生成トレーニング フレームワークの下でマルチモーダル モデリングの最適化に同じ分類損失を使用するのに役立ちます。
  2. 動的:テキスト トークンとは異なり、イメージ パッチには重要な相互依存性があるため、あるイメージ パッチを他のイメージ パッチから推測するのは比較的簡単です。したがって、この依存関係により、元の LLM の次のトークン予測最適化目標の有効性が低下します。 LaVIT は、さまざまな画像のさまざまな意味的複雑さに応じて動的な数の視覚トークンをエンコードするトークンマージを使用して、視覚パッチ間の冗長性を削減することを提案しています。このように、複雑度の異なる画像の場合、動的トークン エンコーディングを使用すると、事前トレーニングの効率がさらに向上し、冗長なトークン計算が回避されます。

次の図は、LaVIT が提案したビジュアル ワード セグメンターの構造を示しています。

図: (a) 動的ビジュアルトークンジェネレータ (b) トークンのマージ

動的ビジュアルトークナイザーには、トークンセレクターとトークンマージャーが含まれています。図に示すように、トークン セレクターは最も情報量の多い画像ブロックを選択するために使用され、トークン マージャーは情報量の少ない視覚ブロックの情報を保持トークンに圧縮して、冗長トークンのマージを実現します。動的ビジュアル単語セグメンター全体は、入力画像の意味を最大限に再構築することによってトレーニングされます。

トークンセレクター

トークン セレクターは、N 個の画像ブロック レベルの機能を入力として受け取り、各画像ブロックの重要度を評価し、画像全体のセマンティクスを完全に表現するために最も情報量の多いブロックを選択することを目的としています。この目標を達成するために、分布 π を予測するために複数の MLP レイヤーで構成される軽量モジュールが採用されています。分布 π からサンプリングすることにより、対応する画像パッチを保持するかどうかを示すバイナリ決定マスクが生成されます。

トークンの合併

トークン マージャーは、生成された決定マスクに従って、N 個の画像ブロックを 2 つのグループ (X_r と X_d) に分割します。 X_d を直接破棄する場合とは異なり、トークンのマージにより、入力画像の詳細なセマンティクスを最大限に保持できます。トークンのマージは L 個の積み重ねられたブロックで構成され、各ブロックには因果的自己注意層、交差注意層、およびフィードフォワード層が含まれます。因果的自己注意層では、X_r 内の各トークンは、LLM 内のテキスト トークン形式との一貫性を確保するために、その前のトークンにのみ注意を払います。この戦略は双方向セルフアテンションに比べてパフォーマンスが優れています。交差アテンション層は、保持されたトークン X_r をクエリとして受け取り、意味的類似性に従って X_d 内のトークンをマージします。

ステージ2: 統合生成事前トレーニング

ビジュアル ワード セグメンターによって処理されたビジュアル トークンは、テキスト トークンと接続され、トレーニングの入力としてマルチモーダル シーケンスを形成します。 2 つのモダリティを区別するために、著者は画像トークン シーケンスの先頭と末尾に、視覚コンテンツの先頭と末尾を示す特別なトークン [IMG] と [/IMG] を挿入しました。テキストと画像を生成できるようにするために、LaVIT は [画像、テキスト] と [テキスト; 画像] という 2 つの形式の画像とテキストの接続を使用します。

これらのマルチモーダル入力シーケンスに対して、LaVIT は統合された自己回帰アプローチを採用し、事前トレーニングの各マルチモーダルシーケンスの尤度を直接最大化します。この表現空間とトレーニング方法の完全な統一により、LLM はマルチモーダルなインタラクションとアライメントをより適切に学習できるようになります。事前トレーニング後、LaVIT は画像を認識する能力を持ち、テキストのように画像を理解および生成できるようになります。

実験

ゼロショットマルチモーダル理解

LaVIT は、画像キャプション (NoCaps、Flickr30k) や視覚的な質問応答 (VQAv2、OKVQA、GQA、VizWiz) などのゼロショット マルチモーダル理解タスクでトップクラスのパフォーマンスを実現します。

表1 ゼロショットマルチモーダル理解タスクの評価

ゼロショットマルチモーダル生成

この実験では、提案されたビジュアルトークナイザーは画像を離散化されたトークンとして表現できるため、LaVIT は自己回帰によってテキストのようなビジュアルトークンを生成することで画像を合成する機能を備えています。著者らは、ゼロサンプルテキスト条件下でのモデルの画像合成性能の定量的評価を実施し、比較結果を表 2 に示します。

表2 ゼロショットテキスト画像生成の性能(各モデル)

表からわかるように、LaVIT は他のすべてのマルチモーダル言語モデルよりも優れています。 Emu と比較して、LaVIT はより小さな LLM モデルでさらなる改善を実現し、優れた視覚言語アライメント機能を発揮します。さらに、LaVIT は、はるかに少ないトレーニング データを使用しながら、最先端のテキストから画像への変換エキスパートである Parti と同等のパフォーマンスを実現します。

マルチモーダルキュー画像生成

LaVIT は、複数のモダリティの組み合わせをプロンプトとしてシームレスに受け入れ、微調整なしで対応する画像を生成できます。 LaVIT は、与えられたマルチモーダル キューのスタイルとセマンティクスを正確に反映した画像を生成します。また、入力されたマルチモーダルキューを通じて元の入力画像を変更することもできます。 Stable Diffusion などの従来の画像生成モデルでは、下流のデータに対する追加の微調整を行わなければ、この機能を実現できません。

マルチモーダル画像生成結果の例

定性分析

下の図に示すように、LaVIT の動的単語セグメンテーションは、画像の内容に基づいて最も情報量の多い画像ブロックを動的に選択することができ、学習したコードは高レベルのセマンティクスを備えた視覚的なエンコーディングを生成できます。

動的ビジュアルトークナイザー(左)と学習したコードブック(右)の視覚化

要約する

LaVIT の出現により、マルチモーダル タスクの処理に革新的なパラダイムがもたらされました。これは、動的な視覚単語セグメンターを使用して、視覚と言語を統合された個別のトークン表現として表し、LLM の成功した自己回帰生成学習パラダイムを継承しています。統一された生成目標に基づいて最適化することで、LaVIT は画像を外国語として扱い、テキストのように理解して生成することができます。この方法の成功は、マルチモーダル研究の将来の発展方向に新たなインスピレーションを提供し、LLM の強力な推論能力を活用して、よりスマートで包括的なマルチモーダルの理解と生成を実現することで、新たな可能性を切り開きます。

<<:  IDC: 中国のAI投資は2027年までに381億ドルに達すると予想

>>:  大きなモデルもスライスできます。Microsoft SliceGPTはLLAMA-2の計算効率を大幅に向上させます。

ブログ    
ブログ    
ブログ    

推薦する

顔認識セキュリティの脆弱性が再び明らかに、19のAndroidスマートフォンは15分でロック解除可能、必要なのはプリンター、A4用紙、メガネフレームだけ

最新の顔認識の脆弱性が明らかになり、テストされたすべての Android スマートフォンが脆弱である...

ピアソンとマイクロソフトリサーチアジアが人工知能技術を活用したパーソナライズ学習の強化に協力

北京、2018 年 1 月 31 日 – 昨年の英語学習アプリ「Longman Xiaoying」の...

機械学習の特徴選択のためのPythonツール

[[392070]]特徴選択は、データセット内で最も有用な特徴を見つけて選択するプロセスであり、機械...

AIでAIを守る、次世代のAIベースのサイバー脅威ソリューション

多くの関係者は、AI が「悪」の力にもなり得るという事実を受け入れ始めています。関連する海外メディア...

...

...

2022年の自動運転のトップ10トレンドが発表されました。データインテリジェンスシステムは、自動運転の商用化のクローズドループの鍵となるでしょうか?

「2022年は自動運転産業の発展にとって最も重要な年となるだろう。乗用車の運転支援分野での競争は正...

AI が電子商取引におけるウェブサイト アクセシビリティ訴訟のリスクを最小限に抑える方法

進化する人工知能により、電子商取引分野におけるウェブサイトのアクセシビリティ訴訟のリスクを最小限に抑...

5四半期連続で前年同期比で減少: AIはデルの危機を逆転できるか?

企業の時代はなく、時代の企業だけがある!新たなトレンドに直面しても、古い大手企業は反応が遅く、固定観...

...

...

生成型人工知能に関する簡単な議論

生成AIには長い歴史があります。いくつかの情報源によれば、1950 年代にはすでに登場していたようで...

「手抜きアルゴリズム」は大企業をターゲットにしており、これがそれだ

[[342088]]基本的なデータ構造の統合は、大規模システムの基礎となります。たとえば、Redis...

空飛ぶ車の将来展望は?

空飛ぶ車というアイデアは何十年も私たちの想像力をかき立て、交通渋滞の上を飛ぶことができる未来のビジョ...

優秀な AI 技術者が不足しています。学生たちはこの波にまだ追いつくことができるでしょうか?

ディープラーニングは、機械学習の最も重要な分野の 1 つとして、近年急速に発展しています。膨大なデー...