追跡すべきマルチモーダル LLM が多すぎますか?まずは26のSOTAモデルを見てみましょう

追跡すべきマルチモーダル LLM が多すぎますか?まずは26のSOTAモデルを見てみましょう

現在、AI分野の焦点は大規模言語モデル(LLM)からマルチモーダルへと移行しており、その結果、LLMにマルチモーダル機能を持​​たせるマルチモーダル大規模言語モデル(MM-LLM)が注目される研究テーマとなっています。

最近、テンセントAIラボ、京都大学、モハメド・ビン・ザイード人工知能大学の研究チームが、MM-LLMの最近の進歩を包括的にレビューしたレビューレポートを発表しました。この記事では、MM-LLM のモデル アーキテクチャとトレーニング プロセスをまとめるだけでなく、現在最も優れた MM-LLM 26 個についても説明します。 MM-LLM の学習または使用を検討している場合は、まずこのレポートを参考にして、ニーズに最適なモデルを見つけることを検討してください。


  • 論文タイトル: MM-LLM: マルチモーダル大規模言語モデルの最近の進歩
  • 論文アドレス: https://arxiv.org/abs/2401.13601

レポートの概要

近年、マルチモーダル (MM) 事前トレーニングの研究が急速に進歩し、多くの下流タスクのパフォーマンスが継続的に新たな境界を突破できるようになりました。しかし、モデルとデータセットのサイズが拡大し続けるにつれて、従来のマルチモーダル モデルでは、特にゼロからトレーニングする場合に、計算コストが高くなるという問題も発生しています。マルチモーダル研究は複数のモダリティの交差点にあることを考慮すると、すぐに利用できる事前トレーニング済みのユニモーダル ベース モデル、特に強力な大規模言語モデル (LLM) を最大限に活用するのが論理的なアプローチです。

この戦略の目標は、マルチモーダル事前トレーニングの計算コストを削減し、その効率を向上させることであり、これにより、MM-LLM (マルチモーダル大規模言語モデル) という新しい分野が生まれました。

MM-LLM は LLM を使用して認知機能を提供し、さまざまなマルチモーダル タスクを処理できるようにします。 LLM は、堅牢な言語一般化、ゼロショット転送機能、コンテキスト内学習 (ICL) など、複数の必要な機能を提供できます。同時に、他のモダリティの基礎となるモデルは高品質の表現を提供します。異なるモダリティの基本モデルが個別に事前トレーニングされていることを考慮すると、MM-LLM が直面する主な課題は、LLM を他のモダリティのモデルと効果的に接続して、協調推論を実現する方法です。

この分野では、モダリティ間の整合を最適化し、モデルを人間の意図に合わせることに主な焦点が当てられています。この点で使用される主なワークフローは、マルチモーダル事前トレーニング (MM PT) + マルチモーダル指示微調整 (MM IT) です。

2023年にリリースされたGPT-4(Vision)とGeminiは、優れたマルチモーダル理解および生成機能を実証し、MM-LLMの研究に対する人々の熱意を刺激しました。

当初、研究コミュニティは主にマルチモーダル コンテンツの理解とテキスト生成に焦点を当てていました。このようなモデルには、(オープン) Flamingo、BLIP-2、Kosmos-1、LLaVA/LLaVA-1.5、MiniGPT-4、MultiModal-GPT、VideoChat、Video-LLaMA、IDEFICS、Fuyu-8B、Qwen-Audio などがあります。

マルチモーダルな入力と出力をサポートできる MM-LLM を作成するために、特定のモダリティの生成を研究した研究がいくつかあります。たとえば、Kosmos-2 と MiniGPT-5 は画像生成を研究し、SpeechGPT は音声生成に重点を置いています。

最近、人間のような任意から任意への変換を模倣することに多くの注目が集まっており、これは人工汎用知能 (AGI) への道となる可能性があります。

一部の研究では、LLM を外部ツールと統合して、近似的な any-to-any マルチモーダル理解と生成を実現することを目指しています。このような研究には、Visual-ChatGPT、ViperGPT、MM-REACT、HuggingGPT、AudioGPT などがあります。

逆に、カスケード システムでのエラーの伝播を減らすために、エンドツーエンドの任意のモダリティ MM-LLM を作成したい研究チームもあります。そのような研究には、NExT-GPT や CoDi-2 などがあります。

図1はMM-LLMのタイムラインを示しています。


MM-LLMの研究開発を促進するために、テンセントAIラボ、京都大学、モハメド・ビン・ザイード人工知能大学のチームがこのレビューレポートをまとめました。 Machine Heart は、レポートの主要部分、特に現在最も優れた 26 の (SOTA) MM-LLM の紹介をまとめました。

モデルアーキテクチャ

このセクションでは、チームは一般的なモデル アーキテクチャの 5 つのコンポーネントについて詳しく説明し、各コンポーネントの実装オプションも紹介します (図 2 を参照)。

マルチモーダル理解に焦点を当てた MM-LLM には、最初の 3 つのコンポーネントのみが含まれます。

トレーニング フェーズ中、モダリティ エンコーダー、LLM バックボーン、およびモダリティ ジェネレーターは通常、フリーズされた状態に保たれます。最適化の重要なポイントは、入力プロジェクターと出力プロジェクターです。プロジェクターは軽量コンポーネントであるため、MM-LLM でトレーニング可能なパラメータの割合は、パラメータの総数に比べて非常に小さくなります (通常は約 2%)。パラメータの合計数は、MM-LLM で使用されるコア LLM のサイズによって異なります。したがって、さまざまなマルチモーダルタスクに対して MM-LLM をトレーニングする場合、高いトレーニング効率を達成できます。

モダリティ エンコーダー (ME): 異なるモダリティの入力をエンコードして、対応する機能を取得します。

入力プロジェクター: 他のモダリティのエンコードされた特徴をテキスト特徴空間に揃えます。

LLM バックボーン: MM-LLM は LLM をコアエージェントとして使用するため、ゼロショット一般化、少数ショットのコンテキスト学習、思考の連鎖 (CoT)、命令コンプライアンスなど、LLM の重要な機能を継承します。 LLM バックボーンのタスクは、入力に関連する意味の理解、推論、意思決定を含む、さまざまなモダリティの表現を処理することです。その出力には、(1)直接テキスト出力と、(2)他のモダリティのシグナルトークン(存在する場合)が含まれます。これらのシグナル トークンは、ジェネレーターをガイドするための指示として使用できます。つまり、マルチモーダル コンテンツを生成するかどうか、生成する場合は生成するコンテンツを指定します。

MM-LLM で一般的に使用される LLM には、Flan-T5、ChatGLM、UL2、Qwen、Chinchilla、OPT、PaLM、LLaMA、LLaMA-2、Vicuna などがあります。

出力プロジェクター: LLM バックボーンからの信号トークン表現を、後続のモダリティ ジェネレーターが理解できる機能にマッピングします。

モード ジェネレーター: 対応するさまざまなモードの出力を生成します。現在の研究では、通常、既存の潜在拡散モデル (LDM) が使用されています。つまり、画像の合成には Stable Diffusion を使用し、ビデオの合成には Zeroscope を使用し、オーディオの合成には AudioLDM-2 を使用しています。

トレーニングプロセス

MM-LLM のトレーニング プロセスは、MM PT (マルチモーダル事前トレーニング) と MM IT (マルチモーダル指示の微調整) の 2 つの主要な段階に分けられます。

MMPT

事前トレーニング フェーズ (通常は XText データセットを使用) では、入力プロジェクターと出力プロジェクターは、事前定義された目的を最適化することで、さまざまなモダリティを調整するようにトレーニングされます。 (パラメータ効率の良い微調整 (PEFT) 技術も、LLM バックボーンで使用されることがあります。)

MMIT

MM IT このアプローチでは、一連の命令形式データセットを使用して、事前トレーニング済みの MM-LLM を微調整する必要があります。この微調整プロセスを通じて、MM-LLM は未知のタスクに一般化して新しい命令を実行し、ゼロショットのパフォーマンスを向上させることができます。

MM IT には、人間の意図や好みに合わせて MM-LLM のインタラクション能力を向上させることを目的とした、教師あり微調整 (SFT) と人間のフィードバックに基づく強化学習 (RLHF) が含まれています。

SFT は、事前トレーニング段階のデータの一部を命令認識形式に変換できます。

SFT の後、RLHF はモデルをさらに微調整しますが、これには MM-LLM によって提供された応答に関するフィードバック (人間または AI によって注釈が付けられた自然言語フィードバック (NLF) など) が必要です。このプロセスでは、強化学習アルゴリズムを使用して、微分不可能な NLF を効果的に統合します。モデルのトレーニング目標は、NLF に基づいて対応する応答を生成することです。

既存の MM-LLM では MM PT 段階と MM IT 段階で使用されるデータセットが多数ありますが、それらはすべて表 3 と 4 のデータセットのサブセットです。

現在最高のMM-LLM

チームは、表 1 に示すように、現在最も優れた 26 個の (SOTA) MM-LLM のアーキテクチャとトレーニング データセットのサイズを比較しました。さらに、各モデルの主要な貢献と開発動向を簡単にまとめています。

(1)Flamingo:絡み合った視覚データとテキストを処理し、自由形式のテキストを出力するように設計された視覚言語(VL)モデルのファミリー。

(2)BLIP-2:異なるモダリティを接続する軽量Q-Formerと凍結LLMを使用することで、リソースをより効率的に活用できるフレームワークを提案する。 LLM を使用すると、BLIP-2 は自然言語プロンプトによってガイドされ、ゼロショットの画像からテキストへの生成を実行できます。

(3)LLaVA:命令微調整技術をマルチモーダル分野に移行した最初の企業。データのスパース性の問題に対処するために、LLaVA は ChatGPT/GPT-4 を使用して、新しいオープンソースのマルチモーダル命令コンプライアンス データセットとマルチモーダル命令コンプライアンス ベンチマーク LLaVA-Bench を作成します。

(4)MiniGPT-4:事前学習済みの視覚エンコーダをLLMに合わせるために、1つの線形層のみを学習する合理化されたアプローチが提案されている。この効率的な方法は、GPT-4 に匹敵する機能を発揮します。

(5)mPLUG-Owl:MM-LLM用の新しいモジュール式トレーニングフレームワークを提案し、視覚的コンテキストを統合します。マルチモーダル タスクにおけるさまざまなモデルのパフォーマンスを評価するために、フレームワークには指標となる評価データセット OwlEval も含まれています。

(6)X-LLM:オーディオを含む複数のモダリティに拡張され、高いスケーラビリティを示します。 QFormer の言語転送可能性を活用することで、X-LLM はシナ・チベット語のコンテキストにうまく適用されました。

(7)ビデオチャット:ビデオによる会話を理解するための効率的なチャット中心のMM-LLMを開発しました。この研究は、この分野における将来の研究の基準を設定し、学界と産業界にプロトコルを提供します。

(8)InstructBLIP:このモデルはBLIP-2モデルに基づいてトレーニングされ、MM ITステージではQ-Formerのみが更新されます。指示を考慮した視覚的特徴抽出と対応する指示を導入することで、モデルは柔軟で多様な特徴を抽出できます。

(9)PandaGPTは、テキスト、画像/ビデオ、オーディオ、熱、深度、慣性測定単位の6つの異なるモダリティのコマンドを理解し、それに応じて動作することができる画期的な汎用モデルです。

(10)PaLIX:その訓練プロセスでは、視覚言語のハイブリッド目標と、接頭辞補完やマスクトークン補完などの単一モード目標が使用されます。このアプローチは下流のタスクに効果的に使用でき、微調整設定でパレート限界に到達できることを示します。

(11)ビデオLLaMA:LLMが人間とコミュニケーションをとりながら、与えられたビデオの映像と音声のコンテンツを処理できるようにするための、マルチブランチクロスモーダル事前トレーニングフレームワークが提案されている。このフレームワークは、視覚と音声、音声と言語を一致させます。

(12)Video-ChatGPT:このモデルはビデオ会話タスク用に特別に設計されており、時空間視覚表現を統合することでビデオに関する議論を生成することができます。

(13)Shikra:シンプルだが統一された事前学習済みのMM-LLMを提案し、それを参照対話タスク向けに特別に調整した。参照対話タスクでは、画像内の領域やオブジェクトについて話し合います。このモデルは優れた一般化能力を示し、目に見えない状況にも効果的に対処できます。

(14)DLP:P-Formerは理想的なプロンプトを予測するために提案されており、単峰性文のデータセットで訓練されている。これは、ユニモーダルトレーニングがマルチモーダル学習を強化するために使用できることを示唆しています。

(15)BuboGPT:マルチモーダルコンテンツを包括的に理解するために、モデルは構築中に共有意味空間を学習します。画像、テキスト、音声などのさまざまなモダリティ間のきめ細かい関係を調査します。

(16)ChatSpot:MM-LLMの正確な参照指示を微調整し、きめ細かいインタラクションを促進するシンプルかつ効果的な方法を提案した。画像レベルと領域レベルの指示で構成される正確な参照指示を統合することにより、多粒度の視覚言語タスク記述が強化されます。

(17)Qwen-VL:英語と中国語をサポートする多言語MM-LLM。 Qwen-VL では、トレーニング フェーズ中に複数の画像を入力できるため、視覚的なコンテキストを理解する能力が向上します。

(18)NExT-GPT:これは、画像、ビデオ、オーディオ、テキストの自由な入出力をサポートする、エンドツーエンド、汎用、任意モダリティのMM-LLMです。軽量なアライメント戦略を採用しており、エンコード段階では LLM 中心のアライメントを使用し、デコード段階では命令準拠のアライメントを使用します。

(19)MiniGPT-5:このMM-LLMは、生成ヴォーケンに変換する技術を統合し、安定拡散を統合しています。視覚的出力と言語出力を組み合わせたマルチモーダル生成タスクの実行に優れています。生成品質を向上させるために、トレーニング フェーズ中に分類器を使用しないガイダンスを組み込みます。

(20)LLaVA-1.5:このモデルは、MLP投影の使用、学術的なタスクに合わせて調整されたVQAデータの導入、および単純な応答形式のプロンプトの使用など、簡単な変更を加えたLLaVAフレームワークに基づいています。これらの調整により、モデルのマルチモーダル理解機能が向上しました。

(21)MiniGPT-v2:このMM-LLMは、多様な視覚言語マルチタスク学習のための統一されたインターフェースとして機能するように設計されています。複数の視覚言語タスクの処理に熟練した単一のモデルを作成するために、各タスクのトレーニングおよび推論フェーズ中に識別子が統合されます。これにより、タスクを明確に区別し、最終的に学習効率を向上させることができます。

(22)CogVLM:注意層とフィードフォワード層で使用される訓練可能な視覚エキスパートモジュールを介して異なるモダリティを橋渡しするオープンソースのMM-LLM。これにより、下流の NLP タスクのパフォーマンスを損なうことなく、マルチモーダル機能の深い融合が可能になります。

(23)DRESS:自然言語フィードバックを用いて人間の好みとの整合を改善する方法が提案されている。 DRESS は、条件付き強化学習アルゴリズムを拡張して、微分不可能な自然言語フィードバックを組み込み、それを使用してモデルをトレーニングし、フィードバックに基づいて適切な応答を生成します。

(24)X-InstructBLIP:LLMが複数のモダリティ(画像/ビデオ、オーディオ、3Dを含む)にわたる多様なタスクを処理するのに役立つほどスケーラブルな、命令認識表現を使用したクロスモーダルフレームワークを提案します。注目すべきは、モダリティ固有の事前トレーニングを必要とせずにこれを実現することです。

(25)CoDi-2:これは、マルチモーダル融合指示追従、コンテキスト生成、およびマルチターン対話の形でのユーザーモデル相互作用において優れたパフォーマンスを発揮できるマルチモーダル生成モデルです。これは CoDi の拡張機能であり、複雑なモダリティインターリーブ入力と命令を処理し、自己回帰方式で潜在的な特徴を生成できるようになります。

(26)VILA:このモデルは視覚的なタスクで優れたパフォーマンスを発揮し、プレーンテキスト機能を維持しながら優れた推論能力を発揮します。 VILA は、LLM の学習機能を最大限に活用し、画像とテキストのペアの融合特性を使用し、テキスト データの高度なリミックスを実現するため、優れたパフォーマンスを実現します。

MM-LLMの現在の開発動向:

(1)マルチモーダル理解に焦点を当てることから、特定のモダリティ生成、さらには任意モダリティ間の変換(例:MiniGPT-4→MiniGPT-5→NExT-GPT)へ。

(2)MM PTからSFT、そしてRLHFへと、トレーニングプロセスは継続的に最適化され、人間の意図との整合性を高め、モデルの会話インタラクション機能を強化します(例:BLIP-2→InstructBLIP→DRESS)。

(3)多様なモダリティ拡張を採用する(例:BLIP-2→X-LLM、InstructBLIP→X-InstructBLIP)。

(4)より高品質なトレーニングデータセットを統合する(例:LLaVA→LLaVA-1.5)。

(5)BLIP-2やDLPの複雑なQ-FormerおよびP-Former入力プロジェクターモジュールから、VILAのよりシンプルだが効果的なリニアプロジェクターまで、より効率的なモデルアーキテクチャを採用する。

ベンチマークとパフォーマンス

各モデルのパフォーマンスを包括的に比較するために、チームは、18 の視覚言語ベンチマークを網羅した、主要な MM-LLM に関する複数の論文のデータを含む表を作成しました (表 2 を参照)。

今後の方向性

最後に、チームは MM-LLM 分野におけるいくつかの有望な将来の研究方向について議論しました。

  • より強力なモデル: モダリティの拡張、LLM の多様化、マルチモーダル指示の微調整のためのデータセット品質の向上、マルチモーダル生成機能の強化という 4 つの主要なアプローチを通じて、MM-LLM の機能を強化します。
  • より難しいベンチマーク
  • モバイル/軽量展開
  • 具現化された知性
  • 継続的な指示の微調整

<<:  Google DeepMindの中核責任者が、AIエージェントを目指して自身のビジネスを立ち上げるために辞職したことが明らかになりました。ジェミニの元責任者

>>:  テレンス・タオが新プロジェクトを立ち上げ:リーンで素数定理を証明、研究計画は完成

ブログ    

推薦する

一般的な基本的なソートアルゴリズムを今回から理解しましょう

[[382785]]この記事はWeChatの公開アカウント「Beta Learns JAVA」から転...

Google Cloud データベースに AI 機能が追加

Google Cloud は、顧客による人工知能アプリケーションの開発を促進するために、BigQue...

無料の Python 機械学習コース 7: アルゴリズムのパフォーマンスが低い場合の対処方法

私たちは機械学習アルゴリズムの開発に多くの時間を費やしました。しかし、導入後にアルゴリズムのパフォー...

清華大学とアリババDAMOアカデミーが開発した業界初の少数サンプルNERデータセット

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

Baidu PaddlePaddleは4つの新しい業界アプリケーション開発キットをリリースし、業界インテリジェンスのアップグレードを支援するマスターモードを革新しました

産業社会の急速かつ安定した発展は、完璧なインフラと切り離すことはできません。ディープラーニングフレー...

バナナの皮をむくのに9つの手順が必要ですか?ロボットが果肉を傷つけないように、研究者たちは何百本ものバナナの皮をむくのに13時間を費やした。

ビッグデータダイジェスト制作著者: カレブボストン・ダイナミクスを例に挙げると、ロボットはますます多...

ソートアルゴリズムのより詳細な概要

ソートアルゴリズム平均時間計算量バブルソート (n2) 選択ソート (n2) 挿入ソート (n2) ...

組み込みアルゴリズム CRCチェックアルゴリズム

[[350334]]データ伝送中にエラーが発生することは避けられません。データを受信した後、受信側は...

新しい世代の AI 人材はどこから生まれ、どこに向かうべきでしょうか?

[[443279]]この記事はLeiphone.comから転載したものです。転載する場合は、Lei...

...

世界トップ13の産業用ロボット専門家

現在、ロボットはさまざまな業界で広く使用され、さまざまな作業に従事しています。これは、ロボットの開発...

ジェネレーティブ AI がデジタル変革の優先事項に与える影響

2024 年に向けて、CIO は生成型 AI の可能性とリスクを考慮してデジタル アジェンダを再構築...

スポーツへの人工知能とビッグデータの導入は、市場を混乱させたり、破壊したりするのでしょうか?

英国ラフバラー大学とチェルシー・フットボール・クラブの研究者らが共同で、最近のシーズンの選手のデータ...

Go 言語 - データ構造とアルゴリズム プロジェクト

[[404457]]この記事はWeChatの公開アカウント「roseduanの執筆場所」から転載した...

清華大学が転移学習アルゴリズムライブラリをオープンソース化:PyTorch実装に基づき、既存のアルゴリズムの簡単な呼び出しをサポート

最近、清華大学ビッグデータ研究センターの機械学習研究部門は、効率的で簡潔な転移学習アルゴリズムライブ...