入力から出力までの「モーダル自由度」を実現し、NUSの中国チームがNExT-GPTをオープンソース化。AGIに最も近い最も統一されたマルチモーダルモデルがここにあります。

ChatGPTの誕生により、2023年には大規模言語モデルに基づくAIの波が起こりました。それ以来、Flan-T5、Vicuna、LLaMA、Alpacaなど、さまざまなオープンソースの大規模言語モデルがリリースされてきました。その後、コミュニティは懸命に努力を続け、このマルチモーダルの世界をシミュレートするために、研究者たちは純粋言語大規模モデルを、画像をサポートするMiniGPT-4、BLIP-2、Flamingo、InstructBLIPなど、動画をサポートするVideo-LLaMA、PandaGPTなど、音声をサポートするSpeechGPTなど、言語処理を超えたマルチモーダル大規模言語モデルに拡張しました。

しかし、現在のマルチモーダル大規模言語モデルは、真の人間レベルの AGI からは「少し欠けている」ように感じられます。そうです、人間の認知とコミュニケーションは、あらゆる情報形式の間でシームレスに移行する必要があります。人間は、マルチモーダルコンテンツを理解できるだけでなく、マルチモーダルな方法で情報を柔軟に出力することもできます。

既存の大規模言語モデルは、一方では、その多くが単一のモーダル情報の処理に焦点を当てており、真の「任意のモーダリティ」を理解していません。他方では、それらはすべて入力側でのマルチモーダルコンテンツの理解に焦点を当てており、任意の数のモーダリティの柔軟な形式でコンテンツを出力することはできません。

OpenAIが今後リリースするGPT-5が、あらゆるモダリティを統合する機能を実現できるかどうかに期待が高まっていたちょうどその頃、先日、シンガポール国立大学のNExT++研究所の中国チームが主導し、任意のモダリティ入力から任意のモダリティ出力までをサポートする「大統合型」汎用マルチモーダル大規模モデル「NExT-GPT」をオープンソース化した。現在、NExT-GPTのコードはオープンソース化されており、デモシステムも公開されています。

プロジェクトアドレス: https://next-gpt.github.io
コードアドレス: https://github.com/NExT-GPT/NExT-GPT
論文アドレス: https://arxiv.org/abs/2309.05519

当研究室は長年マルチモーダル学習に取り組んでおり、豊富な経験を有しています。NExT-GPTという名前は、研究室の名前と次世代のGPTの意味を掛け合わせたものです。

NExT-GPTはリリース以来、AIコミュニティから大きな注目を集めています。一部のネットユーザーは、NExT-GPT は総合的な LLM の到来を示すものだと述べている。

一部のネットユーザーは、これが LLM (統一された任意のモーダル入力と出力を備えた LLM) の将来のトレンドであると賞賛しました。

次に、NExT-GPT で何ができるかを見てみましょう。

テキスト → テキスト + 画像 + 音声
テキスト + 画像 → テキスト + 画像 + ビデオ + 画像
テキスト + ビデオ → テキスト + 画像
テキスト + ビデオ → テキスト + オーディオ
テキスト + 音声 → テキスト + 画像 + ビデオ
テキスト → テキスト + 画像 + 音声 + ビデオ
テキスト → テキスト + 画像
テキスト + ビデオ → テキスト + 画像 + 音声
テキスト → テキスト + 画像 + 音声 + ビデオ
テキスト → テキスト + 画像

NExT-GPTは、ユーザーが入力したさまざまなモダリティの組み合わせのコンテンツを正確に理解し、ユーザーが必要とするマルチモーダルコンテンツや暗黙のコンテンツさえも正確かつ柔軟に返すことができることがわかります。画像からテキスト、画像からビデオ、画像/音声/ビデオを見て話す、画像/音声/ビデオのQ＆Aなどの一般的な問題はすべて問題ありません。クロスモーダル分野の最も一般的なタスクを統合し、真の意味であらゆるモダリティからあらゆるモダリティへの普遍的な理解機能を実現します。

著者は、検証のために論文の中でいくつかの定量的な実験結果も示しています。興味のある読者は論文の内容を読むことができます。

技術詳細

では、NExT-GPT はどのようにして任意のモーダル入力から任意のモーダル出力を実現するのでしょうか?原理は非常にシンプルで、著者は技術レベルでは「大きな革新はない」とさえ言っており、既存のオープンソースの1) LLM、2) マルチモーダルエンコーダー、3) 各種モーダル拡散デコーダーを有機的に接続することで、NExT-GPTの全体的なフレームワークを形成し、任意のモーダリティの入出力を実現するというシンプルなものだといえます。

NExT-GPT は、「エンコーダー - 推論センター - デコーダー」で構成される 3 層アーキテクチャです。

マルチモーダルエンコーディングステージ:オープンソースエンコーダーを使用してさまざまな入力モダリティをエンコードし、投影レイヤーを使用してこれらの機能を LLM が理解できる「言語のような」表現に投影します。著者らは、MetaAI の ImageBind 統合マルチモーダルエンコーダーを使用しました。
推論の中心ステージ:オープンソースの LLM をコアブレインとして使用して、入力情報を処理し、意味の理解と推論を実行します。 LLM はテキストを直接出力できるだけでなく、後続のデコード側に渡される命令として「モーダル信号」トークンを出力し、対応するモーダル情報を出力するかどうか、および何を出力するかを通知します。著者は現在、Vicuna を LLM として使用しています。
マルチモード生成ステージ:さまざまなオープンソースの画像拡散モデル、音声拡散モデル、ビデオ拡散モデルを活用し、LLM から特定のコマンド信号を受信し、対応するモデルコンテンツを出力します (指示を生成する必要がある場合)。

モデルが推論しているとき、任意のモダリティの組み合わせのユーザー入力が与えられると、それはモダリティエンコーダーによってエンコードされ、その後プロジェクターによって特徴に変換されて LLM に渡されます (テキスト入力は LLM に直接入出力されます)。次に、LLM は、テキストを直接出力するか、モーダル信号トークンを出力するか、何を生成するかを決定します。 LLM は、特定のモーダルコンテンツ (言語以外) を生成する必要があると判断した場合、対応するモーダル信号トークンを出力し、モダリティがアクティブ化されていることを示します。技術図は次のとおりです。

論文の著者らは、NExT-GPT が任意のモダリティ入力から任意のモダリティ出力への機能を実現した最初の研究ではないかもしれないと指摘しています。現在、先行作品には 2 つの種類があります。

1つは、最近リリースされたCoDiモデルで、さまざまなモダリティの拡散モデルを統合し、さまざまな組み合わせのモダリティコンテンツを同時に処理および生成できます。しかし、著者らは、CoDi にはコアコンポーネントとしての LLM が欠けており、ペア (並列) コンテンツの入力と生成に限定されており、複雑なコンテンツ推論と意思決定を実現することはできず、ユーザーが入力した指示に柔軟に対応できないと指摘しています。
別のタイプの作業では、LLM と既存の外部ツールを組み合わせて、近似的な「任意のマルチモーダル」理解と生成を実現しようとします。代表的なシステムには、Visual-ChatGPT と HuggingGPT があります。しかし、著者らは、このタイプのシステムの異なるモジュール間の情報伝達は LLM によって生成されたテキストに完全に依存しているため、断片化されカスケード化されたアーキテクチャによって必然的にノイズが発生し、異なるモジュール間の特徴情報伝達の有効性が低下すると指摘しています。さらに、予測には既存の外部作業のみを使用し、全体的なエンドツーエンドのトレーニングが欠けているため、ユーザーの入力内容や指示を完全に理解するのに役立ちません。

NExT-GPT は、上記の既存の作業上の問題を十分に解決できます。では、NExT-GPT の重要なポイントは何でしょうか?

ポイント1：複雑な推論の低コスト実装+マルチモーダル入力とマルチモーダル出力

前述のように、LLMの複雑な内容理解・推論能力を継承するだけでなく、任意のモダリティの入力と出力を実現する必要があります。システム全体をゼロから構築することを考えると、コストが膨大になり（コストを負担できる大企業でない限り）、オープンソース化や普及にはつながりません。既存の大規模モデルは基本的にマルチモーダル入力を実現していることを考えると、全面的に統一されたマルチモーダル機能を実現するためには、高性能なマルチモーダル出力が最も重要なポイントとなります。このため、NExT-GPT は既存のオープンソースの高性能モジュール (現在利用可能な最も強力な拡散モデルなど) に完全に基づいており、巨人たちの肩の上に完全に立って、最小のコスト (研究室が負担できるコスト) で統合されたマルチモーダル大規模モデルを構築するという目標を達成しています。

重要なポイント2: 効率的なエンドツーエンドのトレーニングとモダリティ調整学習

適切なエンドツーエンドのシステムトレーニングは、NExT-GPT を他の既存の統合大規模モデルシステムと区別する最も重要なポイントであり、NExT-GPT が優れたパフォーマンスを発揮するための前提条件でもあります。一方、システム内のすべてのモードの機能表現を完全に整合させる必要もあります。良好な学習成果を確保し、学習コストを総合的に削減・管理するために、この作業には以下の重点事項が含まれています。

まず、NExT-GPT では、エンコード層と LLM の間、および LLM とデコード層の間にそれぞれ投影層を挿入することを検討します。大規模なパラメータベース「エンコード層-LLM-デコード層」を固定することで、極めて少ないパラメータ量で投影層部分のみをトレーニングし（命令の微調整時にLoRAに基づくLLMの低コストな更新も行う）、パラメータ量のわずか1%のトレーニングコストを実現しました。

これは、1) LLM 中心のエンコーダ側マルチモーダルアライメント学習と、2) 強化学習に続くデコーダ側指示のローカル微調整によって実現されます。

さらに、大規模なマルチモーダルモデルの場合、ユーザーの指示に完全に応答できるようにするために、さらに指示調整 (IT) が必要になります。出力にテキストのみが含まれる既存の大規模マルチモーダルモデルとは異なり、当社の NExT-GPT システムは、入力と出力の両方であらゆる種類のモーダル情報をカバーします。

この目的のために、著者はモダリティ切り替え命令微調整学習 (Modality-switching Instruction Tuning、MosIT) を提案しました。その技術的な意味合いを下図に示します。同時に、既存のマルチモーダル指示微調整データセットは、マルチモーダル LLM シナリオ (MosIT) の要件を満たすことができないため、MosIT データセットを構築しました。このデータは、幅広いマルチモーダル入力と出力をカバーし、NExT-GPT が優れたマルチモーダルコマンド追従および応答機能を実現するために必要な複雑さと可変性を提供します。

結論と今後の展望

全体として、NExT-GPT システムは、普遍的で統一されたマルチモーダル AI モデルを構築する有望な展望と可能性を示しており、これは AI コミュニティにおけるその後のより「人間レベル」の AI 研究にとって貴重な参考資料となるでしょう。

NExT-GPT に基づいて、その後の研究では次の側面を考慮することができます。

1. モダリティとタスクの拡張: 既存のリソースの制限により、著者が現在オープンソース化している NExT-GPT システムは、言語、画像、ビデオ、オーディオの 4 つのモダリティのみをサポートしています。著者らは、システムの一般的な適用範囲を拡大するために、段階的により多くのモダリティ（Web ページ、3D ビジョン、ヒートマップ、表、グラフなど）とタスク（オブジェクトの検出、セグメンテーション、位置特定、追跡など）に拡張していくと述べています。

2. より多くの基本 LLM を検討する: 現在、著者は 7B バージョンに基づいて Vicuna LLM を実装しています。次のステップは、さまざまなサイズの LLM と他の LLM タイプを統合することだと述べています。

3. マルチモーダル生成戦略: NExT-GPT システムの現在のバージョンでは、拡散モデルの純粋な出力方法に基づくマルチモーダル出力のみを考慮します。しかし、生成モデルは誤った幻覚コンテンツを出力する傾向があり、出力コンテンツの品質は拡散モデルの機能によって簡単に制限されることがよくあります。したがって、マルチモーダルコンテンツの出力品質の向上に直接役立つ拡散モデルのパフォーマンスをさらに向上させることが重要です。さらに、検索ベースの方法を実際に統合して、生成ベースのプロセスの欠点を補うことにより、システム全体の出力の信頼性を向上させることができます。

4. マルチモーダルサポートのコストを削減する: より多くのモダリティをサポートするためのコストをさらに削減することを検討します。 NExT-GPT は、ImageBind を使用して複数のモダリティのエンコードを統一し、エンコード側のコストを節約することを考慮しています。マルチモーダル出力の場合、著者らは複数の異なるモードの拡散モデルを単純に統合しました。モダリティの増加に伴うデコーダーの動的な増加をいかに防ぐかが、今後の重要な研究課題です。たとえば、異なるモードの生成をサポートする（ただし、モードの共通性がある）いくつかの拡散モデルを再利用することを検討できます。

5. MosIT データセットの拡張: NExT-GPT で現在使用されている MosIT データセットのサイズは制限されており、ユーザーとの対話型パフォーマンスも制限されます。その後の研究により、モーダル切り替え命令の微調整学習戦略とデータセットをさらに改善することができます。

<<: ウェーディングビジョン：主要技術からインテリジェント機器へ

>>: GPT-4よりも優れた20億パラメータモデルは、ほぼ100%の精度で算術問題を解く