入力から出力までの「モーダル自由度」を実現し、NUSの中国チームがNExT-GPTをオープンソース化。AGIに最も近い最も統一されたマルチモーダルモデルがここにあります。

入力から出力までの「モーダル自由度」を実現し、NUSの中国チームがNExT-GPTをオープンソース化。AGIに最も近い最も統一されたマルチモーダルモデルがここにあります。

ChatGPTの誕生により、2023年には大規模言語モデルに基づくAIの波が起こりました。それ以来、Flan-T5、Vicuna、LLaMA、Alpacaなど、さまざまなオープンソースの大規模言語モデルがリリースされてきました。その後、コミュニティは懸命に努力を続け、このマルチモーダルの世界をシミュレートするために、研究者たちは純粋言語大規模モデルを、画像をサポートするMiniGPT-4、BLIP-2、Flamingo、InstructBLIPなど、動画をサポートするVideo-LLaMA、PandaGPTなど、音声をサポートするSpeechGPTなど、言語処理を超えたマルチモーダル大規模言語モデルに拡張しました。

しかし、現在のマルチモーダル大規模言語モデルは、真の人間レベルの AGI からは「少し欠けている」ように感じられます。そうです、人間の認知とコミュニケーションは、あらゆる情報形式の間でシームレスに移行する必要があります。人間は、マルチモーダルコンテンツを理解できるだけでなく、マルチモーダルな方法で情報を柔軟に出力することもできます。

既存の大規模言語モデルは、一方では、その多くが単一のモーダル情報の処理に焦点を当てており、真の「任意のモーダリティ」を理解していません。他方では、それらはすべて入力側でのマルチモーダルコンテンツの理解に焦点を当てており、任意の数のモーダリティの柔軟な形式でコンテンツを出力することはできません。

OpenAIが今後リリースするGPT-5が、あらゆるモダリティを統合する機能を実現できるかどうかに期待が高まっていたちょうどその頃、先日、シンガポール国立大学のNExT++研究所の中国チームが主導し、任意のモダリティ入力から任意のモダリティ出力までをサポートする「大統合型」汎用マルチモーダル大規模モデル「NExT-GPT」をオープンソース化した。現在、NExT-GPTのコードはオープンソース化されており、デモシステムも公開されています。


  • プロジェクトアドレス: https://next-gpt.github.io
  • コードアドレス: https://github.com/NExT-GPT/NExT-GPT
  • 論文アドレス: https://arxiv.org/abs/2309.05519

当研究室は長年マルチモーダル学習に取り組んでおり、豊富な経験を有しています。NExT-GPTという名前は、研究室の名前と次世代のGPTの意味を掛け合わせたものです。

NExT-GPTはリリース以来、AIコミュニティから大きな注目を集めています。一部のネットユーザーは、NExT-GPT は総合的な LLM の到来を示すものだと述べている。

一部のネットユーザーは、これが LLM (統一された任意のモーダル入力と出力を備えた LLM) の将来のトレンドであると賞賛しました。

次に、NExT-GPT で何ができるかを見てみましょう。

  • テキスト → テキスト + 画像 + 音声
  • テキスト + 画像 → テキスト + 画像 + ビデオ + 画像
  • テキスト + ビデオ → テキスト + 画像
  • テキスト + ビデオ → テキスト + オーディオ
  • テキスト + 音声 → テキスト + 画像 + ビデオ
  • テキスト → テキスト + 画像 + 音声 + ビデオ
  • テキスト → テキスト + 画像
  • テキスト + ビデオ → テキスト + 画像 + 音声
  • テキスト → テキスト + 画像 + 音声 + ビデオ
  • テキスト → テキスト + 画像

NExT-GPTは、ユーザーが入力したさまざまなモダリティの組み合わせのコンテンツを正確に理解し、ユーザーが必要とするマルチモーダルコンテンツや暗黙のコンテンツさえも正確かつ柔軟に返すことができることがわかります。画像からテキスト、画像からビデオ、画像/音声/ビデオを見て話す、画像/音声/ビデオのQ&Aなどの一般的な問題はすべて問題ありません。クロスモーダル分野の最も一般的なタスクを統合し、真の意味であらゆるモダリティからあらゆるモダリティへの普遍的な理解機能を実現します。

著者は、検証のために論文の中でいくつかの定量的な実験結果も示しています。興味のある読者は論文の内容を読むことができます。

技術詳細

では、NExT-GPT はどのようにして任意のモーダル入力から任意のモーダル出力を実現するのでしょうか?原理は非常にシンプルで、著者は技術レベルでは「大きな革新はない」とさえ言っており、既存のオープンソースの1) LLM、2) マルチモーダルエンコーダー、3) 各種モーダル拡散デコーダーを有機的に接続することで、NExT-GPTの全体的なフレームワークを形成し、任意のモーダリティの入出力を実現するというシンプルなものだといえます。

NExT-GPT は、「エンコーダー - 推論センター - デコーダー」で構成される 3 層アーキテクチャです

  • マルチモーダル エンコーディング ステージ:オープン ソース エンコーダーを使用してさまざまな入力モダリティをエンコードし、投影レイヤーを使用してこれらの機能を LLM が理解できる「言語のような」表現に投影します。著者らは、MetaAI の ImageBind 統合マルチモーダル エンコーダーを使用しました。
  • 推論の中心ステージ:オープンソースの LLM をコア ブレインとして使用して、入力情報を処理し、意味の理解と推論を実行します。 LLM はテキストを直接出力できるだけでなく、後続のデコード側に渡される命令として「モーダル信号」トークンを出力し、対応するモーダル情報を出力するかどうか、および何を出力するかを通知します。著者は現在、Vicuna を LLM として使用しています。
  • マルチモード生成ステージ:さまざまなオープンソースの画像拡散モデル、音声拡散モデル、ビデオ拡散モデルを活用し、LLM から特定のコマンド信号を受信し、対応するモデル コンテンツを出力します (指示を生成する必要がある場合)。

モデルが推論しているとき、任意のモダリティの組み合わせのユーザー入力が与えられると、それはモダリティ エンコーダーによってエンコードされ、その後プロジェクターによって特徴に変換されて LLM に渡されます (テキスト入力は LLM に直接入出力されます)。次に、LLM は、テキストを直接出力するか、モーダル信号トークンを出力するか、何を生成するかを決定します。 LLM は、特定のモーダル コンテンツ (言語以外) を生成する必要があると判断した場合、対応するモーダル信号トークンを出力し、モダリティがアクティブ化されていることを示します。技術図は次のとおりです。

論文の著者らは、NExT-GPT が任意のモダリティ入力から任意のモダリティ出力への機能を実現した最初の研究ではないかもしれないと指摘しています。現在、先行作品には 2 つの種類があります。

  • 1つは、最近リリースされたCoDiモデルで、さまざまなモダリティの拡散モデルを統合し、さまざまな組み合わせのモダリティコンテンツを同時に処理および生成できます。しかし、著者らは、CoDi にはコアコンポーネントとしての LLM が欠けており、ペア (並列) コンテンツの入力と生成に限定されており、複雑なコンテンツ推論と意思決定を実現することはできず、ユーザーが入力した指示に柔軟に対応できないと指摘しています。
  • 別のタイプの作業では、LLM と既存の外部ツールを組み合わせて、近似的な「任意のマルチモーダル」理解と生成を実現しようとします。代表的なシステムには、Visual-ChatGPT と HuggingGPT があります。しかし、著者らは、このタイプのシステムの異なるモジュール間の情報伝達は LLM によって生成されたテキストに完全に依存しているため、断片化されカスケード化されたアーキテクチャによって必然的にノイズが発生し、異なるモジュール間の特徴情報伝達の有効性が低下すると指摘しています。さらに、予測には既存の外部作業のみを使用し、全体的なエンドツーエンドのトレーニングが欠けているため、ユーザーの入力内容や指示を完全に理解するのに役立ちません。

NExT-GPT は、上記の既存の作業上の問題を十分に解決できます。では、NExT-GPT の重要なポイントは何でしょうか?

  • ポイント1:複雑な推論の低コスト実装+マルチモーダル入力とマルチモーダル出力

前述のように、LLMの複雑な内容理解・推論能力を継承するだけでなく、任意のモダリティの入力と出力を実現する必要があります。システム全体をゼロから構築することを考えると、コストが膨大になり(コストを負担できる大企業でない限り)、オープンソース化や普及にはつながりません。既存の大規模モデルは基本的にマルチモーダル入力を実現していることを考えると、全面的に統一されたマルチモーダル機能を実現するためには、高性能なマルチモーダル出力が最も重要なポイントとなります。このため、NExT-GPT は既存のオープンソースの高性能モジュール (現在利用可能な最も強力な拡散モデルなど) に完全に基づいており、巨人たちの肩の上に完全に立って、最小のコスト (研究室が負担できるコスト) で統合されたマルチモーダル大規模モデルを構築するという目標を達成しています。

  • 重要なポイント2: 効率的なエンドツーエンドのトレーニングとモダリティ調整学習

適切なエンドツーエンドのシステムトレーニングは、NExT-GPT を他の既存の統合大規模モデルシステムと区別する最も重要なポイントであり、NExT-GPT が優れたパフォーマンスを発揮するための前提条件でもあります。一方、システム内のすべてのモードの機能表現を完全に整合させる必要もあります。良好な学習成果を確保し、学習コストを総合的に削減・管理するために、この作業には以下の重点事項が含まれています。

まず、NExT-GPT では、エンコード層と LLM の間、および LLM とデコード層の間にそれぞれ投影層を挿入することを検討します。大規模なパラメータベース「エンコード層-LLM-デコード層」を固定することで、極めて少ないパラメータ量で投影層部分のみをトレーニングし(命令の微調整時にLoRAに基づくLLMの低コストな更新も行う)、パラメータ量のわずか1%のトレーニングコストを実現しました。

これは、1) LLM 中心のエンコーダ側マルチモーダルアライメント学習と、2) 強化学習に続くデコーダ側指示のローカル微調整によって実現されます。

さらに、大規模なマルチモーダル モデルの場合、ユーザーの指示に完全に応答できるようにするために、さらに指示調整 (IT) が必要になります。出力にテキストのみが含まれる既存の大規模マルチモーダル モデルとは異なり、当社の NExT-GPT システムは、入力と出力の両方であらゆる種類のモーダル情報をカバーします。

この目的のために、著者はモダリティ切り替え命令微調整学習 (Modality-switching Instruction Tuning、MosIT) を提案しました。その技術的な意味合いを下図に示します。同時に、既存のマルチモーダル指示微調整データセットは、マルチモーダル LLM シナリオ (MosIT) の要件を満たすことができないため、MosIT データセットを構築しました。このデータは、幅広いマルチモーダル入力と出力をカバーし、NExT-GPT が優れたマルチモーダル コマンド追従および応答機能を実現するために必要な複雑さと可変性を提供します。

結論と今後の展望

全体として、NExT-GPT システムは、普遍的で統一されたマルチモーダル AI モデルを構築する有望な展望と可能性を示しており、これは AI コミュニティにおけるその後のより「人間レベル」の AI 研究にとって貴重な参考資料となるでしょう。

NExT-GPT に基づいて、その後の研究では次の側面を考慮することができます。

1. モダリティとタスクの拡張: 既存のリソースの制限により、著者が現在オープンソース化している NExT-GPT システムは、言語、画像、ビデオ、オーディオの 4 つのモダリティのみをサポートしています。著者らは、システムの一般的な適用範囲を拡大するために、段階的により多くのモダリティ(Web ページ、3D ビジョン、ヒート マップ、表、グラフなど)とタスク(オブジェクトの検出、セグメンテーション、位置特定、追跡など)に拡張していくと述べています。

2. より多くの基本 LLM を検討する: 現在、著者は 7B バージョンに基づいて Vicuna LLM を実装しています。次のステップは、さまざまなサイズの LLM と他の LLM タイプを統合することだと述べています。

3. マルチモーダル生成戦略: NExT-GPT システムの現在のバージョンでは、拡散モデルの純粋な出力方法に基づくマルチモーダル出力のみを考慮します。しかし、生成モデルは誤った幻覚コンテンツを出力する傾向があり、出力コンテンツの品質は拡散モデルの機能によって簡単に制限されることがよくあります。したがって、マルチモーダル コンテンツの出力品質の向上に直接役立つ拡散モデルのパフォーマンスをさらに向上させることが重要です。さらに、検索ベースの方法を実際に統合して、生成ベースのプロセスの欠点を補うことにより、システム全体の出力の信頼性を向上させることができます。

4. マルチモーダル サポートのコストを削減する: より多くのモダリティをサポートするためのコストをさらに削減することを検討します。 NExT-GPT は、ImageBind を使用して複数のモダリティのエンコードを統一し、エンコード側のコストを節約することを考慮しています。マルチモーダル出力の場合、著者らは複数の異なるモードの拡散モデルを単純に統合しました。モダリティの増加に伴うデコーダーの動的な増加をいかに防ぐかが、今後の重要な研究課題です。たとえば、異なるモードの生成をサポートする(ただし、モードの共通性がある)いくつかの拡散モデルを再利用することを検討できます。

5. MosIT データセットの拡張: NExT-GPT で現在使用されている MosIT データセットのサイズは制限されており、ユーザーとの対話型パフォーマンスも制限されます。その後の研究により、モーダル切り替え命令の微調整学習戦略とデータセットをさらに改善することができます。

<<:  ウェーディングビジョン:主要技術からインテリジェント機器へ

>>:  GPT-4よりも優れた20億パラメータモデルは、ほぼ100%の精度で算術問題を解く

ブログ    
ブログ    
ブログ    

推薦する

LangGraphの無限の可能性を発見

著者 | 崔昊レビュー | Chonglouまとめこの記事では、LangChain をベースにした新...

F5、AI時代のアプリケーションセキュリティの新たな革命をリード

サンノゼ — 2024年2月20日— F5(NASDAQ: FFIV)は先日、アプリケーションセキュ...

「インテリジェント接続」を理解するにはこの記事で十分です!

人類社会は「つながりがない」「弱いつながり」から「賢いつながり」へと徐々に移行しつつあります。グロー...

...

NYU のポスドクが、arXiv に 30 分遅れて論文を提出したというだけで ACL に拒否されたのですか?学者たちは憤慨し、ACLに二度と投票しないと誓う

ACL は国民を怒らせた!今朝、この投稿のせいで AI コミュニティ全体が騒然となった——ニューヨー...

従来の AGV と比較した利点は何ですか? AMRロボット業界の状況は変化する

ロボット技術の知能化は、ロボット応用分野の継続的な拡大にプラスの影響を与えています。この傾向を受けて...

ウエストワールドがやってくる: ロボットは独自の言語を使ってコミュニケーションとコラボレーションを学ぶ

人工知能研究チームOpenAIが発表した最新の報告書は、ロボットが自ら作成した新しい言語を使って互い...

チップレベルのエッジAIが次世代のIoTを推進

エッジ コンピューティングは、IT アーキテクトや組み込み開発者にさまざまな選択肢を提示する難しい問...

人工知能は創造的な仕事を促進できるでしょうか?

今日、ほぼすべての AI 作業は機械学習の成功に基づいています。機械学習には分析を検討するための十分...

AIにとって合成データが必須である理由

企業はペタバイト、エクサバイト、さらにはゼタバイト単位のデータを収集しています。しかし、データは乱雑...

賢い負荷分散アルゴリズム: 頭を使って

負荷分散技術は現在ではどこにでもありますが、基本的にはまだ使用段階であり、その核心は十分に理解されて...

機械学習について昨日、今日、そして明日に語りましょう

機械学習今日、機械学習は、そのアルゴリズムの1つであるディープラーニングの優れたパフォーマンスを誇っ...

「参入から放棄まで」、アップルの自動運転車プロジェクトがさらに190人を解雇

Appleはまたしても悪いニュースを伝えた。 2か月前、悪い収益予測によりAppleの株価は一夜にし...

...

マスターカードがAIを活用して詐欺を阻止し、誤ったチャージバックを削減する方法

【51CTO.com クイック翻訳】チェックアウト時に銀行カード取引が拒否されると、イライラしたり恥...