ChatGPTの誕生により、2023年には大規模言語モデルに基づくAIの波が起こりました。それ以来、Flan-T5、Vicuna、LLaMA、Alpacaなど、さまざまなオープンソースの大規模言語モデルがリリースされてきました。その後、コミュニティは懸命に努力を続け、このマルチモーダルの世界をシミュレートするために、研究者たちは純粋言語大規模モデルを、画像をサポートするMiniGPT-4、BLIP-2、Flamingo、InstructBLIPなど、動画をサポートするVideo-LLaMA、PandaGPTなど、音声をサポートするSpeechGPTなど、言語処理を超えたマルチモーダル大規模言語モデルに拡張しました。 しかし、現在のマルチモーダル大規模言語モデルは、真の人間レベルの AGI からは「少し欠けている」ように感じられます。そうです、人間の認知とコミュニケーションは、あらゆる情報形式の間でシームレスに移行する必要があります。人間は、マルチモーダルコンテンツを理解できるだけでなく、マルチモーダルな方法で情報を柔軟に出力することもできます。 既存の大規模言語モデルは、一方では、その多くが単一のモーダル情報の処理に焦点を当てており、真の「任意のモーダリティ」を理解していません。他方では、それらはすべて入力側でのマルチモーダルコンテンツの理解に焦点を当てており、任意の数のモーダリティの柔軟な形式でコンテンツを出力することはできません。 OpenAIが今後リリースするGPT-5が、あらゆるモダリティを統合する機能を実現できるかどうかに期待が高まっていたちょうどその頃、先日、シンガポール国立大学のNExT++研究所の中国チームが主導し、任意のモダリティ入力から任意のモダリティ出力までをサポートする「大統合型」汎用マルチモーダル大規模モデル「NExT-GPT」をオープンソース化した。現在、NExT-GPTのコードはオープンソース化されており、デモシステムも公開されています。
当研究室は長年マルチモーダル学習に取り組んでおり、豊富な経験を有しています。NExT-GPTという名前は、研究室の名前と次世代のGPTの意味を掛け合わせたものです。 NExT-GPTはリリース以来、AIコミュニティから大きな注目を集めています。一部のネットユーザーは、NExT-GPT は総合的な LLM の到来を示すものだと述べている。 一部のネットユーザーは、これが LLM (統一された任意のモーダル入力と出力を備えた LLM) の将来のトレンドであると賞賛しました。 次に、NExT-GPT で何ができるかを見てみましょう。
NExT-GPTは、ユーザーが入力したさまざまなモダリティの組み合わせのコンテンツを正確に理解し、ユーザーが必要とするマルチモーダルコンテンツや暗黙のコンテンツさえも正確かつ柔軟に返すことができることがわかります。画像からテキスト、画像からビデオ、画像/音声/ビデオを見て話す、画像/音声/ビデオのQ&Aなどの一般的な問題はすべて問題ありません。クロスモーダル分野の最も一般的なタスクを統合し、真の意味であらゆるモダリティからあらゆるモダリティへの普遍的な理解機能を実現します。 著者は、検証のために論文の中でいくつかの定量的な実験結果も示しています。興味のある読者は論文の内容を読むことができます。 技術詳細では、NExT-GPT はどのようにして任意のモーダル入力から任意のモーダル出力を実現するのでしょうか?原理は非常にシンプルで、著者は技術レベルでは「大きな革新はない」とさえ言っており、既存のオープンソースの1) LLM、2) マルチモーダルエンコーダー、3) 各種モーダル拡散デコーダーを有機的に接続することで、NExT-GPTの全体的なフレームワークを形成し、任意のモーダリティの入出力を実現するというシンプルなものだといえます。 NExT-GPT は、「エンコーダー - 推論センター - デコーダー」で構成される 3 層アーキテクチャです。
モデルが推論しているとき、任意のモダリティの組み合わせのユーザー入力が与えられると、それはモダリティ エンコーダーによってエンコードされ、その後プロジェクターによって特徴に変換されて LLM に渡されます (テキスト入力は LLM に直接入出力されます)。次に、LLM は、テキストを直接出力するか、モーダル信号トークンを出力するか、何を生成するかを決定します。 LLM は、特定のモーダル コンテンツ (言語以外) を生成する必要があると判断した場合、対応するモーダル信号トークンを出力し、モダリティがアクティブ化されていることを示します。技術図は次のとおりです。 論文の著者らは、NExT-GPT が任意のモダリティ入力から任意のモダリティ出力への機能を実現した最初の研究ではないかもしれないと指摘しています。現在、先行作品には 2 つの種類があります。
NExT-GPT は、上記の既存の作業上の問題を十分に解決できます。では、NExT-GPT の重要なポイントは何でしょうか?
前述のように、LLMの複雑な内容理解・推論能力を継承するだけでなく、任意のモダリティの入力と出力を実現する必要があります。システム全体をゼロから構築することを考えると、コストが膨大になり(コストを負担できる大企業でない限り)、オープンソース化や普及にはつながりません。既存の大規模モデルは基本的にマルチモーダル入力を実現していることを考えると、全面的に統一されたマルチモーダル機能を実現するためには、高性能なマルチモーダル出力が最も重要なポイントとなります。このため、NExT-GPT は既存のオープンソースの高性能モジュール (現在利用可能な最も強力な拡散モデルなど) に完全に基づいており、巨人たちの肩の上に完全に立って、最小のコスト (研究室が負担できるコスト) で統合されたマルチモーダル大規模モデルを構築するという目標を達成しています。
適切なエンドツーエンドのシステムトレーニングは、NExT-GPT を他の既存の統合大規模モデルシステムと区別する最も重要なポイントであり、NExT-GPT が優れたパフォーマンスを発揮するための前提条件でもあります。一方、システム内のすべてのモードの機能表現を完全に整合させる必要もあります。良好な学習成果を確保し、学習コストを総合的に削減・管理するために、この作業には以下の重点事項が含まれています。 まず、NExT-GPT では、エンコード層と LLM の間、および LLM とデコード層の間にそれぞれ投影層を挿入することを検討します。大規模なパラメータベース「エンコード層-LLM-デコード層」を固定することで、極めて少ないパラメータ量で投影層部分のみをトレーニングし(命令の微調整時にLoRAに基づくLLMの低コストな更新も行う)、パラメータ量のわずか1%のトレーニングコストを実現しました。 これは、1) LLM 中心のエンコーダ側マルチモーダルアライメント学習と、2) 強化学習に続くデコーダ側指示のローカル微調整によって実現されます。 さらに、大規模なマルチモーダル モデルの場合、ユーザーの指示に完全に応答できるようにするために、さらに指示調整 (IT) が必要になります。出力にテキストのみが含まれる既存の大規模マルチモーダル モデルとは異なり、当社の NExT-GPT システムは、入力と出力の両方であらゆる種類のモーダル情報をカバーします。 この目的のために、著者はモダリティ切り替え命令微調整学習 (Modality-switching Instruction Tuning、MosIT) を提案しました。その技術的な意味合いを下図に示します。同時に、既存のマルチモーダル指示微調整データセットは、マルチモーダル LLM シナリオ (MosIT) の要件を満たすことができないため、MosIT データセットを構築しました。このデータは、幅広いマルチモーダル入力と出力をカバーし、NExT-GPT が優れたマルチモーダル コマンド追従および応答機能を実現するために必要な複雑さと可変性を提供します。 結論と今後の展望全体として、NExT-GPT システムは、普遍的で統一されたマルチモーダル AI モデルを構築する有望な展望と可能性を示しており、これは AI コミュニティにおけるその後のより「人間レベル」の AI 研究にとって貴重な参考資料となるでしょう。 NExT-GPT に基づいて、その後の研究では次の側面を考慮することができます。 1. モダリティとタスクの拡張: 既存のリソースの制限により、著者が現在オープンソース化している NExT-GPT システムは、言語、画像、ビデオ、オーディオの 4 つのモダリティのみをサポートしています。著者らは、システムの一般的な適用範囲を拡大するために、段階的により多くのモダリティ(Web ページ、3D ビジョン、ヒート マップ、表、グラフなど)とタスク(オブジェクトの検出、セグメンテーション、位置特定、追跡など)に拡張していくと述べています。 2. より多くの基本 LLM を検討する: 現在、著者は 7B バージョンに基づいて Vicuna LLM を実装しています。次のステップは、さまざまなサイズの LLM と他の LLM タイプを統合することだと述べています。 3. マルチモーダル生成戦略: NExT-GPT システムの現在のバージョンでは、拡散モデルの純粋な出力方法に基づくマルチモーダル出力のみを考慮します。しかし、生成モデルは誤った幻覚コンテンツを出力する傾向があり、出力コンテンツの品質は拡散モデルの機能によって簡単に制限されることがよくあります。したがって、マルチモーダル コンテンツの出力品質の向上に直接役立つ拡散モデルのパフォーマンスをさらに向上させることが重要です。さらに、検索ベースの方法を実際に統合して、生成ベースのプロセスの欠点を補うことにより、システム全体の出力の信頼性を向上させることができます。 4. マルチモーダル サポートのコストを削減する: より多くのモダリティをサポートするためのコストをさらに削減することを検討します。 NExT-GPT は、ImageBind を使用して複数のモダリティのエンコードを統一し、エンコード側のコストを節約することを考慮しています。マルチモーダル出力の場合、著者らは複数の異なるモードの拡散モデルを単純に統合しました。モダリティの増加に伴うデコーダーの動的な増加をいかに防ぐかが、今後の重要な研究課題です。たとえば、異なるモードの生成をサポートする(ただし、モードの共通性がある)いくつかの拡散モデルを再利用することを検討できます。 5. MosIT データセットの拡張: NExT-GPT で現在使用されている MosIT データセットのサイズは制限されており、ユーザーとの対話型パフォーマンスも制限されます。その後の研究により、モーダル切り替え命令の微調整学習戦略とデータセットをさらに改善することができます。 |
<<: ウェーディングビジョン:主要技術からインテリジェント機器へ
>>: GPT-4よりも優れた20億パラメータモデルは、ほぼ100%の精度で算術問題を解く
この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...
過去数か月間、コロナウイルス関連の請求による多大なストレスの期間中、失業保険制度から数百万ドルが盗ま...
機械学習は私たちの世界を変える素晴らしいツールです。機械学習(特にディープラーニング)が従来の方法よ...
ナイーブ ベイズ アルゴリズムはシンプルで効率的であり、分類問題を扱う際に最初に検討すべき方法の 1...
11月20日、テスラのCEOイーロン・マスク氏は、高度な人工知能(AI)技術の開発には大きな潜在的...
ちょうど今日、Meta 社は商用 AI に注力するため、AI を使用して約 6 億個のタンパク質の折...
[[316192]]独自の NLP アプリケーションで使用できる 12 個のツールを見てみましょう。...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
高速ロボット動作の分野では、速度と安全性の両立が常に大きな課題となっています。しかし今、カーネギーメ...