mPLUG-Damo アカデミーオープンソースマルチモーダル対話モデル技術とアプリケーション分析

大規模な純粋テキストモデルが増加しており、マルチモーダル分野ではマルチモーダル対話の大規模モデルも登場し始めています。地球上で最も強力な GPT-4 は、画像を読み取るマルチモーダル機能を備えていますが、一般公開されて体験できるようになるまでには時間がかかりました。その結果、研究コミュニティはこの方向の研究に重点を置き、オープンソース化するようになりました。 MiniGPT-4とLLaVAのリリース直後、Alibaba DAMO Academyは、モジュール実装に基づく大規模なマルチモーダル対話モデルであるmPLUG-Owlをリリースしました。 mPLUG-Owlは、Alibaba DAMO AcademyのmPLUGシリーズの最新作です。mPLUGシリーズのモジュールトレーニングコンセプトを継承し、LLMを大規模なマルチモーダル対話モデルにアップグレードします。 mPLUGシリーズの研究のうち、これまでのE2E-VLP、mPLUG、mPLUG-2はそれぞれACL2021、EMNLP2022、ICML2023に採択されました。その中で、mPLUGの研究はVQAリストで人間のパフォーマンスを上回った最初の研究となりました。この記事では、mPLUG の取り組み、つまりマルチモーダル対話の大規模モデル技術とアプリケーションの分析について説明します。

https://github.com/X-PLUG/mPLUG-Owl.

1. マルチモーダル大型モデル技術の開発の歴史

まず、マルチモーダル大型モデル技術の開発の歴史を紹介します。 ChatGPT4 は非常に強力なマルチモーダル機能を備えています。今年以前は、マルチモーダルの研究のホットスポットは、主にマルチモーダル事前トレーニングを中心に展開されていました。

マルチモーダル事前トレーニングは2018年頃から始まりました。これはマルチモーダル分野における最も重要な研究方向の一つであり、実際のビジネスにおける応用シナリオは多岐にわたります。マルチモーダル事前トレーニングの最も典型的な 4 つのタスク、たとえば、画像と質問をアップロードする VQA ビジュアル質問応答では、機械が関連する回答を回答できます。ImageCaption では、画像を指定すると回答を生成できます。また、クロスモーダル検索や Visual Grounding もあります。

2018 年と 2019 年の初めには、2 段階の方法は、UNITER や LXMERT などの従来の方法を含む検出機能に基づいていました。 2021年はCLIP、ViLTなどを含むエンドツーエンドのアプローチに参入しました。 2022 年には、画像、テキスト、ビデオテキストなどのシングルモーダル関連タスクを解決するために統合モデルを使用するとともに、モデルのサイズと事前トレーニングデータの量を増やすためにスケールアップする、統合アプローチの試行を開始しました。ここ数か月間の最も重要な作業は、大規模なマルチモーダル対話モデルでした。 GPT4はモデルやデモを公開していないため、最近ではminiGPT4やmPLUG-Owlなど、GPT4に似た作品が多く登場しています。

マルチモーダル事前トレーニングの分野で最も重要なリストは、VQA リーダーボードです。 mPLUGは2021年のVQAチャレンジで1位となり、81.26というスコアで初めて人間を上回りました。現在、最高効果は 86.26 に達しており、エンドツーエンドのモデルとなっています。これらはすべて、マルチモーダル事前トレーニングの急速な発展を示しています。事前トレーニングの観点から見ても、対話の観点から見ても、マルチモーダル研究の最も重要な方向性です。

マルチモーダル事前トレーニング技術の開発の歴史を紹介します。

2018年と2019年にマルチモーダル事前トレーニングが最も重要な研究方向の1つになり始めたとき、人々は主にターゲット検出とシングル/デュアルストリームの画像とテキストの特徴の融合に基づく視覚特徴抽出に焦点を当てました。代表的な研究には、シングルストリームのUNITERとデュアルストリームのLXMERTがあります。

2020 年には、従来の 2 段階方式では効率の低さとドメイン移行の問題があったため、エンドツーエンド方式が試されるようになりました。代表的な研究としては、Pixel-BERT、Resnet ベースの E2E-VLP、Transformer ベースの VILT などがあります。

2021年には、ALBEF、SimVLM、mPLUGなどの代表的な研究成果を基に、データとモデルサイズの拡大を開始しました。

2022年以降、統一されたアプローチに基づいてシングル/マルチモーダルの作業が開始されました。代表的な作業には、Coca、Flamingo、mPLUG-2などがあります。

ChatGPTは今年非常に人気が高まっています。GPT4のいくつかの事例から、視覚コンテンツに対する非常に強力なきめ細かい理解と推論能力を備えており、これまでの多くの手法を凌駕していることがわかります。たとえば、上の写真の左側の例では、ソケットが VGA であり、電話が iPhone であることがすでに認識されており、より詳細な結果を提供できます。右側のケースは、ジョークを理解する能力であり、これも非常にきめ細かいものです。

GPT4 は、リッチテキスト、画像、視覚コンテンツの表に対しても非常に強力な理解および推論機能を発揮します。

これは、自動化されたオフィス作業の要件に沿ったものです。以前の documentAI は、要約を作成するために OCR と画像レイアウトの理解の両方を必要とする非常に複雑なシステムを使用して行われ、必要な手順は非常に複雑でした。 GPT4 は、エンドツーエンドのアプローチを使用してテーブルの内容を非常に詳細に理解でき、非常に強力なテキスト生成機能を備えています。

上の画像の左側には数式があります。GPT4 はその内容を理解し、数学的な導出を行うことができます。右側は、GPT4 が非常に詳細に理解できる論文です。驚くべきことに、ここでのテキストは比較的長く、画像と表の両方が含まれており、形式が複雑ですが、GPT4 は論文の内容と解決しようとしていることを理解し、非常に優れた要約を提供できます。これらはすべて、GPT4 の非常に強力なリッチテキスト画像理解機能とテーブル理解機能を実証しています。

しかし、GPT4にはオープンソースのデモがなく、既存のデモもプレーンテキストモデルのままであるため、3月、4月以降、GPT4に似たモデルが多数リリースされています。

マルチモーダル対話モデルは主に2つのカテゴリに分かれており、1つ目はChatGPTをハブとして視覚情報をテキスト情報に変換し、ChatGPTを介して情報を整理して返信するシステムです。代表的な研究としてはVisual ChatGPT、MM-REACT、HuggingGPTなどがあります。

2 番目のタイプのモデルはエンドツーエンドであり、ChatGPT に似ています。このタイプの作業は主に、視覚的なバックボーンを使用してテキストを揃える非常に強力なテキストモデルに基づいています。この種の GPT4 のような作業では、単一のモデルを通じてマルチモーダル機能とテキスト機能の両方を実現することが期待されています。代表的な作品としては、DAMO アカデミーの MiniGPT-4、LLAVA、Kosmos、mPLUG-Owl などがあります。

2. マルチモーダル対話大規模モデルmPLUGの技術と応用の分析

mPLUG はモジュラーマルチモーダルモデルです。グラフィック mPLUG と統合 mPLUG-2 はそれぞれ EMNLP2022 と ICML2023 で公開されました。 mPLUGシリーズのマルチモーダル事前トレーニング作業は、人間の脳のモジュール化の考え方に基づいています。さまざまなモーダル入力と出力のさまざまなモダリティの固有の属性に基づいて、さまざまな機能のさまざまなモジュールを設計し、階層的な事前トレーニングを実行します。これにより、軽量で取り外し可能になり、Zero / Few-Shot、Continue Pretrain、下流のファインチューニング、マルチモーダル表現など、さまざまな階層型アプリケーションシナリオに柔軟に適用できます。したがって、mPLUG シリーズの主なアイデアは階層的なモジュール化と軽量化であり、比較的統一されたモデルを使用してさまざまな複雑なシナリオに適用できます。

上の図の左側は、mPLUG-2 のタスクを示しています。特定のタスクを実行するために、さまざまなモダリティをさまざまなモジュールに分割します。たとえば、ビデオのキャプションにはビデオエンコーダーとテキストエンコーダーが必要で、アライメントにはユニバーサルレイヤーが使用され、モーダルフュージョンには VL Fusion が使用され、その後ビデオデコーダーに入力されて結果が出力されます。右側には、BEiT-3、Coca、Flamingo などの既存の統合モデルが表示されていますが、これらは CV および NLP タスクで SOTA 結果を達成するのが困難です。その理由は、このようなモジュール化と軽量化の概念が存在しないため、統一されたモデルを使用してさまざまなモダリティでタスクを実行することが難しく、異なるモダリティ間の調整がうまくいかず、異なるモダリティ間のギャップが依然として大きいためだと分析しました。そこで私たちは、mPLUG モジュラーマルチモーダルモデルを提案しました。

右下隅には、mPLUG によって提供された表があり、さまざまなシングルモーダルまたはマルチモーダルタスクに対してさまざまなモジュールを組み合わせる方法を示しています。これらは私たちがこれまでに手がけた 2 つの作品で、1 つはグラフィック mPLUG、もう 1 つはグランド統合モデル mPLUG-2 です。 30 以上のタスクで SOTA を達成しました。この研究はICMLにも掲載されました。ご興味がございましたら、具体的な記事をお読みください。

次に、マルチモーダル対話モデル mPLUG-Owl の取り組みに焦点を当てます。この作業は GitHub でもオープンソース化されています。最近、第三者機関である上海人工知能研究所 OpenGVLab が主催する手動注釈評価のマルチモーダル LLM リストでも 1 位を獲得しました。対照的に、LLaVA、MiniGPT4、Otter など、上記の古典的なモデルのいくつかが使用されます。

mPLUG-Owl には、下図に示す旅行ガイドやクリエイティブコピーなど、さまざまな応用シナリオがあります。

たとえば、富士山の写真を与えて、モデルに 2 日間の旅程プランを考えさせます。 mPLUG-Owl は非常に詳細な旅行ガイドを提供できます。右の例はクリエイティブなコピーライティングです。絵が与えられると、モデルは詩を書くように求められます。mPLUG-Owl は比較的美しい詩を作成できます。

アプリケーションシナリオには、使用ガイドや展示ガイドも含まれます。

たとえば、ハンマーが与えられたら、モデルにその使い方を尋ねます。取扱説明書と非常に長いドキュメントもテストしましたが、mPLUG-Owl は非常に詳細な説明を提供できました。右側の展示ガイドではモデルに写真が与えられ、モデルは写真の出典やいくつかの異なる創作物など、非常に詳細な情報を見せてくれます。

以下は、mPLUG-Owl の動作の詳細な紹介です。

mPLUG-Owl はモジュール構造になっており、Visual Encoder には事前トレーニング済みの VIT を使用しました。テキストの大規模モデルには、LLaMA、GPT などがあります。中国語の多言語モデルも開始しました。

2 つのモジュール式ユニモーダルモデルを取り出し、Visual Abstractor モデルに追加します。これは、マルチモーダルにおけるエンドツーエンド方式に問題があるためです。ビジュアルの長さは比較的長いため、シーケンスの長さを短縮するためにシーケンス削減操作を実行する必要があります。これにより、純粋なテキストの LLaMA および GPT 構造に簡単に適合できます。

私たちは 2 段階のアプローチを採用しました。最初の段階は、多数の画像とテキストのペアを使用した事前トレーニングでした。主な目的は、人物、場所、概念などの視覚オブジェクトを学習し、テキストと視覚を一致させ、事前トレーニングを通じてそれらを調整することでした。そのため、事前トレーニング段階では、ビジュアルエンコーダー、アブストラクトモジュール、サマリーモジュールが解放され、テキストモジュールは凍結されます。視覚的な特徴とテキストの特徴をより適切に調整して、視覚的な概念をよりよく学習します。 2 番目の段階では、視覚的な機能を開発するため、ビジュアルアブストラクトとエンコーダーセクションを固定し、テキスト部分を開いて、軽量の LoRA を追加します。

また、MiniGPT4、Kosmos、LLaVA などの既存の手法とも比較しました。これらの手法の動作は比較的似ており、違いは事前トレーニングの実施方法にあります。他の方法と比較すると、私たちの主な特徴は、最初の段階でビジョンを解放することです。これは、ビジョンとテキストを一致させることが非常に重要であり、これらの視覚概念を学習する必要があると考えているためです。第 2 段階では、テキスト部分を解放して、テキスト SFD 機能とマルチモーダル SFD 機能を開発できるようにします。

MiniGPT4やLLaVAなどのこれまでの研究では、詳細なパフォーマンス評価は行われず、誰もが体験できるようにいくつかのデモをオープンソース化しただけでした。私たちは、OpenFlamingo、BLIP-2、MiniGPT4、LLaVA、mPLUG-Owl などのさまざまなモデルを評価するために、マルチモーダル命令ベンチマーク OwlEval を構築しました。

スコアリング指標は、主に手動評価の 4 つのカテゴリに分かれています。 A: 人間の指示を理解し、満足のいく回答を返す。B: 指示は理解するが、回答に誤りがある。C: 指示は理解するが、回答が間違っているか、ユーザーが不満を抱いている。D: 指示を理解できないか、無効な回答を返す。

まず知識クイズを評価します。

比較対象モデルは MM-REACT と MiniGPT-4 です。mPLUG-Owl の応答は非常に正確であることがわかります。人間の意図を明確に理解し、正しい答えを出すことができる。したがって、私たちがつけたスコアは A、MiniGPT-4 は B、そして MM-REACT の知識はあまり良くありません。

2つ目は、複数ラウンドの対話の評価です。

まず、モデルはノンストップでチャットでき、参照関係を理解できなければなりません。たとえば、ヤオミンとドゥフェンの例では、2番目の質問をするときに、モデルに「左側は誰ですか？」と尋ねます。どちらが背が高いですか？ mPLUG-Owl はこのような質問に答えるのが得意です。

次に、ジョーク理解力のテストも実施しました。

MM-REACTは理解が難しく、最終スコアはCでした。 GPT-4 は非常にうまく答えました。GPT-4 のジョークを理解する能力や細かい理解能力は、実に優れています。 mPLUG-Owl の回答は非常に良好でした。少なくとも、その意図は理解できました。回答にはいくつかの誤りや錯覚もありましたが、全体的には良好な回答であり、mPLUG-Owl の非常に優れたきめ細かな理解能力を実証しています。

評価中に、mPLUG-Owl の出現能力が私たちの想像を超えていることもわかりました。

事前トレーニングでは、主に画像とテキストのペアを使用し、複数の画像や OCR 機能は含めませんでした。複数の画像機能のテストをいくつか実施しました。上図の左側にあるヤオミン関連の写真 2 枚についても、mPLUG-Owl は複数の写真間の関係性を提供する機能があることが示されています。右側の 4 つの写真の漫画は、mPLUG-Owl の機能をさらに詳しく説明しています。

OCR機能も備えています。

記事のホームページのスクリーンショットでは、mPLUG-Owl は記事のタイトルと概要を非常によく理解しており、mPLUG-Owl の OCR 機能が実証されています。

これをビデオにも拡張しました。私たちはYoukuと共同で中国最大のデータセットYouKu-mPLUGをリリースし、それを基にmPLUG-Owlの動画理解に拡張しました。

たとえば、上の写真の左側では、モデルはビデオの内容を非常によく理解しています。右側はビデオに基づいて作成された作品です。そしてビデオの手順を理解しました。これらはすべて、モデルの強力なビデオ理解能力を実証しています。

先ほども申し上げましたが、多言語バージョンもリリースしております。

このモデルがより多くの中国語のシナリオをサポートできるようになることを期待しており、多言語バージョンもオープンソース化しました。上の写真は、mPLUG-Owl の多言語機能を示すいくつかのケースを示しています。多言語には、フランス語、日本語、ポルトガル語などの他の言語も含まれます。

これらはすべて、mPLUG-Owl の多言語機能を実証しています。

先ほど申し上げたように、当社はYoukuと共同で業界最大の中国語動画データセット「YouKu-mPLUG」をリリースしましたが、これも中国コミュニティの発展を促進することを目的としています。また、mPLUG-Video 中国語ビデオ対話モデルもトレーニングします。先ほど述べた OCR 機能だけでなく、ビデオに基づいて複数回の会話を行うこともできます。そして知識の能力が非常によく発揮されます。現在、中国語の大規模なビデオデータセットは存在しないため、当社のビデオデータセットにご興味がある場合は、このリンクからダウンロードすることもできます。

mPLUG-Owl でアブレーション実験も行いました。

これは、マルチモーダル事前トレーニング、テキスト指示、およびマルチモーダル指示関連機能の能力を証明しています。上図に示す 6 つの機能については、当社の戦略によってモデルが大幅に改善され、トレーニング戦略とマルチモーダル指示の微調整データの有効性も証明されています。

先ほど、業界最大の中国語ビデオデータセットである YouKu-mPLUG を Youku と共同でリリースしたとお話ししました。また、多くのセキュリティポリシーを追加し、データセットに対してフィルタリングも実行しました。私たちのデータセットは均等に分散されており、約 45 のカテゴリがあります。データセットに基づいて、分類、検索などを含むベンチマークに注釈を付けました。これらすべては、中国のマルチモーダルコミュニティの発展を促進するためのものです。中国のマルチモーダルコミュニティの発展が限られている主な理由の 1 つは、中国語の事前トレーニング済みマルチモーダルデータセットが不足していることです。 2つ目は、ベンチマークがないので公平な比較ができないことです。これはYouKu-mPLUGの本来の意図でもあります。

上記は、映画、テレビ番組、バラエティ番組など、非常に広範囲に配信されている当社のデータの一例です。モデルの結果は、テキストモジュールがビデオモジュールに拡張されている点を除いて、mPLUG-Owl の結果と似ています。対応するタスクには、ビデオカテゴリ予測とビデオキャプション作成が含まれます。mPLUG-Owl に基づく構造は、良好な結果と明らかな改善を達成しました。

3. ModelScope実践的共有

mPLUG-Owl は、mPLUG-Owl モデル、mPLUG グラフィックモデル、ビデオモデルなど、多くのモデルを ModelScope で公開しています。 ModelScope でモデルライブラリを検索し、mPLUG と入力して関連モデルを表示できます。

使い方も非常に簡単です。ModelScope をインストールした後、指定されたモデルを直接インポートし、画像と質問を入力すると、モデルによる回答が得られます。例えば、この人の気分はどうですか？と尋ねます。モデルは「彼は怒っています」と応答します。

ModelScope Creation Space ではいくつかのデモが提供されています。

英語版と多言語版を含む mPLUG-Owl の 2 つのデモも Maker Space でオープンソース化されています。クリックするとチャットインターフェースが表示されます。私たちの取り組みにご興味がおありの方は、上の写真のリンクをクリックして ModelScope メーカースペースにアクセスして体験することもできます。

同時に、私たちの作業は huggingface と github でもオープンソース化されています。左側は huggingface のユーザーガイドで、誰でも体験できます。

4. mPLUGプロジェクトホームページ

この記事で言及されている mPLUG の作業は、GitHub でオープンソース化されています。GitHub プロジェクトは X-PLUG と呼ばれ、mPLUG-2 マルチモーダルモジュラー統合モデルと mPLUG-Owl マルチモーダル対話モデルが含まれています。プロジェクトのホームページには、記事で言及されている Youku と共同でリリースされた中国のビデオデータセット YouKu-mPLUG のほか、私たちの論文、コード、データセットへのリンクも含まれています。スター＆フォークへようこそ！

Maker Spaceにご興味がございましたら、上記のQRコードを直接スキャンして体験してください。英語版と多言語版があります。

X-PLUG システム全体には、他の多くのモデルも含まれています。ディスカッションエリアも設置しました。QR コードをスキャンしてディスカッションエリアに参加するか、私の Zhihu リンクにアクセスしてコミュニケーションをとることができます。

5. 質疑応答

Q1: 先ほどYoukuと共同でリリースした中国のビデオデータセットについてお話がありましたが、このデータセットはどのようなシナリオで使用でき、どのような問題を解決できるのか紹介していただけますか？

A: YouKu-mPLUG データセットの本来の目的は、中国のコミュニティに中国語のビデオを事前トレーニングするためのマルチモーダルデータセットがないというギャップを埋めることです。現在のアプリケーションシナリオは、Douyin、Kuaishou などの短いビデオに関するものが多くなっています。このようなビデオデータセットが不足すると、このようなビデオアプリケーションシナリオの開発に大きな影響を与えます。また、多くのセキュリティポリシーを追加し、データセットに対していくつかのフィルタリングを実行しました。

一つ目は、中国のマルチモーダルコミュニティの発展を促進することです。 2 つ目は、ビデオ分野における従来のタスクのベンチマークがないため、公平な比較を行うことが難しいことです。 3 つ目は、ビデオ生成やビデオ編集など、より多くのビデオアプリケーションシナリオを促進することです。このデータセットを公開する目的は、産業界と学界がより多くの応用と研究を行えるようにすることであり、これは YouKu-mPLUG の本来の意図でもあります。

Q2: マルチモダリティは NLP でどのように使用できますか?それは何に使われますか?

A: 今日のマルチモーダル性と NLP は密接に関連しています。現在のマルチモーダル性は、モデルの出力がテキストであるため、NLP に傾いています。出力は、ビデオ生成や画像生成などの視覚的なもので、別のブランチに属します。出力はテキストであり、NLP と密接に関連しています。唯一の違いは、追加の画像が入力されることであり、多くの NLP 技術もマルチモーダルに適用されます。マルチモーダル事前トレーニングに取り組んでいる人の多くは、おそらく NLP のバックグラウンドを持っています。現在の多くのアプリケーションシナリオは、マルチモーダルであることがわかっている ChatGPT を含め、単一テキストである可能性は低いです。画像を入力してもテキストを入力しても、非常にスムーズな会話ができるため、NLP におけるマルチモーダル性の応用シナリオは非常に広範囲です。マルチモーダル性とテキストの唯一の違いは、画像を完全に理解する必要があるということだけかもしれません。したがって、これら 2 つの方向は切り離せないものだと思います。

<<: GPT-4 はプラグインを 40 回呼び出しましたが、成功せず、断固として諦めました。無効な呼び出しと応答拒否が頻繁に発生しました。

>>: