最も強力なオープンソースのマルチモーダル生成モデル MM-Interleaved: 最初の機能同期装置

最も強力なオープンソースのマルチモーダル生成モデル MM-Interleaved: 最初の機能同期装置

AI がチャットできるだけでなく、「目」を持ち、絵を理解し、絵を描くことで自分自身を表現することさえできると想像してみてください。つまり、チャットしたり、写真やビデオを共有したり、相手も写真やテキストで返信したりできるということです。

最近、上海人工知能研究所は、香港中文大学マルチメディア研究所(MMLab)、清華大学、センスタイム、トロント大学などの大学や機関と共同で、多用途で強力なオープンソースのマルチモーダル生成モデルMM-Interleavedをリリースしました。これは、新たに提案されたマルチモーダル機能同期装置の助けを借りて、複数のタスクのSOTAを刷新しました。高解像度画像の詳細と微妙な意味を正確に理解する能力を持ち、任意に散在するグラフィックとテキストの入出力をサポートし、大規模モデルのマルチモーダル生成に新たなブレークスルーをもたらします。


論文アドレス: https://arxiv.org/pdf/2401.10208.pdf

プロジェクトアドレス: https://github.com/OpenGVLab/MM-Interleaved

モデルアドレス: https://huggingface.co/OpenGVLab/MM-Interleaved/tree/main/mm_interleaved_pretrain

MM-Interleaved は、魅力的な旅行日記やおとぎ話を簡単に書いたり、ロボットの操作を正確に理解したり、さらにはコンピューターや携帯電話の GUI インターフェースを分析して、独自のスタイルで美しい画像を作成したりすることができます。料理の仕方を教えたり、一緒にゲームをしたり、いつでも注文を受けるパーソナルアシスタントになったりすることもできます。では早速、結果を見てみましょう。

複雑なマルチモーダルコンテキストを簡単に理解

MM-Interleaved は、画像とテキストのコンテキストに基づいて要件を満たすテキスト応答を生成できます。果物の数学の問題を解決できます。

常識を使って、ロゴ画像が対応する会社を推測し、紹介することもできます。

赤い円でマークされた手書きのテキストも正確に認識できます。

さらに、モデルは、一連の画像によって表されるロボットの動作を直接理解できます。

Minecraft でフェンスを構築する方法:

コンテキストに基づいて、モバイル UI インターフェースでグレースケールを構成する方法を段階的にユーザーに教えることもできます。

そして、背後に隠れている飛行機を正確に見つけます。

想像力を駆使してさまざまなスタイルの画像を生成します

MM-インターリーブ モデルは、さまざまな複雑な画像生成タスクでも優れたパフォーマンスを発揮します。たとえば、ユーザーが提供した詳細な説明に基づいてグランドピアノのシルエットを生成します。

また、生成されたイメージに含めるオブジェクトやスタイルをユーザーが複数の形式で指定する場合も、MM-Interleaved フレームワークで簡単に処理できます。

たとえば、水彩画風の象を生成するには、次のようにします。

犬のスタイルで猫の絵を生成します。

ひまわりに囲まれた木造の家:

また、海の波の画像を生成する際には、コンテキストに基づいて対応するスタイルがインテリジェントに推測されます。

画像生成では空間の一貫性を考慮する

さらに驚くべきことは、MM-Interleaved には、入力されたセグメンテーション マップと対応するテキスト記述に基づいて画像を生成し、生成された画像が空間レイアウトでセグメンテーション マップと一致するようにする機能もあることです。

この機能は、画像やテキストの生成タスクにおけるモデルの優れたパフォーマンスを実証するだけでなく、ユーザーにさらに柔軟で直感的な操作エクスペリエンスを提供します。

写真とテキストによる自作記事

さらに、簡単な導入だけで、MM-Interleaved は自律的に書き込みを続け、さまざまなトピックについて意味的に一貫性のあるイラスト付きの記事を生成します。

バラに関するおとぎ話であっても:

リンゴジュースの作り方のチュートリアルガイド:

または、漫画アニメーションのストーリークリップ:

MM-Interleaved フレームワークはすべて、驚くべき創造性を発揮します。これにより、MM-Interleaved フレームワークは、無限の創造性を実現するインテリジェントなコラボレーターとなり、ユーザーが魅力的なグラフィック作品を簡単に作成できるようになります。

MM-Interleaved は、インターリーブされた画像とテキストを使用した大規模なマルチモーダル モデルのトレーニングにおける中核的な問題の解決に取り組んでいます。徹底的な研究を通じて、エンドツーエンドの新しい事前トレーニング フレームワークを提案しています。

MM-Interleavedトレーニングに基づくモデルは、パラメータが少なく、プライベートデータを使用しません。複数のゼロショットマルチモーダル理解タスクで優れたパフォーマンスを発揮するだけでなく、FlamingoやEmu2など、国内外の最新の研究成果をリードしています。

また、教師ありの微調整により、視覚的な質問応答 (VQA)、画像キャプション、参照表現の理解、セグメントから画像への生成、視覚的なストーリーテリングなど、複数の下流タスクで全体的なパフォーマンスをさらに向上させることもできます。

現在、モデルの事前トレーニング済みの重みと対応するコード実装は GitHub でオープンソース化されています。

マルチモーダル機能シンクロナイザーと新しいエンドツーエンドのトレーニングフレームワーク

MM-Interleaved は、インターリーブされた画像およびテキスト データ専用の新しいエンドツーエンドのトレーニング フレームワークを提案します。

このフレームワークは、入力としてマルチスケールの画像特徴をサポートし、画像とテキストの中間特徴に追加の制約を加えません。代わりに、次のテキスト トークンまたは次の画像を予測するという自己教師ありトレーニング目標を直接採用して、単一段階の統合された事前トレーニング パラダイムを実現します。

MM-Interleaved は、従来の方法と比較して、テキストと画像のインターリーブ生成をサポートするだけでなく、画像内のより詳細な情報を効率的にキャプチャすることもできます。

さらに、MM-Interleaved の主要な実装には、一般的なマルチモーダル機能同期装置も含まれています。

シンクロナイザーは、複数の高解像度画像のきめ細かい特徴をマルチモーダル大規模モデルと画像デコーダーに動的に注入し、テキストと画像をデコードおよび生成しながら、クロスモーダル特徴同期を実現します。

この革新的な設計により、MM-Interleaved はマルチモーダル大規模モデルの分野の開発に新たな活力を注入することができます。

複数のタスクで優れたパフォーマンスを発揮

表 1 および 3 に示すように、MM-Interleaved はゼロショットのマルチモーダル理解タスクと生成タスクの両方で優れたパフォーマンスを実現します。この成果は、フレームワークの強力な機能を実証するだけでなく、多様なタスクに取り組む際のその強力な汎用性も強調しています。


表2と表4は、MM-Interleavedをさらに微調整した後の実験結果を示しています。参照理解、セグメンテーションマップに基づく画像生成、画像とテキストのインターリーブ生成など、複数の下流タスクでのパフォーマンスも優れています。

これは、MM-Interleaved が事前トレーニング段階で優れたパフォーマンスを発揮するだけでなく、特定のタスクを微調整した後も主導的な地位を維持し、大規模なマルチモーダル モデルの広範な適用に対して信頼性の高いサポートを提供していることを示しています。

結論は

MM-Interleaved の登場は、包括的なエンドツーエンドの統合モデリングとトレーニングの実現に向けた、マルチモーダル大規模モデルの開発における重要な一歩となります。

このフレームワークの成功は、事前トレーニング段階での優れたパフォーマンスだけでなく、微調整後のさまざまな特定の下流タスクでの包括的なパフォーマンスにも反映されています。

そのユニークな貢献は、強力なマルチモーダル処理機能を実証するだけでなく、オープンソース コミュニティが新しい世代のマルチモーダル大規模モデルを構築するためのより広い可能性を切り開くことです。

MM-Interleaved は、インターリーブされた画像とテキスト データの将来の処理のための新しいアイデアとツールも提供し、よりインテリジェントで柔軟な画像とテキストの生成と理解のための強固な基盤を築きます。

このイノベーションが、より多くの分野の関連アプリケーションにさらなる驚きをもたらすことを期待しています。

<<:  アリババ北京交通大学インターンの論文が人気に! MobileAgent は、人間が携帯電話を使用する様子をシミュレートできます。ネットユーザーの皆さん、ショッピングをスピードアップして、泥を食べましょう!

>>:  Xiaohongshuのオープンソース「InstantID」は大きな効果があり、Yann LeCunに賞賛され、Githubのホットリストのトップに急上昇

ブログ    
ブログ    

推薦する

わずか数ステップでデバイス上で Alpaca-LoRA を実行するにはどうすればよいでしょうか?

翻訳者 | ブガッティレビュー | Chonglou ChatGPT は、ここ数か月で大きな注目を集...

1 つの記事で理解する: 「コンピューター ビジョン」とは一体何でしょうか?

[[183558]]誰かがあなたにボールを投げてきたら、どうしますか? もちろん、すぐにキャッチす...

...

...

人工知能がとても人気ですが、機械学習とディープラーニングの違いがわかりますか?

人工知能は最近大きな注目を集めています。人工知能を実装するための技術としてディープラーニングと機械学...

...

ワールドカップはスコア予測にAIを使用。今回はスイスの銀行を信頼できるか?

ワールドカップが本格的に開幕し、大手データおよび人工知能技術組織もワールドカップの予想に参加している...

Gemini ProはGPT-3.5ほど優れていません。CMUは徹底的な比較研究を実施し、公平性、透明性、再現性を確保しています。

Google Gemini はどれほど強力ですか?カーネギーメロン大学は、専門的かつ客観的な第三者...

...

...

情報の流れの中のゲーム:「易典子心」の探求と思考

[51CTO.comより引用] 「易典子訓」アプリを開くと、オープニング画面に「良質なコンテンツ、価...

2019年の技術予測: クラウド、ビッグデータ、AI、IoT、ブロックチェーン

[[258103]]テンセントテクノロジーニュース:フォーブスの寄稿者であるスティーブ・ウィルクス氏...

機械学習を始めるときによくある5つの間違い

[[195041]]機械学習を始めるにあたって、万能のアプローチは存在しません。私たちは皆、少しずつ...

...