最も強力なオープンソースのマルチモーダル生成モデル MM-Interleaved: 最初の機能同期装置

最も強力なオープンソースのマルチモーダル生成モデル MM-Interleaved: 最初の機能同期装置

AI がチャットできるだけでなく、「目」を持ち、絵を理解し、絵を描くことで自分自身を表現することさえできると想像してみてください。つまり、チャットしたり、写真やビデオを共有したり、相手も写真やテキストで返信したりできるということです。

最近、上海人工知能研究所は、香港中文大学マルチメディア研究所(MMLab)、清華大学、センスタイム、トロント大学などの大学や機関と共同で、多用途で強力なオープンソースのマルチモーダル生成モデルMM-Interleavedをリリースしました。これは、新たに提案されたマルチモーダル機能同期装置の助けを借りて、複数のタスクのSOTAを刷新しました。高解像度画像の詳細と微妙な意味を正確に理解する能力を持ち、任意に散在するグラフィックとテキストの入出力をサポートし、大規模モデルのマルチモーダル生成に新たなブレークスルーをもたらします。


論文アドレス: https://arxiv.org/pdf/2401.10208.pdf

プロジェクトアドレス: https://github.com/OpenGVLab/MM-Interleaved

モデルアドレス: https://huggingface.co/OpenGVLab/MM-Interleaved/tree/main/mm_interleaved_pretrain

MM-Interleaved は、魅力的な旅行日記やおとぎ話を簡単に書いたり、ロボットの操作を正確に理解したり、さらにはコンピューターや携帯電話の GUI インターフェースを分析して、独自のスタイルで美しい画像を作成したりすることができます。料理の仕方を教えたり、一緒にゲームをしたり、いつでも注文を受けるパーソナルアシスタントになったりすることもできます。では早速、結果を見てみましょう。

複雑なマルチモーダルコンテキストを簡単に理解

MM-Interleaved は、画像とテキストのコンテキストに基づいて要件を満たすテキスト応答を生成できます。果物の数学の問題を解決できます。

常識を使って、ロゴ画像が対応する会社を推測し、紹介することもできます。

赤い円でマークされた手書きのテキストも正確に認識できます。

さらに、モデルは、一連の画像によって表されるロボットの動作を直接理解できます。

Minecraft でフェンスを構築する方法:

コンテキストに基づいて、モバイル UI インターフェースでグレースケールを構成する方法を段階的にユーザーに教えることもできます。

そして、背後に隠れている飛行機を正確に見つけます。

想像力を駆使してさまざまなスタイルの画像を生成します

MM-インターリーブ モデルは、さまざまな複雑な画像生成タスクでも優れたパフォーマンスを発揮します。たとえば、ユーザーが提供した詳細な説明に基づいてグランドピアノのシルエットを生成します。

また、生成されたイメージに含めるオブジェクトやスタイルをユーザーが複数の形式で指定する場合も、MM-Interleaved フレームワークで簡単に処理できます。

たとえば、水彩画風の象を生成するには、次のようにします。

犬のスタイルで猫の絵を生成します。

ひまわりに囲まれた木造の家:

また、海の波の画像を生成する際には、コンテキストに基づいて対応するスタイルがインテリジェントに推測されます。

画像生成では空間の一貫性を考慮する

さらに驚くべきことは、MM-Interleaved には、入力されたセグメンテーション マップと対応するテキスト記述に基づいて画像を生成し、生成された画像が空間レイアウトでセグメンテーション マップと一致するようにする機能もあることです。

この機能は、画像やテキストの生成タスクにおけるモデルの優れたパフォーマンスを実証するだけでなく、ユーザーにさらに柔軟で直感的な操作エクスペリエンスを提供します。

写真とテキストによる自作記事

さらに、簡単な導入だけで、MM-Interleaved は自律的に書き込みを続け、さまざまなトピックについて意味的に一貫性のあるイラスト付きの記事を生成します。

バラに関するおとぎ話であっても:

リンゴジュースの作り方のチュートリアルガイド:

または、漫画アニメーションのストーリークリップ:

MM-Interleaved フレームワークはすべて、驚くべき創造性を発揮します。これにより、MM-Interleaved フレームワークは、無限の創造性を実現するインテリジェントなコラボレーターとなり、ユーザーが魅力的なグラフィック作品を簡単に作成できるようになります。

MM-Interleaved は、インターリーブされた画像とテキストを使用した大規模なマルチモーダル モデルのトレーニングにおける中核的な問題の解決に取り組んでいます。徹底的な研究を通じて、エンドツーエンドの新しい事前トレーニング フレームワークを提案しています。

MM-Interleavedトレーニングに基づくモデルは、パラメータが少なく、プライベートデータを使用しません。複数のゼロショットマルチモーダル理解タスクで優れたパフォーマンスを発揮するだけでなく、FlamingoやEmu2など、国内外の最新の研究成果をリードしています。

また、教師ありの微調整により、視覚的な質問応答 (VQA)、画像キャプション、参照表現の理解、セグメントから画像への生成、視覚的なストーリーテリングなど、複数の下流タスクで全体的なパフォーマンスをさらに向上させることもできます。

現在、モデルの事前トレーニング済みの重みと対応するコード実装は GitHub でオープンソース化されています。

マルチモーダル機能シンクロナイザーと新しいエンドツーエンドのトレーニングフレームワーク

MM-Interleaved は、インターリーブされた画像およびテキスト データ専用の新しいエンドツーエンドのトレーニング フレームワークを提案します。

このフレームワークは、入力としてマルチスケールの画像特徴をサポートし、画像とテキストの中間特徴に追加の制約を加えません。代わりに、次のテキスト トークンまたは次の画像を予測するという自己教師ありトレーニング目標を直接採用して、単一段階の統合された事前トレーニング パラダイムを実現します。

MM-Interleaved は、従来の方法と比較して、テキストと画像のインターリーブ生成をサポートするだけでなく、画像内のより詳細な情報を効率的にキャプチャすることもできます。

さらに、MM-Interleaved の主要な実装には、一般的なマルチモーダル機能同期装置も含まれています。

シンクロナイザーは、複数の高解像度画像のきめ細かい特徴をマルチモーダル大規模モデルと画像デコーダーに動的に注入し、テキストと画像をデコードおよび生成しながら、クロスモーダル特徴同期を実現します。

この革新的な設計により、MM-Interleaved はマルチモーダル大規模モデルの分野の開発に新たな活力を注入することができます。

複数のタスクで優れたパフォーマンスを発揮

表 1 および 3 に示すように、MM-Interleaved はゼロショットのマルチモーダル理解タスクと生成タスクの両方で優れたパフォーマンスを実現します。この成果は、フレームワークの強力な機能を実証するだけでなく、多様なタスクに取り組む際のその強力な汎用性も強調しています。


表2と表4は、MM-Interleavedをさらに微調整した後の実験結果を示しています。参照理解、セグメンテーションマップに基づく画像生成、画像とテキストのインターリーブ生成など、複数の下流タスクでのパフォーマンスも優れています。

これは、MM-Interleaved が事前トレーニング段階で優れたパフォーマンスを発揮するだけでなく、特定のタスクを微調整した後も主導的な地位を維持し、大規模なマルチモーダル モデルの広範な適用に対して信頼性の高いサポートを提供していることを示しています。

結論は

MM-Interleaved の登場は、包括的なエンドツーエンドの統合モデリングとトレーニングの実現に向けた、マルチモーダル大規模モデルの開発における重要な一歩となります。

このフレームワークの成功は、事前トレーニング段階での優れたパフォーマンスだけでなく、微調整後のさまざまな特定の下流タスクでの包括的なパフォーマンスにも反映されています。

そのユニークな貢献は、強力なマルチモーダル処理機能を実証するだけでなく、オープンソース コミュニティが新しい世代のマルチモーダル大規模モデルを構築するためのより広い可能性を切り開くことです。

MM-Interleaved は、インターリーブされた画像とテキスト データの将来の処理のための新しいアイデアとツールも提供し、よりインテリジェントで柔軟な画像とテキストの生成と理解のための強固な基盤を築きます。

このイノベーションが、より多くの分野の関連アプリケーションにさらなる驚きをもたらすことを期待しています。

<<:  アリババ北京交通大学インターンの論文が人気に! MobileAgent は、人間が携帯電話を使用する様子をシミュレートできます。ネットユーザーの皆さん、ショッピングをスピードアップして、泥を食べましょう!

>>:  Xiaohongshuのオープンソース「InstantID」は大きな効果があり、Yann LeCunに賞賛され、Githubのホットリストのトップに急上昇

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

LLaVA-1.6は非常に強力で、Gemini Proを上回り、推論機能とOCR機能が向上しています。

昨年 4 月、ウィスコンシン大学マディソン校、マイクロソフト リサーチ、コロンビア大学の研究者が共同...

...

これらの不気味な「偽人間」は人工知能の新時代の到来を告げる

[51CTO.com クイック翻訳]唇の無精ひげ、額のしわ、皮膚の斑点がはっきりと見えますが、「彼」...

誰もが映画の「監督」! MSRA、北京大学、その他の大学が提案:ビデオ、映画、短編ビデオ生成モデル

Stable DiffusionとMidjourneyの人気以来、人々は画像生成の分野における人工知...

人工知能の大学が雨後の筍のように次々と誕生しています。そこでは何を教えるのでしょうか?どのように教えるか?

[[240090]] 2018年グローバル人工知能製品アプリケーション博覧会で、来場者がテーマポス...

わずか60行のコードでディープニューラルネットワークを実装する

01データセットの準備使用されるデータセットは、30 次元の特徴と 569 個のサンプルを含む、sk...

人工知能を活用するための5つのベストプラクティス

生産性、精度、意思決定能力を向上させるために人工知能 (AI) を導入する手法は、さまざまな業界で広...

...

マスク氏が示唆:脳の寄生虫が人間を超人的なAIを作らせる

マスク氏はツイッターで奇妙な見解を表明した。人類が超人的な人工知能を創り出した理由は、ある種の「脳寄...

ロボットが商品を移動、無人仕分け、梱包作業員が異動・昇進…「ダブル11」の裏側にあるサプライチェーンアップグレード戦争

「ダブル11」は10年以上前から存在しており、大半の「買い物中毒者」は巨大プラットフォームでの数千億...

...

人工知能は石油・ガス業界で勢いを増している

[[411530]]人工知能ソリューションは、今日の主要産業が直面している最も複雑な問題のいくつか...

クラウド コンピューティングに必要な 5 つの機械学習スキル

機械学習と人工知能は、IT サービス分野に浸透し続け、ソフトウェア エンジニアが開発したアプリケーシ...

OpenAI研究者:データが不十分な場合に教師あり学習を実現する方法

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...