最も強力なオープンソースのマルチモーダル生成モデル MM-Interleaved: 最初の機能同期装置

最も強力なオープンソースのマルチモーダル生成モデル MM-Interleaved: 最初の機能同期装置

AI がチャットできるだけでなく、「目」を持ち、絵を理解し、絵を描くことで自分自身を表現することさえできると想像してみてください。つまり、チャットしたり、写真やビデオを共有したり、相手も写真やテキストで返信したりできるということです。

最近、上海人工知能研究所は、香港中文大学マルチメディア研究所(MMLab)、清華大学、センスタイム、トロント大学などの大学や機関と共同で、多用途で強力なオープンソースのマルチモーダル生成モデルMM-Interleavedをリリースしました。これは、新たに提案されたマルチモーダル機能同期装置の助けを借りて、複数のタスクのSOTAを刷新しました。高解像度画像の詳細と微妙な意味を正確に理解する能力を持ち、任意に散在するグラフィックとテキストの入出力をサポートし、大規模モデルのマルチモーダル生成に新たなブレークスルーをもたらします。


論文アドレス: https://arxiv.org/pdf/2401.10208.pdf

プロジェクトアドレス: https://github.com/OpenGVLab/MM-Interleaved

モデルアドレス: https://huggingface.co/OpenGVLab/MM-Interleaved/tree/main/mm_interleaved_pretrain

MM-Interleaved は、魅力的な旅行日記やおとぎ話を簡単に書いたり、ロボットの操作を正確に理解したり、さらにはコンピューターや携帯電話の GUI インターフェースを分析して、独自のスタイルで美しい画像を作成したりすることができます。料理の仕方を教えたり、一緒にゲームをしたり、いつでも注文を受けるパーソナルアシスタントになったりすることもできます。では早速、結果を見てみましょう。

複雑なマルチモーダルコンテキストを簡単に理解

MM-Interleaved は、画像とテキストのコンテキストに基づいて要件を満たすテキスト応答を生成できます。果物の数学の問題を解決できます。

常識を使って、ロゴ画像が対応する会社を推測し、紹介することもできます。

赤い円でマークされた手書きのテキストも正確に認識できます。

さらに、モデルは、一連の画像によって表されるロボットの動作を直接理解できます。

Minecraft でフェンスを構築する方法:

コンテキストに基づいて、モバイル UI インターフェースでグレースケールを構成する方法を段階的にユーザーに教えることもできます。

そして、背後に隠れている飛行機を正確に見つけます。

想像力を駆使してさまざまなスタイルの画像を生成します

MM-インターリーブ モデルは、さまざまな複雑な画像生成タスクでも優れたパフォーマンスを発揮します。たとえば、ユーザーが提供した詳細な説明に基づいてグランドピアノのシルエットを生成します。

また、生成されたイメージに含めるオブジェクトやスタイルをユーザーが複数の形式で指定する場合も、MM-Interleaved フレームワークで簡単に処理できます。

たとえば、水彩画風の象を生成するには、次のようにします。

犬のスタイルで猫の絵を生成します。

ひまわりに囲まれた木造の家:

また、海の波の画像を生成する際には、コンテキストに基づいて対応するスタイルがインテリジェントに推測されます。

画像生成では空間の一貫性を考慮する

さらに驚くべきことは、MM-Interleaved には、入力されたセグメンテーション マップと対応するテキスト記述に基づいて画像を生成し、生成された画像が空間レイアウトでセグメンテーション マップと一致するようにする機能もあることです。

この機能は、画像やテキストの生成タスクにおけるモデルの優れたパフォーマンスを実証するだけでなく、ユーザーにさらに柔軟で直感的な操作エクスペリエンスを提供します。

写真とテキストによる自作記事

さらに、簡単な導入だけで、MM-Interleaved は自律的に書き込みを続け、さまざまなトピックについて意味的に一貫性のあるイラスト付きの記事を生成します。

バラに関するおとぎ話であっても:

リンゴジュースの作り方のチュートリアルガイド:

または、漫画アニメーションのストーリークリップ:

MM-Interleaved フレームワークはすべて、驚くべき創造性を発揮します。これにより、MM-Interleaved フレームワークは、無限の創造性を実現するインテリジェントなコラボレーターとなり、ユーザーが魅力的なグラフィック作品を簡単に作成できるようになります。

MM-Interleaved は、インターリーブされた画像とテキストを使用した大規模なマルチモーダル モデルのトレーニングにおける中核的な問題の解決に取り組んでいます。徹底的な研究を通じて、エンドツーエンドの新しい事前トレーニング フレームワークを提案しています。

MM-Interleavedトレーニングに基づくモデルは、パラメータが少なく、プライベートデータを使用しません。複数のゼロショットマルチモーダル理解タスクで優れたパフォーマンスを発揮するだけでなく、FlamingoやEmu2など、国内外の最新の研究成果をリードしています。

また、教師ありの微調整により、視覚的な質問応答 (VQA)、画像キャプション、参照表現の理解、セグメントから画像への生成、視覚的なストーリーテリングなど、複数の下流タスクで全体的なパフォーマンスをさらに向上させることもできます。

現在、モデルの事前トレーニング済みの重みと対応するコード実装は GitHub でオープンソース化されています。

マルチモーダル機能シンクロナイザーと新しいエンドツーエンドのトレーニングフレームワーク

MM-Interleaved は、インターリーブされた画像およびテキスト データ専用の新しいエンドツーエンドのトレーニング フレームワークを提案します。

このフレームワークは、入力としてマルチスケールの画像特徴をサポートし、画像とテキストの中間特徴に追加の制約を加えません。代わりに、次のテキスト トークンまたは次の画像を予測するという自己教師ありトレーニング目標を直接採用して、単一段階の統合された事前トレーニング パラダイムを実現します。

MM-Interleaved は、従来の方法と比較して、テキストと画像のインターリーブ生成をサポートするだけでなく、画像内のより詳細な情報を効率的にキャプチャすることもできます。

さらに、MM-Interleaved の主要な実装には、一般的なマルチモーダル機能同期装置も含まれています。

シンクロナイザーは、複数の高解像度画像のきめ細かい特徴をマルチモーダル大規模モデルと画像デコーダーに動的に注入し、テキストと画像をデコードおよび生成しながら、クロスモーダル特徴同期を実現します。

この革新的な設計により、MM-Interleaved はマルチモーダル大規模モデルの分野の開発に新たな活力を注入することができます。

複数のタスクで優れたパフォーマンスを発揮

表 1 および 3 に示すように、MM-Interleaved はゼロショットのマルチモーダル理解タスクと生成タスクの両方で優れたパフォーマンスを実現します。この成果は、フレームワークの強力な機能を実証するだけでなく、多様なタスクに取り組む際のその強力な汎用性も強調しています。


表2と表4は、MM-Interleavedをさらに微調整した後の実験結果を示しています。参照理解、セグメンテーションマップに基づく画像生成、画像とテキストのインターリーブ生成など、複数の下流タスクでのパフォーマンスも優れています。

これは、MM-Interleaved が事前トレーニング段階で優れたパフォーマンスを発揮するだけでなく、特定のタスクを微調整した後も主導的な地位を維持し、大規模なマルチモーダル モデルの広範な適用に対して信頼性の高いサポートを提供していることを示しています。

結論は

MM-Interleaved の登場は、包括的なエンドツーエンドの統合モデリングとトレーニングの実現に向けた、マルチモーダル大規模モデルの開発における重要な一歩となります。

このフレームワークの成功は、事前トレーニング段階での優れたパフォーマンスだけでなく、微調整後のさまざまな特定の下流タスクでの包括的なパフォーマンスにも反映されています。

そのユニークな貢献は、強力なマルチモーダル処理機能を実証するだけでなく、オープンソース コミュニティが新しい世代のマルチモーダル大規模モデルを構築するためのより広い可能性を切り開くことです。

MM-Interleaved は、インターリーブされた画像とテキスト データの将来の処理のための新しいアイデアとツールも提供し、よりインテリジェントで柔軟な画像とテキストの生成と理解のための強固な基盤を築きます。

このイノベーションが、より多くの分野の関連アプリケーションにさらなる驚きをもたらすことを期待しています。

<<:  アリババ北京交通大学インターンの論文が人気に! MobileAgent は、人間が携帯電話を使用する様子をシミュレートできます。ネットユーザーの皆さん、ショッピングをスピードアップして、泥を食べましょう!

>>:  Xiaohongshuのオープンソース「InstantID」は大きな効果があり、Yann LeCunに賞賛され、Githubのホットリストのトップに急上昇

ブログ    
ブログ    
ブログ    

推薦する

図解された Raft コンセンサス アルゴリズム: ログを複製する方法は?

[[402526]]ラフトログフォーマットRaft アルゴリズムでは、分散一貫性を実現するために必...

...

人工知能は新しいシナリオに応用されています: スマートな観光地の知能はどこにありますか?

[[311778]] 5G、人工知能、モノのインターネットなどの技術が徐々に成熟するにつれて、スマ...

顧客エンゲージメントにおける 5 つの主要な AI トレンド

クラウド通信および顧客エンゲージメント プラットフォームである Twilio が発表した新しい調査レ...

人工知能の知られざる歴史: 目に見えない女性プログラマーたち

この 6 部構成のシリーズでは、AI の人類史を探り、革新者、思想家、労働者、さらには小規模なトレー...

...

2021年第2四半期の人工知能へのベンチャーキャピタル投資は200億ドルを超え、新たな記録を樹立した。

CB Insightsが発表した2021年第2四半期のAI(人工知能)レポートによると、疫病の刺激...

ソラを批判した後、ルカン氏は「視覚世界モデル」と題した論文を発表し、AIが物理世界を学習するための鍵を明らかにした。

ソラの登場はAI界全体に熱狂を巻き起こしたが、ルカンは例外だった。 OpenAI による Sora ...

GPTストア立ち上げの裏側:民間開発者のグループが儲かり、スタートアップのグループが消滅

ノア著制作:51CTO テクノロジースタック(WeChat ID:blog)昨年末に一連の「宮廷闘争...

ソフトウェアがハードウェアを飲み込むAI時代において、チップがアルゴリズムの進化に追いつけない場合、私たちはどうすればよいのでしょうか?

AI時代の陰の立役者として、チップ業界は徐々にかつ継続的な変化を遂げています。 2008 年以降、...

...

...

LeCun 氏と xAI 共同創設者の衝突: GPT-4 の主要な推論欠陥に対する解決策はないのか?ネットユーザー:人間も「ランダムなオウム」

最近、ルカン氏を含む一群の大物が再びLLMを攻撃し始めた。最新のブレークスルーは、LLM にはまった...

業界の洞察 | 世界の人工知能とその産業チェーン

18 世紀半ば以降、3 度の産業革命により、蒸気駆動の機械生産から電気駆動の機械生産へと、人類社会に...