新しいマルチモーダル大型モデルがリストを独占!画像とテキストの混合入力をサポートしているので、知識がわからなくても学習できます

新しいマルチモーダル大型モデルがリストを独占!画像とテキストの混合入力をサポートしているので、知識がわからなくても学習できます

マルチモーダル大型モデルファミリーに新しいメンバーが加わりました!

複数の画像とテキストを組み合わせて分析できるだけでなく、ビデオ内の空間的および時間的な関係を処理することもできます。

この無料のオープンソース モデルは、MMbench と MME の両方のリストでトップになり、現在の浮動ランキングでもトップ 3 に留まっています。

△MMBenchリスト、MMBenchは上海AIラボと南洋理工大学が共同で立ち上げたChatGPTに基づく総合的なマルチモーダル能力評価システムです。

△MMEリスト、MMEはテンセントYoutuラボと厦門大学が実施したマルチモーダル大規模言語モデル評価である。

このマルチモーダル大規模モデルはMMICLと呼ばれ、北京交通大学、北京大学、UCLA、祖智マルチモーダル社などの機関が共同で立ち上げたものです。

MMICL には、Vicuna と FlanT5XL コア モデルという異なる LLM に基づく 2 つのバージョンがあります。

どちらのバージョンもオープンソースです。FlanT5XL バージョンは商用利用が可能ですが、Vicuna バージョンは科学研究目的でのみ使用できます。

MME のマルチタスク テストでは、 MMICLの FlanT5XL バージョンが数週間連続でトップの座を維持しています。

その中で、認知面は総合スコア428.93(800点満点)を獲得し、他のモデルを大きく上回る第1位を獲得しました。

知覚における総合スコアは1381.78(2000点満点)で、最新のリストではアリババの千問7Bと崑崙万為の天宮モデルに次ぐ2位となっている。

必要な構成に関しては、公式発表では、トレーニング フェーズでは 6 台の A40 が必要であり、推論フェーズは 1 台の A40 で実行できるとされています。

トレーニングの第 2 段階を完了するには、オープンソース データセットから構築された0.5M のデータのみが必要で、これには数十時間しかかかりません。

では、この大規模なマルチモーダルモデルの特徴は何でしょうか?

ビデオを視聴して、学んだことを応用することができます。

MMICL はテキストと画像を織り交ぜたプロンプトをサポートしており、WeChat でのチャットと同じくらい自然に使用できます。

通常の会話形式で 2 つの画像をMMICLに入力すると、それらの類似点と相違点を分析できます。

MMICL は、強力な画像分析機能に加えて、「学習して適用する」方法も知っています。

たとえば、 MMICLに「Minecraft」のピクセル風の馬を与えます。

トレーニング データはすべて現実世界のシーンであるため、 MMICL はこの過度に抽象的なピクセル スタイルのシーンを認識しません。

しかし、 MMICLにいくつかの例を学習させれば、すぐに類推推論を実行できるようになります。

下の図では、 MMICL は馬、ロバ、何もない 3 つのシーンを学習し、背景が変更された後にピクセルの馬を正しく識別しました。

写真だけでなく、ダイナミックなビデオもMMICLでは問題ありません。各フレームの内容を理解できるだけでなく、時間と空間の関係を正確に分析することもできます。

ブラジルとアルゼンチンのサッカーの試合を見てみましょう。MMICL両チームの行動を正確に分析しました。

また、ブラジルの選手がアルゼンチンの選手をブロックした方法など、ビデオの詳細についてMMICL に質問することもできます。

MMICL は、ビデオ内の時間的および空間的な関係を正確に把握するだけでなく、リアルタイムのビデオ ストリーム入力もサポートします。

監視カメラの映像では、人が転倒しているのがわかります。MMICLこの異常現象を検知し、助けが必要かどうかを尋ねるプロンプトを出します。

MME リストの知覚と認知の上位 5 つを 1 つのグラフで比較すると、MMICL があらゆる面で優れたパフォーマンスを発揮していることがわかります。

それで、 MMICL はそれをどのように実現し、その背後にある技術的な詳細は何なのでしょうか?

トレーニングは2段階で完了します

MMICL は、複数の画像を含む複雑なマルチモーダル入力を理解する際に視覚言語モデルが遭遇する問題に対処することを目的としています。

MMICL は、Flan-T5 XXL モデルをバックボーンとして使用します。モデル全体の構造とフローは、次の図に示されています。

MMICL は BLIP2 に似た構造を使用しますが、インターリーブされたグラフィック入力を受け入れることができます。

MMICL は画像とテキストを同等に扱います。処理された画像とテキストの特徴を入力形式に従って画像とテキストのインターレース形式に結合し、トレーニングと推論のために言語モデルに入力します。

InstructBLIP と同様に、 MMICLの開発プロセスは、LLM をフリーズし、Q-former をトレーニングし、特定のデータセットで微調整することです。

MMICL のトレーニング プロセスとデータ構造を次の図に示します。

具体的には、 MMICLのトレーニングは次の 2 つの段階に分かれています。

  • 事前トレーニング段階では、LAION-400M(参照LLaVA)データセットが使用された。
  • 独自のMIC(マルチモデルインコンテキスト学習)データセットを使用したマルチモーダルインコンテキストチューニング

MIC データセットは公開データセットから構築されています。上の図は MIC データセットの内容を示しています。MIC データセットには、次の機能もあります。

1 つ目は、画像とテキストの間に確立された明示的な参照です。MIC は、画像とテキストが絡み合っているデータに画像宣言を挿入し、画像プロキシ トークンを使用してさまざまな画像を表し、自然言語を使用して画像とテキスト間の参照関係を確立します。

2 つ目は、空間的、時間的、または論理的に相互に関連する複数の画像データセットであり、これにより、MMICL モデルは画像間の関係をより正確に理解できるようになります。

3 番目の機能はサンプル データセットです。これは、マルチモーダル コンテキスト学習を使用して、テキストと画像が散在する複雑なテキストと画像の入力に対する MMICL の理解を強化する、MMICL に「その場で学習」させるプロセスに似ています。

MMICL は、複数のテスト データセットで、同じく FlanT5XXL を使用する BLIP2 および InstructionBLIP よりも優れたパフォーマンスを発揮します。

特に複数の画像が関係するタスクの場合、MMICL は複雑な画像やテキストの入力に大きな改善を示します。

研究チームは、MMICL が視覚言語モデルによく存在する言語バイアスの問題を解決し、それが優れたパフォーマンスの理由の 1 つであると考えています。

ほとんどの視覚言語モデルは、大量のテキストコンテキストに直面したときに視覚コンテンツを無視します。これは、視覚情報を必要とする質問に答えるときには致命的な欠陥となります。

研究チームのアプローチのおかげで、MMICL は視覚言語モデルにおけるこの言語バイアスをうまく軽減しました。

この大規模なマルチモーダル モデルに興味のある読者は、GitHub ページまたは論文を参照して詳細を確認してください。

GitHub ページ: https://github.com/HaozheZhao/MIC
論文アドレス: https://arxiv.org/abs/2309.07915 オンラインデモ:
http://www.testmmicl.work/

<<: 

>>:  ゼロサンプルに主眼が置かれています! ReSimAD: 自動運転で 3D ドメイン適応を実現するには?

ブログ    
ブログ    
ブログ    

推薦する

5分間の技術講演 | GET3D生成モデルの簡単な分析

パート01●序文近年、MidjourneyやStable Diffusionに代表されるAI画像生成...

人工知能技術の助けを借りて、人々は携帯電話を通じて皮膚がんを診断できるようになるかもしれない

最近、「ネイチャー」誌は表紙に次のような記事を掲載した。「ディープラーニングアルゴリズムを使用して皮...

視覚と言語の多粒度の調整を学習しますか? Byte は、新しいマルチモーダル事前トレーニング方法 X-VLM を提案しました。コードがオープンソース化されました。

前面に書かれた視覚言語の事前トレーニングにより、多くの視覚言語タスクのパフォーマンスが向上します。し...

スタンフォードのAIエージェント研究が熱い! 「好奇心リプレイ」アルゴリズムにより、AIは自分自身を振り返り、積極的に新しい世界を探索することができる。

一夜にして、AI エージェントが突然インターネット全体を支配しました。業界のリーダーたちは、その焦点...

Transformerが3Dモデリングに革命を起こし、MeshGPT生成結果がプロのモデラーやネットユーザーに衝撃を与える:革命的なアイデア

コンピュータグラフィックスでは、「三角メッシュ」は 3D 幾何学的オブジェクトの主な表現であり、ゲー...

AIの冷却:ディープラーニングは万能薬ではない

[[202706]]近年、ディープラーニングはある程度の流行状態に入り、人々はこの技術を使ってあらゆ...

AI基礎データサービス市場は新たな段階に入った

データプライバシー保護規制が継続的に改善され、国がデータ要素市場を積極的に育成し、データ流通が継続的...

人工知能が農業市場に浸透:機械農業は従来の農家よりも優れている

山東省寿光市は中国の有名な野菜生産地です。そこには野菜温室がいくつあるのでしょうか? 機械で数えてみ...

賢くなる方法: 神経科学にヒントを得た人工知能

[[201067]]私はデイビッド・マーが「神経科学のチューリング」のような存在だといつも感じていま...

ネットワークにおける機械学習の実用的応用

各 Web アプリケーションには独自の機能とパフォーマンス パラメーターのセットがあり、これらは動的...

優れたオープンソース音声認識エンジン13選

自動音声認識 (ASR) は、人間とコンピュータの相互作用において重要な役割を果たし、転写、翻訳、デ...

AI人材の競争は軍拡競争となっている。AIの創造性競争に賭けるAI大手の中で、勝利のポイントを獲得するのはどれだろうか?

世界中の人工知能の人材が徐々に量産モードに入りつつあります。今年6月、百度と浙江大学は、潜在的な人工...

...

「本物の人間かどうか」を検証、AIが人間を攻撃! GPT-4は99.8%の精度でチューリングテストに合格し、オンラインで助けを求めた。

あなたは実在の人物ですか? Web ページを開いて奇妙な確認コードが表示されるたびに、それをクリック...