汎用人工知能 (AGI) に向けた多くの方向性の中で、マルチモーダル大規模モデル (MLLM) の開発は重要かつ人気のある道筋となっています。 GPT4 が画像やテキストの理解に与える影響により、マルチモーダル理解が学術的注目の的となっています。共感覚の時代は本当に来るのでしょうか? 人間は学習の過程で、テキストや画像だけでなく、音や動画などのさまざまな情報様式に触れ、同時に脳内でこれらの情報を処理して学習することが分かっています。 では、人工知能はマルチモーダル情報を均一に学習する人間の能力を持つことができるのでしょうか?実際、複数のモダリティ間の補完性は人工知能の学習能力を高めることができます。たとえば、CLIP の画像とテキストの統合学習は大きな成功を収めています。しかし、複数のモダリティ間の大きな違いと、既存のマルチモーダル モデルがペア データに依存していることから、普遍的なモダリティ認識を実現することは困難な課題です。 上記の課題に対処するため、香港中文大学マルチメディア研究所と上海人工知能研究所の研究チームは最近、統合マルチモーダル学習フレームワークであるMeta-Transformerを提案しました。これは新しい設計思想を採用し、非対データの統合学習を通じて12のモーダル情報を理解できます。 写真
Meta-Transformer は、バックボーン ネットワークの統一を実現し、モダリティ共有エンコーダーを備え、ペア データを必要とせず、12 種類のモダリティで 16 種類の異なる認識タスクを完了できます。この研究は、現在のマルチモーダル学習に強力なツールを提供するだけでなく、マルチモーダル分野に新たな設計アイデアをもたらします。 図1: 12種類の異なるモダリティを処理できるMeta-Transformerフレームワークによる統合マルチモーダル知覚 表 1: 既存の研究と比較して、Meta-Transformer は統合されたモダリティ共有エンコーダーを利用して、より多くのモダリティを処理し、マルチモーダル トレーニング中にペア データへの依存を排除できます。 次に、Meta-Transformer の革新性と貢献について詳しく見ていきましょう。 メタトランスフォーマー:無限の様相を導く知覚パラダイム1. 統一モダリティ共有エンコーダ 異なる画像およびテキスト エンコーダーを使用した以前の CLIP や、部分的に共有されるエンコーダー フレームワーク BEIT-3 と比較すると、Meta-Transformer のコア設計は、すべてのモダリティで完全に共有されるエンコーダーにあります。この設計では、エンコーダー レベルで最大 12 のモダリティを統合し、マルチモーダル データ用の完全に共有されたエンコーダーの実現可能性を実証します。共有エンコーダーは、エンコーダー段階で異なるネットワーク パラメーターによって導入される表現の違いを減らすのに役立ちます。これは、ユニバーサル ネットワーク構造があらゆるモダリティの情報を処理する、統合されたマルチモーダル知覚インテリジェンスの実現に一歩近づきます。 Meta-Transformer は、一般的なテキストや画像からオーディオやビデオまで、最大 12 種類のデータ形式を効果的に処理および学習でき、ポイント クラウドやハイパースペクトル データなどのより複雑なデータ タイプでも画期的な進歩を遂げています。このデザインは、将来のマルチモーダル作業のためのデザインアイデアを広げるのに役立ちます。 図2:Meta-Transformerフレームワーク図:異なるモダリティのデータに対して、研究者は異なるモダリティの情報特性に基づいて対応する特徴シーケンス構築方法を設計し、事前トレーニング後に得られた特徴シーケンスを固定パラメータとともにエンコーダーに入力します。抽出された表現は、複数のモダリティ上の複数の下流タスクを解決できます。 2. ペアデータは不要:より柔軟なトレーニング方法 現在の多くのモーダル作業は、2 つのモダリティを意味的に整合させるためにコンテンツがペアになったマルチモーダル データに依存していますが、複数のモダリティをペアにしたデータの収集と生成が非常に難しいため、現在のマルチモーダル作業は、より広範囲のデータ モダリティに拡張することが制限されています。この制限を軽減するために、この研究では、異なるモダリティの元のデータを共通のコーディングスペースに埋め込み、それらを対応するトークンシーケンスに変換し、統一されたモダリティ共有エンコーダーを使用してトークンシーケンスのエンコードを継続する Data2Seq 方式を提案しました。したがって、任意のモダリティのデータを使用して、Meta-Transformer をトレーニングし、対応するモダリティを認識できます。実験では、Meta-Transformer は、ペアデータのトレーニングが不足しているシナリオで優れたパフォーマンスを発揮できることが示されています。 3. より多くのモダリティ:モダリティの普遍的な認識に向けて 既存のマルチモーダル フレームワークは主に視覚と言語に重点を置いており、他のモダリティに拡張されることはほとんどありません。対照的に、Meta-Transformer は、テキスト、画像、ポイント クラウド、オーディオ、ビデオ、赤外線、ハイパースペクトル、X 線、表、グラフ、時系列、慣性測定装置 (IMU) データなど、12 種類の異なるデータ モダリティ用の統合学習フレームワークを提供します。この幅広いデータ モダリティのカバレッジにより、Meta-Transformer の適用範囲が大幅に拡大し、Meta-Transformer フレームワークには、より多くのモダリティに拡張するための容易なスケーラビリティ、低コスト、高いトレーニング効率などの利点があります。 Meta-Transformerメソッドの紹介Meta-Transformer は、さまざまなモダリティからのデータを統一された方法で処理し、共有エンコーダーを通じて 12 のモダリティのエンコードを完了します。この目標を達成するために、Meta-Transformer は、Data2Seq トークン化モジュール、統合共有エンコーディング モジュール、ダウンストリーム タスク学習モジュールの 3 つの部分で構成されています。 まず、研究者らは、マルチモーダル データを処理するためのコア ソリューションを提案しました。データのグループ化、ローカル セマンティクスを抽出するための畳み込み、セマンティクスの集約、空間マッピング、さまざまなモダリティのデータを同じ共有埋め込み空間内のトークン シーケンスに変換するというものです。 図 3: Data-to-Sequence 設計は、異なるモダリティのデータを同じ一般的な埋め込みスペース内のトークン シーケンスに効果的に変換でき、非常に強力なモダリティ スケーラビリティを備えています。 次に、Meta-Transformer は統合された共有エンコーダーを使用して、前のステップで取得したさまざまなモダリティのトークン シーケンスをエンコードします。研究者らは、LAION-2B データセットを使用してバックボーン ネットワークを事前トレーニングし、事前トレーニング後にモデル パラメータを固定しました。結果として得られた、深さ L の Transformer エンコーダーは、複数のスタックされたマルチヘッド セルフ アテンション (MSA) レイヤーと MLP ブロックで構成されます。入力トークンは最初に MSA レイヤーに入り、次に MLP ブロックに入ります。次に、(ℓ-1)番目のMLPブロックの出力がℓ番目のMSA層の入力として使用され、各層の前に層正規化(LN)が追加されます。 MLP は、2 つの線形 FC レイヤーと 1 つの GELU 非線形アクティベーション レイヤーで構成されます。 最後に、学習した表現を取得した後、研究者は、主に MLP で構成され、モダリティとタスクによって異なるタスク固有のヘッドに表現を入力します。 Meta-Transformerの学習目標は次のようにまとめられる。 このうちh(・)、g(・)、f(・)はそれぞれトークナイザー、モデルバックボーンネットワーク、下流タスクネットワークにおける演算プロセスを表す。 実験結果Meta-Transformer には豊富で優れた実験結果があります。以下の表 2 は、さまざまなモダリティにおける Meta-Transformer の実験内容を示しています。 Meta-Transformer は 12 のモダリティから表現情報を抽出し、異なるモダリティの 16 の下流タスクを効果的に処理でき、優れたパフォーマンスを発揮することがわかります。 表 2: Meta-Transformer は 12 のモダリティで 16 の知覚タスクを処理できます。 写真 図 3: Meta-Transforme は優れたマルチモーダル認識機能を備えています。テキスト、画像、ポイント クラウド、サウンド、赤外線、ハイパースペクトル、医療用 X 線画像理解タスクにおけるパフォーマンスは、既存のシングル モーダル SOTA モデルに近く、マルチモーダル理解機能では ImageBind を大幅に上回っています。 画像理解の場合: 下の表 3 に示すように、Meta-Transformer は、Swin Transformer シリーズや InternImage と比較して、画像理解タスクにおいて優れたパフォーマンスを発揮します。分類タスクでは、Meta-Transformer、Meta-Transformer-B16F、および Meta-Transformer-L14F がゼロショット分類で非常に優れたパフォーマンスを発揮し、それぞれ 69.3% と 75.3% に達しました。同時に、事前トレーニングパラメータを調整すると、Meta-Transformer-B16T と Meta-Transformer-L14T はそれぞれ 85.4% と 88.1% の精度を達成し、既存の最先端の方法を上回ります。 Meta-Transformer は、オブジェクト検出とセマンティックセグメンテーションでも優れたパフォーマンスを発揮し、画像理解における一般的な能力をさらに実証します。 表 3: Meta-Transformer の画像理解能力は、ImageNet-1K 画像分類、MS COCO オブジェクト検出、ADE-20K セマンティック セグメンテーションで評価されます。 ポイントクラウドを理解するには: 表4は、ポイントクラウドにおけるMeta-Transformerの実験結果を示しています。 2D データで事前トレーニングすると、Meta-Transformer は、わずか 0.6M のトレーニング可能なパラメータで ModelNet-40 で 93.6% の総合精度 (OA) を達成し、最高のパフォーマンスを誇るモデルに匹敵します。さらに、Meta-Transformer は ShapeNetPart データセットで優れたパフォーマンスを発揮し、わずか 230 万個のパラメータをトレーニングしただけで、インスタンス mIoU とカテゴリ mIoU の両方でそれぞれ 87.0% と 85.2% という最高の実験結果を達成しました。 Meta-Transformer はポイント クラウド理解タスクにおいて大きな利点を示し、より少ないトレーニング可能なパラメータで競争力のあるパフォーマンスを提供することがわかります。 表 4: Meta-Transformer のポイント クラウドを理解する能力は、ModelNet-40 形状分類、S3DIS 屋内シーン セグメンテーション、および ShapeNet パーツ オブジェクト セグメンテーション タスクで評価されます。 結論Meta-Transformer は、自然言語、2D 画像、3D ポイント クラウド、オーディオ、ビデオなど、複数のモダリティからの情報を処理および関連付けることができる統合マルチモーダル学習フレームワークです。これは、ペアになったトレーニング データのないシナリオでマルチモーダル認識を可能にし、12 のモダリティで統合学習を実行できる最初のフレームワークです。 Meta-Transformer は、大規模なマルチモーダル モデルをより多くのモダリティに一般化するのに役立ち、統合されたマルチモーダル インテリジェンスを実現するためのリファレンスも提供します。 Meta-Transformer のマルチモーダル知覚・理解機能は、社会全体にサービスを提供するインフラストラクチャとしての人工知能技術も提供し、教育、医療、エンターテインメントなどの分野でよりスマートで便利、かつ多様なサービスを提供します。 |
<<: Huggingfaceの機械学習科学者が、ホットなラマ2を特集する分析記事を執筆
>>: Llama 2を破り、GPT-3.5と競合するStability AIの新モデルがオープンソースの大規模モデルのリストでトップに
中国国家郵政局が2020年10月に郵便業界標準「ドローン速達サービス仕様」について通知したことを覚え...
[[428092]]現在、AI の大きなトレンドは何ですか?そうです、データセットのサイズを拡大し...
顔認識技術の応用を標準化するため、2023年8月8日、中国サイバースペース管理局が起草した「顔認識技...
COVID-19の流行が世界中の人々の生命と日常生活を脅かし続けている中、人々はこの病気の予防と治療...
[[415656]]謎のツイートにより、テスラが再び人気急上昇中だ。昨日、@Dennis Hong ...
[[382214]]編纂者:Qi Lubei編集者:陳彩仙機械学習の分野は非常にホットであり、新しい...
王鵬坤:過去半世紀、人類は人間のようにすべての問題を解決できる機械を発明していません。その代わりに、...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
GPT-4V のリリースにより、多くのコンピューター ビジョン (CV) アプリケーションに新たな可...
毎日地下鉄に乗るとき、トンネルを高速で走る列車の前方風景を見たことがありますか?11月13日、成都初...
テスラは6月22日、@Tesla AIというTwitterアカウントを作成し、「テスラは自律型ロボッ...