Meta-Transformer: マルチモーダル学習のための統一フレームワーク

Meta-Transformer: マルチモーダル学習のための統一フレームワーク

Meta-Transformer は、自然言語、画像、ポイント クラウド、オーディオ、ビデオ、時系列、表形式データなど、複数のモダリティからの情報を処理して関連付けるために使用される、マルチモーダル学習用の新しいフレームワークです。さまざまなデータ間には固有のギャップがありますが、Meta-Transformer は、ペアのマルチモーダル トレーニング データを必要とせずに、共有ラベル空間内の入力データから高レベルの意味的特徴を抽出し、固定エンコーダーを使用します。このフレームワークは、統合データ ラベラー、モード共有エンコーダー、およびさまざまな下流タスクのタスク ヘッドで構成されています。これは、異なるモダリティ間でペアになっていないデータを使用して統合学習を実行する最初の取り組みです。実験では、基本的な認識から実用的なアプリケーションやデータマイニングまで、幅広いタスクを処理できることが示されています。

メタトランスフォーマー

データをシーケンスにトークン化する

研究者らは、さまざまなモダリティ(テキスト、画像、ポイントクラウド、音声など)のデータを共有空間内のラベル付き埋め込みに変換するメタトークン化スキームを提案した。

自然言語については、30,000 トークンの語彙を備えた WordPiece 埋め込みを使用しました。これは、単語をサブワードに分割し、各入力テキストをトークン埋め込みのセットに変換します。

画像の場合、画像を一連の平坦な 2D パッチに再形成し、投影レイヤーを使用して埋め込み次元を投影します。この操作は赤外線画像にも使用できますが、線形投影はハイパースペクトル画像に使用されます。彼らはビデオ認識のために 2D 畳み込み層を 3D 畳み込みに置き換えました。

ポイント クラウドの場合、Farthest Point Sampling (FPS) 操作を使用して、元のポイント クラウドを元の入力空間からラベル付き埋め込み空間に変換し、元のポイント クラウドの代表的なスケルトンを固定サンプリング比でサンプリングします。次に、k 近傍法 (KNN) を使用して隣接するポイントをグループ化し、隣接行列を構築して 3D オブジェクトとシーンの構造情報を取得します。

オーディオ スペクトログラムの場合、オーディオ波形はメル フィルター バンクとハミング ウィンドウを使用して前処理され、波形が間隔に分割されます。次に、スペクトログラムは時間と周波数の次元からパッチに分割され、ラベル付きシーケンスに平坦化されます。

統合エンコーダ

研究者らは、さまざまなモダリティからの生の入力をトークン埋め込みに変換した後、固定パラメータを持つ統合トランスフォーマー エンコーダーを使用してこれらのトークンをエンコードしました。 ViT モデルに基づくエンコーダーは、LAION-2B データセットでの対照学習を使用して事前トレーニングされており、エンコーダーのユニバーサル タグ エンコーディング機能が向上しています。テキスト理解のために、彼らは CLIP の事前トレーニング済みのテキスト タガーを使用して、文章をサブワードに変換し、さらに単語埋め込みに変換しました。

論文では、著者らは、学習可能なマーカー (xCLS) がトークン埋め込みシーケンスの先頭に追加される「モダリティに依存しない学習」について言及しています。このトークンの最終的な隠し状態は、入力シーケンスの要約表現として機能し、認識タスクでよく使用されます。位置埋め込みもタグ埋め込みに追加されます。

Transformer エンコーダーは、複数のスタックされたマルチヘッド自己注意レイヤーと MLP ブロックで構成され、これらの埋め込みシーケンスを処理します。著者らは、より複雑な 2D 認識位置埋め込みを追加しても、画像認識のパフォーマンスが大幅に向上しないことを示しています。

実験結果

Meta-Transformer モデルは、他の最先端の方法よりも優れているとは限りませんが、さまざまな言語および画像理解タスクで有望な結果を示しています。

GLUE ベンチマークのテキスト理解タスクでは、Meta-Transformer は感情、言い換え、コピー、推論、回答のタスクで比較的高いスコアを獲得しています。 BERT、RoBERTa、ChatGPT などのモデルほど優れたパフォーマンスは得られませんが、特に微調整後は自然言語の理解において新たな可能性を示しています。

画像理解タスクでは、Meta-Transformer は、Swin Transformer シリーズや interimage などのモデルよりもいくつかの点で優れています。 CLIP テキスト エンコーダーと組み合わせると、ゼロショット分類で強力な結果が得られます。また、オブジェクト検出やセマンティックセグメンテーションのタスクでも他のモデルよりも優れており、画像理解におけるその能力を示しています。

Meta-Transformer は、それぞれ RegDB データセットと Indian Pine データセットでテストされ、赤外線およびハイパースペクトル画像認識タスクの処理にも効果的であることが示されています。 Meta-Transformer はリーダーボードのトップにはなれなかったものの、その結果は印象的で、赤外線画像やハイパースペクトル画像に関連する課題を処理する上での潜在能力を示しています。

X線画像処理においては、Meta-Transformerは94.1%のパフォーマンスを達成し、医療画像解析における有用性を実証しました。

ポイント クラウド理解タスクでは、Meta-Transformer は、トレーニング可能なパラメーターが少ない ModelNet-40、S3DIS、および ShapeNetPart データセット上の他のモデルと比較して、より高い精度スコアを達成し、この分野での効率性を強調しています。

音声認識タスクでは、Meta-Transformer は AST や SSAST などの既存の音声 Transformer モデルと競合し、パラメータを調整する際に 97.0% という高い精度を達成しました。 AST のパフォーマンスは良好ですが、AST のようなモデルにはトレーニング可能なパラメーターがさらに多くあります。

UCF101 データセットでテストされたビデオ理解タスクでは、Meta-Transformer は精度の点で他の最先端の方法よりも優れていませんでした。しかし、トレーニング可能なパラメータが大幅に少ないことが特徴で、統合されたマルチモーダル学習とアーキテクチャの複雑さの低減による潜在的な利点を示唆しています。

時系列予測タスクでは、Meta-Transformer は、ETTh1、交通、天気、Exchange データセットなどのベンチマークで既存のいくつかの方法よりも優れたパフォーマンスを発揮しますが、必要なトレーニング可能なパラメータは非常に少なくなります。

表形式データ理解タスクでは、Meta-Transformer は成人国勢調査および銀行マーケティング データセットで優れたパフォーマンスを発揮します。このモデルは銀行のマーケティング データセットで他のモデルよりも優れており、複雑なデータセットを理解する能力を示しています。

PCQM4M-LSC データセットのグラフ理解タスクでは、現在の Meta-Transformer アーキテクチャは構造データの学習において優れたパフォーマンスを発揮しません。Graphhormer モデルはそれよりも優れたパフォーマンスを発揮しますが、この分野ではまだ改善の余地があります。

Ego4D データセットの分類タスクでは、Meta-Transformer は 73.9% の精度を達成しました。全体として、これらの調査結果は、さまざまな領域における Meta-Transformer の汎用性と有効性を浮き彫りにしています。

上記の結果はすべて、Meta-Transformer のパラメータが少なく、より効率的なモデルであることを示しています。主な制限の 1 つは、計算の複雑さが O(n² x D) であることです。

<<:  フロンティアモデルフォーラムは責任あるAIの創造を目指している

>>:  MITの中国人博士課程学生がChatGPTをJupyterに移行し、自然言語プログラミングをワンストップソリューションに

ブログ    
ブログ    

推薦する

PillarNeSt: Pillar ベースの 3D オブジェクト検出のパフォーマンスをさらに向上させるにはどうすればよいでしょうか?

著者の個人的な理解に基づいて書かれた現在、自動運転の分野では、点群データを収集するためのLIDARセ...

...

産業用AIoTが「新たな人気」となった4つの主な要因

最近発表された産業用人工知能および人工知能市場レポート 2021-2026 のデータによると、わずか...

機械学習の問題を解決する一般的な方法があります!この記事を1つだけ読んでみてください!

[[205485]]アビシェーク・タクル編集者: Cathy、Huang Wenchang、Jia...

LVS セットアップノート: 負荷分散アルゴリズム

先ほど、負荷分散を完了するための最初のステップである Linux LVS インストール プロセスを紹...

新世代のAIがディープラーニングの問題を解決する

では、新世代の人工知能とは何でしょうか? 知能とは、学習する能力と問題を解決する能力です。学習は問題...

アメリカ人教授がAI会議での不正行為を暴露:著者は査読者と共謀し、ゴミ論文も査読を通過

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

1 つの記事でポイント クラウドと自動車用 LiDAR の開発を理解しましょう。

01 車載レーザーレーダーのレーザー点群ポイントクラウド技術により、LIDAR イメージングは​​...

AIとディープラーニングはもはやハイエンドのビデオ監視アプリケーションに限定されたものではない

[[408248]]最近、ディープラーニング AI を活用したビデオ監視プロジェクトに携わったことが...

F5、AI時代のアプリケーションセキュリティの新たな革命をリード

サンノゼ — 2024年2月20日— F5(NASDAQ: FFIV)は先日、アプリケーションセキュ...

ロードバランサーのアルゴリズムと原理を探る

負荷分散アルゴリズムの種類を分析した後、動的負荷分散について紹介します。この概念は主にロードバランサ...

Chen Danqi 氏のグループによるマスク言語モデルに関する研究: 15% のマスク率は最適ではないが、40% は維持可能か?

少し前に、スローン財団は2022年度スローン研究賞の受賞者を発表しました。Chen Danqi、Fa...

AI.com ドメインが ChatGPT から X.ai にリダイレクトされました

AI.com ドメイン名は、もともと今年 2 月に OpenAI によって購入され、ChatGPT ...

生成的敵対ネットワーク (GAN) の未解決の 7 つの謎

いくつかの指標によれば、生成的敵対的ネットワーク (GAN) の研究は過去 2 年間で大きな進歩を遂...

スマート物流が一般的なトレンドであり、ロボット、ドローン、5Gの価値が強調されている

近年、電子商取引経済の急速な発展と人々の生活水準の継続的な向上により、物流の需要が急増していますが、...