言語は「絆」であり、イメージバインドを超えて、さまざまなモードでパンチとキックを行う

言語は「絆」であり、イメージバインドを超えて、さまざまなモードでパンチとキックを行う

北京大学とテンセントがマルチモーダル15角形の戦士を制作しました!

言語を中心に据えて、ビデオ、オーディオ、奥行き、赤外線認識などのモダリティを「パンチとキック」で攻撃します。

具体的には、研究者らはLanguageBindと呼ばれるマルチモーダル事前トレーニング フレームワークを提案しました。

言語を他のモダリティとのリンクとして使用して、言語エンコーダーを固定し、対照学習方法を使用して各モダリティを共有機能空間にマッピングし、マルチモーダル データの意味的な調整を実現します。

この方法を使用することで、モデルは 5 つのデータセットで新しい SOTA パフォーマンスを達成し、15 のゼロショット検索タスクで大幅なパフォーマンス向上を実現し、あらゆる面で ImageBind と OpenCLIP を上回りました。

各モードを言語にバインドする

LanguageBind は 3 つの部分で構成されています。

マルチモーダルエンコーダー言語エンコーダー、およびマルチモーダル共同学習

まず、マルチモーダルエンコーダー部分を見てみましょう。

言語以外のモダリティについては、研究者らはパッチサイズが 14 の 24 層、1024 次元の視覚トランスフォーマーを使用しました。エンコーダーは OpenCLIP-large から初期化されます。

深度赤外線は RGB 画像として扱われ、RGB 画像に合わせてチャネル次元で 3 回複製されます。

ImageBind に従って、オーディオデータは繰り返しとパディングを含む 10 秒間 (128 メル ビン) のスペクトログラムに変換されます。

  • パッチマスキング

エンコーダー内のすべてのトークンを処理することの非効率性を解決するために、研究者は画像をパッチに分割し、MAE 法に従ってマスクを通じて画像シーケンスの小さな部分を取得しました。

  • LoRAの微調整

同時に、微調整を加速するために LoRA テクノロジーが使用されます。重み行列 W0∈Rd×k を持つモーダルエンコーダの場合、新しい重み行列 BA を学習するときに重み行列 W0 は変更されません。

  • モダリティの拡張

LanguageBind メソッドを複数 (N) のモダリティに拡張する最初のステップは、データをトークンのシーケンスに処理することです。その後、OpenCLIP からパラメータが初期化されます。次に、言語エンコーダーを固定したまま、トークン マスキングと LoRA の微調整によって、さまざまなモダリティのエンコーダーがトレーニングされます。最後に、モダリティは言語機能空間に合わせて調整されます。

言語エンコーダーとマルチモーダル共同学習の部分を見てみましょう。

言語エンコーダーの場合、研究者は OpenCLIP から初期化された 768 次元の 12 層トランスフォーマー モデルを使用しました。

与えられたテキストに対して、まず BPE トークナイザーを使用して単語を比較的一般的なサブワードに分割します。各サブワードは、単語埋め込みレイヤーに埋め込まれた一意のトークンに対応します。最後に、これらのトークンは言語エンコーダーによってエンコードされ、テキスト ペアが取得されます。

ここで、L はシーケンスの長さを表します。異なる様式間の整合性を保証するために、研究者は対照学習原理を採用しました。

このアプローチの目的は、ペアになっているデータの類似性を高めて同じ意味空間に近づけると同時に、ペアになっていないデータの類似性を減らすことです。研究者たちは対照学習を利用して、さまざまな様相を言語に結び付けました。

高品質なデータセットの構築

さらに、研究者らは「VIDAL-10M」と呼ばれる高品質のデータセットも作成しました。これには、ビデオ言語、赤外線言語、深度言語、音声言語が揃った1,000 万のデータ ペアが含まれています。これは、深度と赤外線のモダリティを備えた初の大規模なビデオ マルチモーダル データセットです。

データセットの構築方法は次のとおりです。

△VIDAL-10M 構造フレーム

最初のステップは、検索用語データベースを生成することです。このプロセスで、研究者は、ラベルやタイトルを含むさまざまな視覚タスクデータセットからのテキストデータを活用して、豊富な視覚的概念と多様性を備えたビデオデータセットを構築する独自の検索用語取得戦略を設計しました。

2 番目のステップは、インターネットから関連するビデオとオーディオを収集し、一連のフィルタリング プロセスを実行して、データ セットの品質と正確性を確保することです。

このプロセス中、研究者は、テキストベースのフィルタリング、ビジュアルベースのフィルタリング、オーディオベースのフィルタリングなど、さまざまなフィルタリング方法を使用して、データセット内のビデオとオーディオが検索用語に関連しており、高品質であることを確認しました。

3 番目のステップでは、赤外線および深度モダリティの生成、およびマルチビュー テキストの生成と強化を実行します。

空間情報の強化に関しては、研究者らは OFA モデルを使用して複数のキーフレーム記述を生成し、ビデオ コンテンツの空間表現品質を向上させました。

同時に、時間情報の強化に関しては、ビデオ コンテンツ、タイトル、ハッシュタグ タグが mPLUG-owl モデルに入力され、より洗練された豊富な時間次元の説明が得られます。

最後に、研究者は ChatGPT モデルを使用して、テキストの説明をさらに改良し、強化しました。

要約すると、マルチビュー テキスト拡張機能は、タイトル、タグ、キーフレームの説明、ビデオの説明などの複数のコンポーネントをカバーし、ビデオ コンテンツの包括的かつ詳細な説明を提供します。

複数のテストでSOTAを達成

テスト段階では、多数の実験により VIDAL-10M データセットと LanguageBind メソッドの有効性が検証され、ビデオ、オーディオ、その他のモーダル理解タスクで優れたパフォーマンスが達成されました。

LanguageBind は 4 つのデータセットすべてで SOTA パフォーマンスを達成します。

これは、MSR-VTT 上の InterVideo 方式よりも 1.9% 高く、MSVD 上の InterVideo よりも 8.8% 高く、DiDeMo 上の InterVideo よりも 6.3% 高く、ActivityNet 上の InterVideo よりも 4.4% 高くなります。

InterVideo がより広範囲のトレーニング データを使用していることは注目に値します。これは LanguageBind の有効性を示しています。

△ゼロショット動画テキスト検索結果

ビデオ言語、赤外線言語、深度言語、音声言語のゼロショット分類は、すべてのデータセットで ImageBind や OpenCLIP よりも精度が優れています。

Zero-Shot 音声言語検索も優れたパフォーマンスを発揮します。

論文リンク: https://arxiv.org/pdf/2310.01852.pdf

<<:  総合異常検知の新たな夜明け:華中科技大学などがGPT-4Vの総合異常検知性能を明らかに

>>:  Google DeepMindがAGIをランク付け、ChatGPTのランクはどこになるか推測してください

ブログ    

推薦する

電子犬は無残に捨てられたので、VRヘッドセットを装着して古い友達を探しました!メタはメタバースの感情カードを切る

メタはメタバースの「感情カード」をプレイしました。彼は達人だと言わざるを得ません!ぬいぐるみ犬のメタ...

Kingsoft WPS Office 2019 正式リリース: Word、Excel、PPT を 1 つのソフトウェアで操作

7月3日、キングソフトは北京オリンピックタワーで「シンプル・クリエイティブ・シンプルではない」をテー...

大量データストリームのベストプラクティス

概要: 膨大な量のデータを効率的に分析するために、科学者はまず大量の数字を細分化する必要があります。...

GPT-4/Gemini は惨敗、旅行ガイド作成の成功率は ≈ 0% です!復旦大学OSUと他の中国チーム:エージェントは複雑なタスクを計画できない

AI エージェントは現在、学界で注目の話題であり、多くの専門家によって大規模モデルの開発における次の...

AIがスタートアップの成功にどのように役立つか

人工知能は現在、あらゆる規模のビジネスの運営方法に大きな影響を与えています。スタートアップ企業も A...

企業が生産性向上のためにAIを活用しようとする中、最高AI責任者の必要性が高まっている。

Foundry の 2023 年 AI 優先事項調査では、組織内で AI および AIGC テクノ...

...

...

人工知能と機械学習における13の共通概念

[[422893]] 01 人工知能アラン・チューリングは人工知能を次のように定義しました。カーテン...

...

皆を置き去りにする!紅河の人工知能交通違反画像処理プラットフォームが市場にデビュー

社会の生産性の向上は現代交通の進歩を牽引していますが、現代交通がもたらす大きな利便性を享受する一方で...

工業情報化部:我が国のAIコア産業規模は5000億元に達し、2,500以上のデジタルワークショップとスマートファクトリーが建設されました

2023年中国(太原)人工知能会議が本日、山西省太原で開幕しました。中国工業情報化部科学技術部の任愛...

OpenAIの創設者サム・アルトマンが解雇されてから24時間後

ChatGPTを開発するOpenAIは金曜日、CEO兼創設者のサム・アルトマン氏を解雇したが、彼の突...

シスコが新たな調査レポートを発表:企業はAIの準備に大きなギャップを抱えている

ニュースハイライト:中国企業の98%は、過去6か月間にAI技術導入の緊急性が高まったと回答した。戦略...