北京大学やテンセントなどが言語を使ってマルチモーダル情報を整合させるLanguageBindを提案し、複数のランキングを更新した。

北京大学やテンセントなどが言語を使ってマルチモーダル情報を整合させるLanguageBindを提案し、複数のランキングを更新した。

現代社会では、情報の伝達やコミュニケーションはもはや単一のモードに限定されなくなりました。私たちは、音、ビデオ、テキスト、深度マップなどのモーダル情報が絡み合って豊かな知覚体験を形成するマルチモーダルの世界に住んでいます。このようなマルチモーダルな情報相互作用は、人間社会におけるコミュニケーションに存在するだけでなく、機械が世界を理解するために直面​​しなければならない課題でもあります。

このマルチモーダルデータを人間のように機械が理解し処理できるようにする方法は、人工知能研究の分野における最先端の課題となっています。

過去 10 年間で、インターネットとスマート デバイスの普及により、ビデオ コンテンツの量は爆発的に増加しました。 YouTube、TikTok、Bilibiliなどの動画プラットフォームには、エンターテイメント、教育、ニュースレポート、個人の日記など、あらゆる側面を網羅した、何億人ものユーザーがアップロードして共有した動画コンテンツが集まっています。このような膨大な量のビデオデータは、人類に前例のない情報と知識を提供します。これらのビデオ理解タスクを解決するために、コンピューター ビジョンと自然言語処理を組み合わせたビデオ言語 (VL) 事前トレーニング手法が採用されています。これらのモデルは、ビデオのセマンティクスをキャプチャし、下流のタスクを解決することができます。

ただし、現在の VL 事前トレーニング方法は通常、視覚と言語のモダリティにのみ適用可能であり、実際のアプリケーション シナリオには、深度マップ、熱画像など、より多くのモダリティ情報が含まれることがよくあります。異なるモダリティからの情報を統合して分析し、複数のモダリティ間の正確な意味的対応を確立する方法は、マルチモーダル分野における新たな課題となっています。

この問題に対処するために、北京大学とテンセントの研究者は、新しいマルチモーダルアライメントフレームワークである LanguageBind を提案しました。画像を主要なモダリティとして頼る従来の方法とは異なり、LanguageBind は、マルチモーダル情報を調整するための結合として言語を採用します。

  • 論文アドレス: https://arxiv.org/pdf/2310.01852.pdf
  • GitHub アドレス: https://github.com/PKU-YuanGroup/LanguageBind
  • Huggingface アドレス: https://huggingface.co/LanguageBind

言語は、その固有の意味の豊かさと表現力により、他の様相情報を統合し、整合を図る能力を備えています。このフレームワークでは、言語はもはや視覚情報に付加される注釈や説明ではなく、視覚、音声、その他の様式を統合する中心的なチャネルになります。

LanguageBind は、すべてのモダリティの情報を統一された言語指向の埋め込み空間にマッピングすることで、異なるモダリティ間の意味的な整合を実現します。このアライメント方法は、画像仲介によって生じる可能性のある情報の損失を回避し、マルチモーダル情報処理の精度と効率を向上させます。さらに重要なことは、このアプローチにより将来の拡張に柔軟性が提供され、システム全体を再設計することなく新しいモダリティを簡単に追加できることです。

さらに、研究チームは、マルチモーダルデータペアを含む大規模データセットであるVIDAL-10Mデータセットを構築しました。

VIDAL-10M は、ビデオ音声、赤外線音声、深度音声、オーディオ音声の組み合わせをカバーし、さまざまなモダリティ間で情報が完全かつ一貫していることを保証します。このデータセットでトレーニングすることにより、LanguageBind は、ビデオ、オーディオ、深度、赤外線を含む 15 の幅広いベンチマークで優れたパフォーマンスを実現します。


方法の紹介

マルチモーダル情報処理の分野では、ImageBind などの主流のアライメント技術は、主に異なるモダリティ間の間接的なアライメントを実現するための橋渡しとして画像に依存しています。このアプローチでは、最初にターゲット モダリティから画像モダリティへ、次に画像モダリティから言語モダリティへという 2 段階の変換プロセスが必要になるため、他のモダリティと言語モダリティの調整においてパフォーマンスが最適にならない可能性があります。この間接的な調整により、変換プロセス中に意味情報が減衰し、最終的なパフォーマンスに影響する可能性があります。

この問題に対処するために、チームは LanguageBind と呼ばれるマルチモーダル意味アライメント事前トレーニング フレームワークを提案しました。このフレームワークは、媒体として画像に依存する従来のモデルを放棄し、代わりに言語モダリティを異なるモダリティ間のリンクとして直接利用します。言語モダリティは、その自然な意味の豊かさにより、視覚、音声、奥行きなどのモダリティを接続するための理想的な選択肢です。 LanguageBind フレームワークは、対照学習メカニズムを活用して、さまざまなモダリティからのデータを共通の意味埋め込み空間にマッピングします。この空間では、さまざまなモダリティからの情報が直接理解され、意味レベルで調整されます。

LanguageBindの概要

具体的には、LanguageBind は言語モダリティを固定し、一連の最適化された対照学習戦略を採用することで、マルチモーダル データを事前トレーニングします。このプロセスでは、モデルはさまざまなモダリティからのデータを言語モダリティと互換性のある表現にエンコードすることを学習し、モダリティ間の意味の一貫性を確保します。この直接的なクロスモーダルセマンティックアライメントにより、従来の方法でのパフォーマンスの低下を回避しながら、下流のマルチモーダルタスクにおけるモデルの一般化能力と適用性が向上します。

LanguageBind フレームワークのもう 1 つの利点は、その拡張性です。言語はコアアライメントモダリティとして直接使用されるため、新しいモダリティが導入されるときに、アライメントメカニズム全体を再構築する必要はありません。代わりに、新しいモダリティのデータは、同じ対照学習プロセスを通じて、確立された言語誘導埋め込み空間にマッピングできます。これにより、LanguageBind は既存のモダリティに適用できるだけでなく、将来登場する可能性のある新しいモダリティにも簡単に適応できるようになり、マルチモーダル事前トレーニング技術の開発のための強固な基盤が築かれます。

データセットの紹介

クロスモーダル事前トレーニングの分野では、データセットの構築と品質が事前トレーニング モデルのパフォーマンスとアプリケーションの有効性に決定的な影響を及ぼします。従来のマルチモーダル データセットは、主にバイモーダルまたはトリモーダルのペア データに制限されており、この制限により、より豊富なモダリティ アライメント データセットが求められています。

そのため、チームは、ビデオ言語 (VL)、赤外線言語 (IL)、深度言語 (DL)、音声言語 (AL) のデータ ペアを含む革新的なペンタモーダル データセットである VIDAL-10M データセットを開発しました。各データ ペアは品質が慎重に選別されており、クロスモーダル事前トレーニングの分野に高品質で完全性の高いトレーニング基盤を提供することを目指しています。


VIDAL-10Mデータセットの例

VIDAL-10M データセットの構築には、主に次の 3 つのステップが含まれます。

  1. 視覚関連検索用語ライブラリの構築。私たちは、ラベルやタイトルなど、さまざまな視覚タスク データセットからのテキスト情報を総合的に活用し、視覚的に豊かで多様なビデオ データセットを構築して、データの多様性とカバレッジを向上させる革新的な検索用語取得戦略を設計します。
  2. ビデオおよびオーディオ データの収集、クリーニング、スクリーニング: データ収集プロセスでは、テキスト、ビジュアル、オーディオ コンテンツに基づくさまざまなフィルタリング メカニズムを採用しました。これらのメカニズムにより、収集されたビデオおよびオーディオ データが検索用語と非常に関連性が高く、高品質の要件を満たすことが保証されました。このステップはデータセットの品質を確保するための重要なリンクであり、モデルトレーニングの効果と後続のタスクのパフォーマンスに直接影響します。
  3. 赤外線および深度モダリティデータの生成とマルチビューテキストの強化。この段階では、さまざまな高度な生成モデル技術を使用して赤外線および深度モーダル データを合成し、テキスト コンテンツが複数の角度から生成および強化されました。マルチビュー テキスト拡張には、タイトル、タグ、キーフレームの説明、ビデオの概要など、複数の次元が含まれます。ビデオ コンテンツの包括的かつ詳細な説明を提供し、データの意味の豊かさと説明の粒度を強化します。

VIDAL-10Mデータセットの構築プロセス

実験

LanguageBind フレームワークを複数のモダリティでのゼロショット分類タスクに適用し、そのパフォーマンスを他のモデルと比較します。実験結果によると、LanguageBind メソッドは、ビデオ、オーディオ、深度画像、熱画像などのマルチモーダル データに対する 15 のゼロショット分類および検索タスクで大幅なパフォーマンス向上を示しました。これらの実験結果は、特に学習するための以前のサンプルがない場合に、さまざまなモダリティからのデータを理解して処理する際の LanguageBind メソッドの可能性を強調しています。 LanguageBind メソッドのパフォーマンスをより深く理解するには、次の詳細な実験結果を参照してください。

表 2 は、わずか 300 万のビデオとテキストのペアを使用しているにもかかわらず、LanguageBind が MSR-VTT で VideoCoca や OmniVL よりも優れていることを示しています。

2つの古典的なデータセットMSR-VTTとMSVDでのゼロショットビデオテキスト検索の実験結果を表3に示します。

この研究では、この論文のモデルを、マルチモーダル理解タスクにおいて SOTA マルチモーダル事前トレーニング済みモデル OpenCLIP および ImageBind と比較しました。結果は表 4 に示されています。

表 5 は、Clotho データセットと Audiocaps データセットでのゼロショット テキスト音声検索パフォーマンスを比較したものです。

<<:  大手モデルは「チャートをブラッシュアップ」するために近道をとっているのでしょうか?データ汚染問題は注目に値する

>>:  大規模言語モデルの 7 つの一般的なネットワーク セキュリティ アプリケーション

推薦する

教師なし学習のための最も重要な12のアルゴリズムとその使用例

教師なし学習は、教師あり学習とは対照的に、もう 1 つの主流の機械学習方法です。教師なし学習では、デ...

人工知能がファッションデザインと生産を変革

人工知能とロボット工学がファッション業界に変化をもたらしています。市場分析からカスタムデザイン、無駄...

額をタップして入力できる。Googleエンジニアの「帽子型キーボード」は数え切れないほどのファンを魅了。自分で作ることもできる

キーボードと帽子を組み合わせたらどうなるでしょうか?冗談はさておき、Google 日本支社のエンジニ...

アクセンチュアが世界の主要12産業を分析、AIは2035年までに中国に7兆ドルの生産をもたらす

導入世界的に有名なコンサルティング会社であるアクセンチュアは最近、AI がもたらす産業革新がもたらす...

キャピタルグループ: ジェネレーティブAIの未来に向けてどう動員するか

キャピタル グループは、1931 年、大恐慌の真っ只中にカリフォルニア州ロサンゼルスで設立され、現在...

顔認識はどのようにして国民の個人情報を侵害するのでしょうか?犯罪者がアリペイを騙し取るために3D顔モデルを作成

[[360029]]記者 | 趙孟近年、顔認識技術の普及に伴い、国民の個人情報のセキュリティに関する...

パリのノートルダム大聖堂の火災後、文化遺産の修復に AI 技術をどのように応用できるでしょうか?

[[262791]]それを受け入れるかどうかは別として、突然の火災でノートルダム大聖堂は焼け落ちた...

...

ローカル AI: スマートフォン時代の低消費電力分析

人工知能にはボトルネック問題があります。これはディープ ニューラル ネットワークに基づいており、数億...

人工知能はソフトウェア開発のパラダイムを変えている

今日、多くのソフトウェア開発者は、コードの作成とレビュー、バグの検出、ソフトウェアのテスト、開発プロ...

Facebookは視覚障害者向けに写真の説明を改善するためにAIを活用

[[377490]]海外メディアの報道によると、フェイスブックは1月21日、視覚障害のあるユーザー向...

ARMベースの3DES暗号化アルゴリズムの実装(2)

ARMベースのハードウェア実装3DESアルゴリズムと一般的な組み込みアプリケーションの要件に応じて...

驚きですか、それともショックですか?機械学習アルゴリズムの「高エネルギー」な瞬間を評価する

編集者注: 「水は船を運ぶこともできるが、転覆させることもできる。」この古いことわざは、誰もが知って...

歴史上3大AI失敗事例を徹底解説

[51CTO.com クイック翻訳] 今日言及された事故のほとんどはAI自体と直接関係はありませんが...