北京大学やテンセントなどが言語を使ってマルチモーダル情報を整合させるLanguageBindを提案し、複数のランキングを更新した。

現代社会では、情報の伝達やコミュニケーションはもはや単一のモードに限定されなくなりました。私たちは、音、ビデオ、テキスト、深度マップなどのモーダル情報が絡み合って豊かな知覚体験を形成するマルチモーダルの世界に住んでいます。このようなマルチモーダルな情報相互作用は、人間社会におけるコミュニケーションに存在するだけでなく、機械が世界を理解するために直面しなければならない課題でもあります。

このマルチモーダルデータを人間のように機械が理解し処理できるようにする方法は、人工知能研究の分野における最先端の課題となっています。

過去 10 年間で、インターネットとスマートデバイスの普及により、ビデオコンテンツの量は爆発的に増加しました。 YouTube、TikTok、Bilibiliなどの動画プラットフォームには、エンターテイメント、教育、ニュースレポート、個人の日記など、あらゆる側面を網羅した、何億人ものユーザーがアップロードして共有した動画コンテンツが集まっています。このような膨大な量のビデオデータは、人類に前例のない情報と知識を提供します。これらのビデオ理解タスクを解決するために、コンピュータービジョンと自然言語処理を組み合わせたビデオ言語 (VL) 事前トレーニング手法が採用されています。これらのモデルは、ビデオのセマンティクスをキャプチャし、下流のタスクを解決することができます。

ただし、現在の VL 事前トレーニング方法は通常、視覚と言語のモダリティにのみ適用可能であり、実際のアプリケーションシナリオには、深度マップ、熱画像など、より多くのモダリティ情報が含まれることがよくあります。異なるモダリティからの情報を統合して分析し、複数のモダリティ間の正確な意味的対応を確立する方法は、マルチモーダル分野における新たな課題となっています。

この問題に対処するために、北京大学とテンセントの研究者は、新しいマルチモーダルアライメントフレームワークである LanguageBind を提案しました。画像を主要なモダリティとして頼る従来の方法とは異なり、LanguageBind は、マルチモーダル情報を調整するための結合として言語を採用します。

論文アドレス: https://arxiv.org/pdf/2310.01852.pdf
GitHub アドレス: https://github.com/PKU-YuanGroup/LanguageBind
Huggingface アドレス: https://huggingface.co/LanguageBind

言語は、その固有の意味の豊かさと表現力により、他の様相情報を統合し、整合を図る能力を備えています。このフレームワークでは、言語はもはや視覚情報に付加される注釈や説明ではなく、視覚、音声、その他の様式を統合する中心的なチャネルになります。

LanguageBind は、すべてのモダリティの情報を統一された言語指向の埋め込み空間にマッピングすることで、異なるモダリティ間の意味的な整合を実現します。このアライメント方法は、画像仲介によって生じる可能性のある情報の損失を回避し、マルチモーダル情報処理の精度と効率を向上させます。さらに重要なことは、このアプローチにより将来の拡張に柔軟性が提供され、システム全体を再設計することなく新しいモダリティを簡単に追加できることです。

さらに、研究チームは、マルチモーダルデータペアを含む大規模データセットであるVIDAL-10Mデータセットを構築しました。

VIDAL-10M は、ビデオ音声、赤外線音声、深度音声、オーディオ音声の組み合わせをカバーし、さまざまなモダリティ間で情報が完全かつ一貫していることを保証します。このデータセットでトレーニングすることにより、LanguageBind は、ビデオ、オーディオ、深度、赤外線を含む 15 の幅広いベンチマークで優れたパフォーマンスを実現します。

方法の紹介

マルチモーダル情報処理の分野では、ImageBind などの主流のアライメント技術は、主に異なるモダリティ間の間接的なアライメントを実現するための橋渡しとして画像に依存しています。このアプローチでは、最初にターゲットモダリティから画像モダリティへ、次に画像モダリティから言語モダリティへという 2 段階の変換プロセスが必要になるため、他のモダリティと言語モダリティの調整においてパフォーマンスが最適にならない可能性があります。この間接的な調整により、変換プロセス中に意味情報が減衰し、最終的なパフォーマンスに影響する可能性があります。

この問題に対処するために、チームは LanguageBind と呼ばれるマルチモーダル意味アライメント事前トレーニングフレームワークを提案しました。このフレームワークは、媒体として画像に依存する従来のモデルを放棄し、代わりに言語モダリティを異なるモダリティ間のリンクとして直接利用します。言語モダリティは、その自然な意味の豊かさにより、視覚、音声、奥行きなどのモダリティを接続するための理想的な選択肢です。 LanguageBind フレームワークは、対照学習メカニズムを活用して、さまざまなモダリティからのデータを共通の意味埋め込み空間にマッピングします。この空間では、さまざまなモダリティからの情報が直接理解され、意味レベルで調整されます。

LanguageBindの概要

具体的には、LanguageBind は言語モダリティを固定し、一連の最適化された対照学習戦略を採用することで、マルチモーダルデータを事前トレーニングします。このプロセスでは、モデルはさまざまなモダリティからのデータを言語モダリティと互換性のある表現にエンコードすることを学習し、モダリティ間の意味の一貫性を確保します。この直接的なクロスモーダルセマンティックアライメントにより、従来の方法でのパフォーマンスの低下を回避しながら、下流のマルチモーダルタスクにおけるモデルの一般化能力と適用性が向上します。

LanguageBind フレームワークのもう 1 つの利点は、その拡張性です。言語はコアアライメントモダリティとして直接使用されるため、新しいモダリティが導入されるときに、アライメントメカニズム全体を再構築する必要はありません。代わりに、新しいモダリティのデータは、同じ対照学習プロセスを通じて、確立された言語誘導埋め込み空間にマッピングできます。これにより、LanguageBind は既存のモダリティに適用できるだけでなく、将来登場する可能性のある新しいモダリティにも簡単に適応できるようになり、マルチモーダル事前トレーニング技術の開発のための強固な基盤が築かれます。

データセットの紹介

クロスモーダル事前トレーニングの分野では、データセットの構築と品質が事前トレーニングモデルのパフォーマンスとアプリケーションの有効性に決定的な影響を及ぼします。従来のマルチモーダルデータセットは、主にバイモーダルまたはトリモーダルのペアデータに制限されており、この制限により、より豊富なモダリティアライメントデータセットが求められています。

そのため、チームは、ビデオ言語 (VL)、赤外線言語 (IL)、深度言語 (DL)、音声言語 (AL) のデータペアを含む革新的なペンタモーダルデータセットである VIDAL-10M データセットを開発しました。各データペアは品質が慎重に選別されており、クロスモーダル事前トレーニングの分野に高品質で完全性の高いトレーニング基盤を提供することを目指しています。

VIDAL-10Mデータセットの例

VIDAL-10M データセットの構築には、主に次の 3 つのステップが含まれます。

視覚関連検索用語ライブラリの構築。私たちは、ラベルやタイトルなど、さまざまな視覚タスクデータセットからのテキスト情報を総合的に活用し、視覚的に豊かで多様なビデオデータセットを構築して、データの多様性とカバレッジを向上させる革新的な検索用語取得戦略を設計します。
ビデオおよびオーディオデータの収集、クリーニング、スクリーニング: データ収集プロセスでは、テキスト、ビジュアル、オーディオコンテンツに基づくさまざまなフィルタリングメカニズムを採用しました。これらのメカニズムにより、収集されたビデオおよびオーディオデータが検索用語と非常に関連性が高く、高品質の要件を満たすことが保証されました。このステップはデータセットの品質を確保するための重要なリンクであり、モデルトレーニングの効果と後続のタスクのパフォーマンスに直接影響します。
赤外線および深度モダリティデータの生成とマルチビューテキストの強化。この段階では、さまざまな高度な生成モデル技術を使用して赤外線および深度モーダルデータを合成し、テキストコンテンツが複数の角度から生成および強化されました。マルチビューテキスト拡張には、タイトル、タグ、キーフレームの説明、ビデオの概要など、複数の次元が含まれます。ビデオコンテンツの包括的かつ詳細な説明を提供し、データの意味の豊かさと説明の粒度を強化します。

VIDAL-10Mデータセットの構築プロセス

実験

LanguageBind フレームワークを複数のモダリティでのゼロショット分類タスクに適用し、そのパフォーマンスを他のモデルと比較します。実験結果によると、LanguageBind メソッドは、ビデオ、オーディオ、深度画像、熱画像などのマルチモーダルデータに対する 15 のゼロショット分類および検索タスクで大幅なパフォーマンス向上を示しました。これらの実験結果は、特に学習するための以前のサンプルがない場合に、さまざまなモダリティからのデータを理解して処理する際の LanguageBind メソッドの可能性を強調しています。 LanguageBind メソッドのパフォーマンスをより深く理解するには、次の詳細な実験結果を参照してください。

表 2 は、わずか 300 万のビデオとテキストのペアを使用しているにもかかわらず、LanguageBind が MSR-VTT で VideoCoca や OmniVL よりも優れていることを示しています。

2つの古典的なデータセットMSR-VTTとMSVDでのゼロショットビデオテキスト検索の実験結果を表3に示します。

この研究では、この論文のモデルを、マルチモーダル理解タスクにおいて SOTA マルチモーダル事前トレーニング済みモデル OpenCLIP および ImageBind と比較しました。結果は表 4 に示されています。

表 5 は、Clotho データセットと Audiocaps データセットでのゼロショットテキスト音声検索パフォーマンスを比較したものです。

<<: 大手モデルは「チャートをブラッシュアップ」するために近道をとっているのでしょうか?データ汚染問題は注目に値する

>>: 大規模言語モデルの 7 つの一般的なネットワークセキュリティアプリケーション