北京大学やテンセントなどが言語を使ってマルチモーダル情報を整合させるLanguageBindを提案し、複数のランキングを更新した。

北京大学やテンセントなどが言語を使ってマルチモーダル情報を整合させるLanguageBindを提案し、複数のランキングを更新した。

現代社会では、情報の伝達やコミュニケーションはもはや単一のモードに限定されなくなりました。私たちは、音、ビデオ、テキスト、深度マップなどのモーダル情報が絡み合って豊かな知覚体験を形成するマルチモーダルの世界に住んでいます。このようなマルチモーダルな情報相互作用は、人間社会におけるコミュニケーションに存在するだけでなく、機械が世界を理解するために直面​​しなければならない課題でもあります。

このマルチモーダルデータを人間のように機械が理解し処理できるようにする方法は、人工知能研究の分野における最先端の課題となっています。

過去 10 年間で、インターネットとスマート デバイスの普及により、ビデオ コンテンツの量は爆発的に増加しました。 YouTube、TikTok、Bilibiliなどの動画プラットフォームには、エンターテイメント、教育、ニュースレポート、個人の日記など、あらゆる側面を網羅した、何億人ものユーザーがアップロードして共有した動画コンテンツが集まっています。このような膨大な量のビデオデータは、人類に前例のない情報と知識を提供します。これらのビデオ理解タスクを解決するために、コンピューター ビジョンと自然言語処理を組み合わせたビデオ言語 (VL) 事前トレーニング手法が採用されています。これらのモデルは、ビデオのセマンティクスをキャプチャし、下流のタスクを解決することができます。

ただし、現在の VL 事前トレーニング方法は通常、視覚と言語のモダリティにのみ適用可能であり、実際のアプリケーション シナリオには、深度マップ、熱画像など、より多くのモダリティ情報が含まれることがよくあります。異なるモダリティからの情報を統合して分析し、複数のモダリティ間の正確な意味的対応を確立する方法は、マルチモーダル分野における新たな課題となっています。

この問題に対処するために、北京大学とテンセントの研究者は、新しいマルチモーダルアライメントフレームワークである LanguageBind を提案しました。画像を主要なモダリティとして頼る従来の方法とは異なり、LanguageBind は、マルチモーダル情報を調整するための結合として言語を採用します。

  • 論文アドレス: https://arxiv.org/pdf/2310.01852.pdf
  • GitHub アドレス: https://github.com/PKU-YuanGroup/LanguageBind
  • Huggingface アドレス: https://huggingface.co/LanguageBind

言語は、その固有の意味の豊かさと表現力により、他の様相情報を統合し、整合を図る能力を備えています。このフレームワークでは、言語はもはや視覚情報に付加される注釈や説明ではなく、視覚、音声、その他の様式を統合する中心的なチャネルになります。

LanguageBind は、すべてのモダリティの情報を統一された言語指向の埋め込み空間にマッピングすることで、異なるモダリティ間の意味的な整合を実現します。このアライメント方法は、画像仲介によって生じる可能性のある情報の損失を回避し、マルチモーダル情報処理の精度と効率を向上させます。さらに重要なことは、このアプローチにより将来の拡張に柔軟性が提供され、システム全体を再設計することなく新しいモダリティを簡単に追加できることです。

さらに、研究チームは、マルチモーダルデータペアを含む大規模データセットであるVIDAL-10Mデータセットを構築しました。

VIDAL-10M は、ビデオ音声、赤外線音声、深度音声、オーディオ音声の組み合わせをカバーし、さまざまなモダリティ間で情報が完全かつ一貫していることを保証します。このデータセットでトレーニングすることにより、LanguageBind は、ビデオ、オーディオ、深度、赤外線を含む 15 の幅広いベンチマークで優れたパフォーマンスを実現します。


方法の紹介

マルチモーダル情報処理の分野では、ImageBind などの主流のアライメント技術は、主に異なるモダリティ間の間接的なアライメントを実現するための橋渡しとして画像に依存しています。このアプローチでは、最初にターゲット モダリティから画像モダリティへ、次に画像モダリティから言語モダリティへという 2 段階の変換プロセスが必要になるため、他のモダリティと言語モダリティの調整においてパフォーマンスが最適にならない可能性があります。この間接的な調整により、変換プロセス中に意味情報が減衰し、最終的なパフォーマンスに影響する可能性があります。

この問題に対処するために、チームは LanguageBind と呼ばれるマルチモーダル意味アライメント事前トレーニング フレームワークを提案しました。このフレームワークは、媒体として画像に依存する従来のモデルを放棄し、代わりに言語モダリティを異なるモダリティ間のリンクとして直接利用します。言語モダリティは、その自然な意味の豊かさにより、視覚、音声、奥行きなどのモダリティを接続するための理想的な選択肢です。 LanguageBind フレームワークは、対照学習メカニズムを活用して、さまざまなモダリティからのデータを共通の意味埋め込み空間にマッピングします。この空間では、さまざまなモダリティからの情報が直接理解され、意味レベルで調整されます。

LanguageBindの概要

具体的には、LanguageBind は言語モダリティを固定し、一連の最適化された対照学習戦略を採用することで、マルチモーダル データを事前トレーニングします。このプロセスでは、モデルはさまざまなモダリティからのデータを言語モダリティと互換性のある表現にエンコードすることを学習し、モダリティ間の意味の一貫性を確保します。この直接的なクロスモーダルセマンティックアライメントにより、従来の方法でのパフォーマンスの低下を回避しながら、下流のマルチモーダルタスクにおけるモデルの一般化能力と適用性が向上します。

LanguageBind フレームワークのもう 1 つの利点は、その拡張性です。言語はコアアライメントモダリティとして直接使用されるため、新しいモダリティが導入されるときに、アライメントメカニズム全体を再構築する必要はありません。代わりに、新しいモダリティのデータは、同じ対照学習プロセスを通じて、確立された言語誘導埋め込み空間にマッピングできます。これにより、LanguageBind は既存のモダリティに適用できるだけでなく、将来登場する可能性のある新しいモダリティにも簡単に適応できるようになり、マルチモーダル事前トレーニング技術の開発のための強固な基盤が築かれます。

データセットの紹介

クロスモーダル事前トレーニングの分野では、データセットの構築と品質が事前トレーニング モデルのパフォーマンスとアプリケーションの有効性に決定的な影響を及ぼします。従来のマルチモーダル データセットは、主にバイモーダルまたはトリモーダルのペア データに制限されており、この制限により、より豊富なモダリティ アライメント データセットが求められています。

そのため、チームは、ビデオ言語 (VL)、赤外線言語 (IL)、深度言語 (DL)、音声言語 (AL) のデータ ペアを含む革新的なペンタモーダル データセットである VIDAL-10M データセットを開発しました。各データ ペアは品質が慎重に選別されており、クロスモーダル事前トレーニングの分野に高品質で完全性の高いトレーニング基盤を提供することを目指しています。


VIDAL-10Mデータセットの例

VIDAL-10M データセットの構築には、主に次の 3 つのステップが含まれます。

  1. 視覚関連検索用語ライブラリの構築。私たちは、ラベルやタイトルなど、さまざまな視覚タスク データセットからのテキスト情報を総合的に活用し、視覚的に豊かで多様なビデオ データセットを構築して、データの多様性とカバレッジを向上させる革新的な検索用語取得戦略を設計します。
  2. ビデオおよびオーディオ データの収集、クリーニング、スクリーニング: データ収集プロセスでは、テキスト、ビジュアル、オーディオ コンテンツに基づくさまざまなフィルタリング メカニズムを採用しました。これらのメカニズムにより、収集されたビデオおよびオーディオ データが検索用語と非常に関連性が高く、高品質の要件を満たすことが保証されました。このステップはデータセットの品質を確保するための重要なリンクであり、モデルトレーニングの効果と後続のタスクのパフォーマンスに直接影響します。
  3. 赤外線および深度モダリティデータの生成とマルチビューテキストの強化。この段階では、さまざまな高度な生成モデル技術を使用して赤外線および深度モーダル データを合成し、テキスト コンテンツが複数の角度から生成および強化されました。マルチビュー テキスト拡張には、タイトル、タグ、キーフレームの説明、ビデオの概要など、複数の次元が含まれます。ビデオ コンテンツの包括的かつ詳細な説明を提供し、データの意味の豊かさと説明の粒度を強化します。

VIDAL-10Mデータセットの構築プロセス

実験

LanguageBind フレームワークを複数のモダリティでのゼロショット分類タスクに適用し、そのパフォーマンスを他のモデルと比較します。実験結果によると、LanguageBind メソッドは、ビデオ、オーディオ、深度画像、熱画像などのマルチモーダル データに対する 15 のゼロショット分類および検索タスクで大幅なパフォーマンス向上を示しました。これらの実験結果は、特に学習するための以前のサンプルがない場合に、さまざまなモダリティからのデータを理解して処理する際の LanguageBind メソッドの可能性を強調しています。 LanguageBind メソッドのパフォーマンスをより深く理解するには、次の詳細な実験結果を参照してください。

表 2 は、わずか 300 万のビデオとテキストのペアを使用しているにもかかわらず、LanguageBind が MSR-VTT で VideoCoca や OmniVL よりも優れていることを示しています。

2つの古典的なデータセットMSR-VTTとMSVDでのゼロショットビデオテキスト検索の実験結果を表3に示します。

この研究では、この論文のモデルを、マルチモーダル理解タスクにおいて SOTA マルチモーダル事前トレーニング済みモデル OpenCLIP および ImageBind と比較しました。結果は表 4 に示されています。

表 5 は、Clotho データセットと Audiocaps データセットでのゼロショット テキスト音声検索パフォーマンスを比較したものです。

<<:  大手モデルは「チャートをブラッシュアップ」するために近道をとっているのでしょうか?データ汚染問題は注目に値する

>>:  大規模言語モデルの 7 つの一般的なネットワーク セキュリティ アプリケーション

ブログ    
ブログ    
ブログ    

推薦する

目の反射神経が 3D の世界を開き、ブラック ミラーを実現します。メリーランド州出身の中国人による新作がSFファンを熱狂させる

「唯一の真の発見の旅は、未知の土地を訪れることではなく、他人の目を通して宇宙を見ることだ。」 - マ...

自然言語処理におけるAIの未来を探る

自然言語処理 (NLP) 機能の向上により、認知機能と人間同士のやり取りが向上し、それが AI の将...

AIをベッド管理に適用し、追跡予測により患者にベッドの空きを確保

[[228998]]画像出典: Visual China医療分野はAIが進歩していく上で重要な方向で...

...

スマートコミュニティにおける人工知能応用の5つのシナリオ

モノのインターネット、クラウド コンピューティング、ビッグ データ、人工知能は、概念からアプリケーシ...

北京地下鉄は顔認識技術を使用して機密のセキュリティチェックを実施する予定

[[280913]] Jiwei.comニュース(文/Jimmy)によると、北京軌道交通指揮センター...

あなたのデータ戦略は GenAI に対応していますか?

AI、特に GenAI の急速な発展により、分析および IT リーダーには、データ戦略とデータ管理...

AR/VRが製造業の自動化とロボット工学の発展を促進する方法

この記事では、AR/VR テクノロジーがロボットにどのように貢献し、工場や産業にどのようなメリットを...

AI人材の世界的な需要が急増、一部の職種では年間40万ドル近くを稼ぐ

AI業界の急速な発展に伴い、テクノロジー業界におけるAI人材の需要も高まっています。 USA Tod...

顔認識はより便利で安全になるべきだ

[[348313]]ノースウェスタン工科大学の学生は顔をスキャンして図書館に出入りします。新華社通信...

インテル、コード名「NLP Architect」の自然言語処理用オープンソースライブラリを発表

[[230933]] 1年前に設立されたインテルAIラボは最近、新たな動きを見せている。数日前、In...

人工知能の時代でも様々な外国語を学ぶことは必要なのでしょうか?

[[254738]]文部科学省が公表した2017年度版の高等学校総合学習の計画と14項目の学習指導...

...

人工知能が再び大学入試に挑戦:AIはエッセイの書き手と比べて何点取れるのか?

今年も大学入試の季節がやってきました。現在、大学入試は受験生にとっての一大イベントであるだけでなく、...

米メディア予測:2021年の人工知能の4大トレンド

9月21日、米フォーブス隔週刊ウェブサイトは「2021年の人工知能の4大トレンド」と題するレポートを...