ペアデータなしで学習!浙江大学らは、マルチモーダルコントラスト表現C-MCRの接続を提案した。

ペアデータなしで学習!浙江大学らは、マルチモーダルコントラスト表現C-MCRの接続を提案した。

マルチモーダル対照表現 (MCR) の目標は、異なるモダリティからの入力を意味的に整合された共有空間にエンコードすることです。

視覚言語分野での CLIP モデルの大成功により、さまざまなモダリティでのより対照的な表現が登場し始め、多くの下流タスクで大幅に改善されました。ただし、これらの方法は、大規模で高品質のペアデータに大きく依存しています。

この問題を解決するために、浙江大学などの研究者は、ペアデータを必要とせず、トレーニングが非常に効率的なマルチモーダル対照表現学習法である Connected Multimodal Contrastive Representation (C-MCR) を提案しました。

論文アドレス: https://arxiv.org/abs/2305.14381

プロジェクトホームページ: https://c-mcr.github.io/C-MCR/

モデルとコードのアドレス: https://github.com/MCR-PEFT/C-MCR

この方法は、ペアデータを使用せずに、ハブモダリティを介してさまざまな事前トレーニング済みの対照表現を接続します。強力なオーディオビジュアルおよび 3D ポイントクラウドテキスト表現を学習し、オーディオビジュアル検索、音源定位、3D オブジェクト分類などの複数のタスクで SOTA 結果を達成しました。

導入

マルチモーダル対照表現 (MCR) は、さまざまなモダリティからのデータを統一された意味空間にマッピングすることを目的としています。視覚言語分野における CLIP の大きな成功により、より多くのモーダルの組み合わせ間の対照的な表現を学習することが注目される研究トピックとなり、ますます注目を集めています。

しかし、既存のマルチモーダル対照表現の一般化能力は、主に大量の高品質データペアから恩恵を受けています。これにより、大規模で高品質なデータが不足しているモダリティでの対照的な表現の開発が著しく制限されます。たとえば、音声データと映像データのペア間の意味的相関関係はあいまいな場合が多く、3D ポイント クラウドとテキスト間のペア データは少なく、入手が困難です。

しかし、ペアデータが不足しているこれらのモダリティの組み合わせには、同じ中間モダリティを持つ高品質のペアデータが大量に存在することがよくあります。例えば、オーディオビジュアル分野では、オーディオビジュアルデータの品質は信頼できないものの、オーディオテキストとテキストビジョンのペアデータは高品質で大量に存在します。

同様に、3D ポイント クラウドとテキストのペアリング データの可用性は限られていますが、3D ポイント クラウドと画像、および画像とテキストのデータは豊富です。これらのハブ モダリティは、モード間のさらなる接続を確立するためのリンクとして機能します。

大量のペアデータを持つモダリティには、事前トレーニング済みの対照表現がすでに備わっていることが多いことを考慮して、本論文では、ハブモダリティを介して異なるモダリティ間の対照表現を直接接続し、ペアデータが不足しているモダリティの組み合わせに対して新しい対照表現空間を構築することを試みます。

接続されたマルチモーダル対照表現 (C-MCR) は、重複するモダリティを通じて多数の既存のマルチモーダル対照表現の接続を構築し、より広範囲のモダリティ間のアライメント関係を学習することができます。その中で、学習プロセスはペアデータを必要とせず、非常に効率的です。

C-MCR には 2 つの重要な利点があります。

1. 柔軟性:

C-MCR は、直接的なペアリングが欠如しているモダリティの対照的な表現を学習できます。別の観点から見ると、C-MCR は、既存の各マルチモーダル対照表現空間をノードと見なし、異なる表現空間の重複モードをハブ モードと見なします。

分離されたマルチモーダル対照表現を接続することで、取得したマルチモーダルアライメント知識を柔軟に拡張し、より広範囲のモダリティにわたって対照表現をマイニングすることができます。

2. 高効率:

C-MCR は既存の表現空間の接続を構築するだけでよいため、2 つの単純なマッパーを学習するだけで済み、トレーニング パラメーターとトレーニング コストは非常に低くなります。

この実験では、テキストをハブとして使用し、視覚テキスト (CLIP) とテキスト音声 (CLAP) の対照表現空間を接続して、高品質の視覚音声表現を取得します。

同様に、画像リンクテキストビジョン (CLIP) とビジョン 3D ポイント クラウド (ULIP) のコントラスト表現空間を使用することで、3D ポイント クラウド テキスト コントラスト表現のセットも取得できます。

方法

図1(a)は、C-MCRのアルゴリズムフローを示しています(CLIPとCLAPを接続するためのテキストの使用を例にしています)。

テキスト (重複モダリティ) データは、それぞれ CLIP と CLAP のテキスト エンコーダーによってテキスト機能にエンコードされます。

同時に、大量の非対単一モーダルデータも CLIP 空間と CLAP 空間にエンコードされ、それぞれ画像メモリと音声メモリを形成します。

1. 機能セマンティック強化

まず、より堅牢で包括的な空間接続を実現するために、意味の一貫性と意味の完全性の観点から表現内の意味情報を強化することを提案します。

モダリティ間の意味的一貫性

CLIP と CLAP は、それぞれ信頼性の高い画像とテキスト、およびテキストと音声の表現を学習しました。

私たちは、CLIP と CLAP のこの固有のモダリティの調整を利用して、i 番目のテキストと意味的に一致する画像と音声の特徴を生成し、それによって対照的な表現空間におけるモダリティのギャップをより適切に定量化し、重複しないモダリティ間の相関関係をより直接的にマイニングします。

モーダル内意味的整合性

異なる表現空間ではデータの意味表現の傾向が異なるため、異なる空間内の同じテキストには必然的に意味の逸脱や損失が生じます。このような意味的バイアスは、表現空間を接続するときに蓄積され、増幅されます。

各表現の意味的整合性を高めるために、表現に平均ゼロのガウスノイズを追加し、単位超球に再正規化することを提案します。

図1(c)に示すように、コントラスト表現空間では、各表現は単位超球面上の点を表現していると見ることができます。ガウスノイズを追加して正規化すると、表現は単位球面上の円を表すようになります。

2 つの特徴間の空間距離が近いほど、意味上の類似性が高くなります。したがって、円内の特徴は同様のセマンティクスを持ち、円が表現できるセマンティクスはより完全になります。

2. MCR間の調整

表現の意味的拡張を完了した後、CLIP 表現と CLAP 表現をそれぞれ新しい共有空間に再マッピングするための 2 つのマッパーを学習します。

新しい空間では、異なる空間からの意味的に類似した表現が互いに近いことを保証する必要があります。

同じテキストから( )は当然意味的に一貫しており、真のラベルペアとみなすことができ、( ) の( )は擬似ラベルペアとみなすことができます。

)ですが、そこから学習した接続は、聴覚と視覚にとっては間接的です。 そして( ) ペアは信頼性は低いものの、オーディオビジュアル表現にはより直接的に有益です。

対照的な2つの表現空間をより完全に接続するために、( ) そして( ):

3. MCR内の調整

空間間のつながりに加えて、対照的な表現空間内でもモダリティギャップ現象が存在します。つまり、対照的表現空間では、異なるモダリティの表現は意味的には一致しているものの、完全に異なるサブスペースに分散されています。これは、( ) 学習されたより安定した接続は、オーディオビジュアルによって適切に継承されない可能性があります。

この問題に対処するために、対照的な表現空間にわたって異なるモダリティの表現を再調整することを提案します。具体的には、対照損失関数の負の例の拒否構造を削除して、モダリティギャップを削減するための損失関数を導出します。典型的なコントラスト損失関数は次のように表されます。

負のペアの拒否項を削除すると、最終的な式は次のように簡略化されます。

実験

実験的には、テキストを使用してオーディオテキスト空間 (CLAP) とテキストビジュアル空間 (CLIP) を接続することでオーディオビジュアル表現を取得し、画像を使用して 3D ポイントクラウドイメージ空間 (ULIP) とイメージテキスト空間 (CLIP) を接続することで 3D ポイントクラウドテキスト表現を取得します。

AVE と Flickr-SoundNet でのゼロショット音声画像検索の結果は次のとおりです。

MUSIC-SoloとVGGSSでのゼロショット音源定位結果は次のとおりです。

Ex-VGGSS と Ex-FlickrNet でのゼロショット反事実的音声画像認識の結果は次のとおりです。

ModelNet40 でのゼロショット 3D ポイント クラウド分類結果は次のとおりです。

<<:  効果はSDXLを超える!香港中文大学の博士課程学生が3億4000万枚の画像でトレーニングした超リアルな肖像画合成ツールを発表

>>:  マスクがインセプションを実現させた?スタートアップ企業はトランスフォーマーを使って明晰夢を誘発し、ニューラリンクの技術は夢をコントロールする驚くべき効果を発揮する

ブログ    
ブログ    
ブログ    

推薦する

ドローンレースが人間のトッププレイヤーを上回り、強化学習が再びネイチャーの表紙を飾る

最近、自律型ドローンがドローン競技会で人間のトッププレイヤーに勝利しました。この自律型ドローンは、チ...

エンタープライズITがAIを実際に適用できる場所

人工知能は、さまざまなエンタープライズ システム、特に分析や異常検出のユース ケースで実際に応用され...

DeepMind: 人工知能と神経科学を組み合わせて好循環を実現

最近の人工知能の進歩は目覚ましいものがあります。人工システムは、アタリのビデオゲーム、古代のボードゲ...

機械学習の発展の歴史と啓蒙

[[188091]]近年、人工知能の目覚ましい発展、特にAlphaGoと韓国のチェスプレイヤー、イ・...

...

データが生成型 AI に対応できるようにする 7 つの方法

翻訳者 |ブガッティレビュー | Chonglou誰もが生成AIと大規模言語モデルの力を活用したいと...

NoSQLデータベースの分散アルゴリズムの詳細な説明

システムのスケーラビリティは、分散システムの調整、フェイルオーバー、リソース管理、その他多くの機能を...

クラウド コンピューティングを超えて考える: インテリジェント エッジはコンピューティングと AI の未来です

インテリジェント エッジは、スマート デバイスとモノのインターネットをデータ収集ポイントから、組織に...

AI「メンター」がハーバード大学に入学! CS コースの 7x24 時間の個別指導、RAG は AI 教育のパズルの最後のピースになるかもしれない

昨年、ハーバード大学は大きなことを成し遂げました。彼らは CS50 コースに AI ツールの完全なセ...

Google Brain のディープラーニングと TensorFlow の過去と現在を分析

ディープラーニングの歴史において、ニューラルネットワーク方式が有効になり始めたのは1980~1990...

「AI+教育」の試行錯誤に誰がお金を払うのか?

「AI+教育」の導入は簡単? 2016年はAI(人工知能)元年と言われています。この年、Alpha...

小鵬汽車と徳賽SV自動車有限公司がレベル3自動運転システムの開発で協力

最近、小鵬汽車とDesay SVは戦略的協力協定を締結し、レベル3自動運転システムの開発で協力すると...

...

AIは私たちが何を見て、何を考えるかを静かにコントロールしている

私たちの日常生活では、携帯電話のさまざまなアプリにますます依存するようになっています。外食時にレスト...

...