小規模、高効率:DeepMind がマルチモーダル ソリューション Mirasol 3B を発表

小規模、高効率:DeepMind がマルチモーダル ソリューション Mirasol 3B を発表

マルチモーダル学習が直面している主な課題の 1 つは、テキスト、オーディオ、ビデオなどの異種のモダリティを統合する必要があることです。マルチモーダル モデルでは、さまざまなソースからの信号を組み合わせる必要があります。ただし、これらのモダリティは特性が異なり、単一のモデルで組み合わせることは困難です。たとえば、ビデオとテキストではサンプリング レートが異なります。

最近、Google DeepMind の研究チームは、マルチモーダル モデルを複数の独立した特殊な自己回帰モデルに分離し、さまざまなモダリティの特性に応じて入力を処理しました。

具体的には、この研究ではマルチモーダルモデル Mirasol3B を提案しました。 Mirasol3B は、時間同期モダリティ (オーディオとビデオ) 用の自己回帰コンポーネントと、コンテキスト モダリティ用の自己回帰コンポーネントで構成されています。これらのモードは必ずしも時間的に揃っているわけではなく、順番に配置されています。

論文アドレス: https://arxiv.org/abs/2311.05698

Mirasol3B は、マルチモーダル ベンチマークで SOTA パフォーマンスを達成し、はるかに大規模なモデルよりも優れたパフォーマンスを発揮します。よりコンパクトな表現を学習し、オーディオビジュアル特徴表現のシーケンス長を制御し、時間的対応に基づいてモデリングすることにより、Mirasol3B はマルチモーダル入力の高い計算要件を効果的に満たすことができます。

方法の紹介

Mirasol3B は、オーディオ、ビデオ、テキストのマルチモーダル モデルであり、自己回帰モデリングが、時間的に整合されたモダリティ (オーディオ、ビデオなど) 用の自己回帰コンポーネントと、時間的に整合されていないコンテキスト モダリティ (テキストなど) 用の自己回帰コンポーネントに分離されています。 Mirasol3B は、クロスアテンション重みを使用して、これらのコンポーネントの学習の進行を調整します。この分離により、モデル内のパラメータ分布がより合理的になり、モダリティ (ビデオとオーディオ) に十分な容量が割り当てられ、モデル全体が軽量化されます。

下の図 1 に示すように、Mirasol3B は主に 2 つの学習コンポーネントで構成されています。1 つはビデオ + オーディオなどの (ほぼ) 同期マルチモーダル入力を処理するように設計されており、入力を時間内に組み合わせる自己回帰コンポーネントです。

この研究では、時間的に整合されたモダリティを時間セグメントに分割し、時間セグメント内でオーディオとビデオの共同表現を学習することも提案しています。具体的には、この研究では「コンバイナー」と呼ばれるモーダル共同特徴学習メカニズムを提案しました。 「コンバイナー」は、同じ期間内のモーダル機能を組み合わせて、よりコンパクトな表現を生成します。

「コンバイナー」は、元のモーダル入力から主要な時空間表現を抽出し、ビデオの動的特性をキャプチャして、同時に存在するオーディオ機能と組み合わせます。このモデルは、さまざまなレートでマルチモーダル入力を受信でき、長いビデオを処理するときに優れたパフォーマンスを発揮します。

「コンバイナ」は、効率的かつ情報豊富なモーダル表現の要件を効果的に満たします。ビデオやその他の同時実行モダリティ内のイベントやアクティビティを完全にカバーでき、後続の自己回帰モデルで使用して長期的な依存関係を学習できます。

ビデオ信号とオーディオ信号の両方を処理し、より長いビデオ/オーディオ入力に対応するために、それらは小さな(おおよそ時間的に同期された)チャンクに分割され、コンバイナーを通じて結合されたオーディオビジュアル表現が学習されます。 2 番目のコンポーネントは、コンテキスト、つまり通常は依然として連続しているグローバル コンテキスト情報などの時間的に整列していない信号を処理します。また、自己回帰的であり、結合された潜在空間を交差注意入力として使用します。

ビデオ + オーディオ学習コンポーネントには 3B のパラメータがあり、オーディオなしのコンポーネントは 2.9B です。ほとんどのパラメータは、オーディオ + ビデオ自己回帰モデルに使用されます。 Mirasol3B は通常 128 フレームのビデオを処理しますが、より長い (例: 512 フレーム) ビデオも処理できます。

パーティションと「コンバイナ」モデル アーキテクチャの設計により、フレームを追加したり、ブロックのサイズと数を増やしたりしても、パラメータはわずかに増加するだけなので、長いビデオにはより多くのパラメータと大きなメモリが必要になるという問題が解決されます。

実験と結果

この調査では、標準 VideoQA ベンチマーク、長時間ビデオ VideoQA ベンチマーク、およびオーディオ + ビデオ ベンチマークで Mirasol3B を評価しました。

VideoQA データセット MSRVTTQA のテスト結果を表 1 に示します。Mirasol3B は、現在の SOTA モデルや、PaLI-X や Flamingo などのより大規模なモデルを上回っています。

長時間のビデオ質問応答に関しては、ActivityNet-QA および NExTQA データセットで Mirasol3B をテストし、評価しました。結果を以下の表 2 に示します。

最後に、本研究では、オープン世代評価を使用したオーディオビデオベンチマークテストに、KineticsSound、VGG-Sound、Epic-Sound を選択しました。実験結果を以下の表 3 に示します。

興味のある読者は、原著論文を読んで研究内容の詳細を知ることができます。

<<: 

>>:  トランスフォーマーの簡易版がここにあります、ネットユーザー:今年の論文

ブログ    
ブログ    

推薦する

マルチエージェント強化学習の大規模モデルに関する予備的研究

1. 大規模マルチエージェント意思決定モデルの課題現実世界における多くの実際的な問題は、複数のエージ...

...

GPT-4ではMITでコンピュータサイエンスの学位を取得できない

ある研究者が、MITのコンピューターサイエンスの学位の宿題や試験問題を解くことができると主張するチャ...

TigerGraphは、伝染病の予防と制御を完全にサポートするために、エンタープライズレベルのバージョンのライセンスを無償で公開します。

新型コロナウイルスによる肺炎の発生以来、全国の人々が不安に思っています。世界をリードするスケーラブル...

ネイチャー誌の年間トップ10科学者・イベント:天問1号の主任設計者、張栄橋氏がリスト入り

Nature の年間トップ 10 科学者およびトップ 10 科学イベントが発表されました。今年の科学...

アルゴリズムの微積分: 面接で目立つための関数微分公式 5 つ

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...

マスク氏「高度なAIの開発は非常にリスクが高い。OpenAIはアルトマン氏を解雇した理由を明らかにすべき」

11月20日、テスラのCEOイーロン・マスク氏は、高度な人工知能(AI)技術の開発には大きな潜在的...

...

ビジュアルMambaモデルのSwinの瞬間:中国科学院、HuaweiなどがVMambaを発表

大型模型の分野におけるトランスフォーマーの地位は揺るぎない。しかし、モデルのサイズが拡大し、処理する...

オリンピックチャンピオンでさえ正しく答えられなかった質問が ML モデルのテストに使用されているのですか? GPT-3: できない

機械学習モデルの数学解答能力を測定するために、カリフォルニア大学バークレー校とシカゴ大学の研究者らは...

OpenAIの人事異動で最大の勝者はオープンソースコミュニティになると予想される

米国現地時間11月20日朝、マイクロソフトは突然、OpenAIの元CEOアルトマン氏とOpenAI社...

...

フランス企業が世界初のAIスマートミラーを発売。ユーザーの感情を認識し、ストレスを軽減できる

1月8日、CES 2024の期間中、フランスのスマートヘルステクノロジー企業Baracodaが世界初...

ロボットは人工知能技術に基づいて人間の表情を作る

信頼関係を築く上で、私たちの表情が果たす役割は非常に大きいにもかかわらず、ほとんどのロボットの顔はプ...