Google AI ビデオがまた大ヒット!オールラウンドなユニバーサルビジュアルエンコーダーであるVideoPrismに30のSOTAパフォーマンスアップデートが実装されました

Google AI ビデオがまた大ヒット!オールラウンドなユニバーサルビジュアルエンコーダーであるVideoPrismに30のSOTAパフォーマンスアップデートが実装されました

AI動画モデルSoraが人気を博して以降、MetaやGoogleなどの大手企業もOpenAIに追いつくべく研究を開始した。

最近、Google チームの研究者は、ユニバーサル ビデオ エンコーダーである VideoPrism を提案しました。

単一の固定モデルでさまざまなビデオ理解タスクを処理できます。

写真

論文アドレス: https://arxiv.org/pdf/2402.13217.pdf

たとえば、VideoPrism は、以下のビデオでろうそくを吹き消している人物を分類して位置を特定できます。

写真

ビデオテキスト検索: テキストコンテンツに基づいて、ビデオ内の対応するコンテンツを検索できます。

写真

たとえば、小さな女の子が積み木で遊んでいる次のビデオについて説明します。

Q&Aセッションもご利用いただけます。

- 彼女は緑のブロックの上に何色のブロックを置きましたか?

- 紫。

写真

研究者らは、3,600 万の高品質ビデオキャプションペアと、ノイズの多い並列テキスト (ASR トランスクリプションなど) を含む 5 億 8,200 万のビデオクリップの異種コーパスで VideoPrism を事前トレーニングしました。

VideoPrism が 33 のビデオ理解ベンチマークのうち 30 の SOTA を更新したことは注目に値します。

写真

ユニバーサルビジュアルエンコーダー VideoPrism

現在、Video Grounded Models (ViFM) は、大規模なコーパスで新しい機能を解き放つ大きな可能性を秘めています。

これまでの研究により、一般的なビデオ理解は大きく進歩しましたが、真の「画期的なビデオ モデル」を構築することは、依然として困難な目標です。

これに応えて、Google は、分類、ローカリゼーション、検索、字幕作成、質問応答 (QA) など、さまざまなビデオ理解タスクを解決するために設計された汎用ビジュアル エンコーダーである VideoPrism をリリースしました。

VideoPrism は、神経科学や生態学などの科学分野の CV タスクだけでなく、CV データセットでも広範囲に評価されています。

単一の凍結モデルを使用することで、最小限の適合性で最先端のパフォーマンスが実現されます。

さらに、Google の研究者は、この固定エンコーダーの設定は、以前の研究を踏襲し、その実用性とビデオ モデルの微調整にかかる高い計算量とコストを考慮したものになっていると述べています。

写真

設計アーキテクチャ、2段階トレーニング法

VideoPrism の設計哲学は次のとおりです。

事前トレーニング データは、ベース モデル (FM) の基礎となります。ViFM の理想的な事前トレーニング データは、世界中のすべてのビデオの代表的なサンプルです。

このサンプルでは、​​ほとんどのビデオにコンテンツを説明する並列テキストがありません。

ただし、そのようなテキストでトレーニングすると、ビデオ空間に関する貴重な意味上の手がかりを提供できます。

したがって、事前トレーニング戦略では、利用可能なビデオとテキストのペアを最大限に活用しながら、主にビデオ パターンに焦点を当てる必要があります。

データに関しては、Google の研究者は、3,600 万の高品質なビデオ キャプションのペアと、ノイズの多い並列テキスト (ASR の書き起こし、生成されたキャプション、取得したテキストなど) を含む 5 億 8,200 万のビデオ クリップを収集することで、必要な事前トレーニング コーパスを概算しました。

写真

写真

モデリングの面では、著者らはまず、さまざまな品質のすべてのビデオとテキストのペアからセマンティックなビデオ埋め込みを比較学習します。

次に、広範なビデオのみのデータを活用して、意味的埋め込みをグローバルかつラベルごとに改良し、以下に説明するマスクされたビデオ モデリングを改善します。

自然言語での成功にもかかわらず、生の視覚信号にセマンティクスがないため、マスクされたデータのモデリングは CV にとって依然として困難です。

既存の研究では、間接的なセマンティクスを借用する(例えば、この課題に対処するために CLIP ガイド モデルや単語セグメンテーション、または潜在的セマンティクスを使用する)か、または暗黙的に一般化する(例えば、視覚パッチにラベルを付ける)ことによって、高いマスキング率と軽量デコーダーを組み合わせています。

上記のアイデアに基づいて、Google チームは事前トレーニング データに基づく 2 段階のアプローチを採用しました。

写真

最初の段階では、すべてのビデオとテキストのペアを使用して、ビデオ エンコーダーをテキスト エンコーダーと一致させるための対照学習が実行されます。

Google チームは、以前の研究に基づいて、対称クロスエントロピー損失の最小化を実行し、バッチ内のすべてのビデオとテキストのペアの類似度スコアを最小化しました。

空間エンコーディング モジュールは CoCa 画像モデルを使用して初期化され、WebLI は事前トレーニングに含まれています。

損失を計算する前に、ビデオ エンコーダーからの特徴が Multi-Head Attention Pooling (MAP) を介して集約されます。

この段階では、ビデオ エンコーダーは言語監視から豊富な視覚的セマンティクスを学習でき、結果として得られるモデルは第 2 段階のトレーニング用のセマンティック ビデオ埋め込みを提供します。

写真

第 2 段階では、エンコーダーが再度トレーニングされ、次の 2 つの改善が行われました。

- モデルは、マスクされていない入力ビデオパッチに基づいて、第1段階のビデオレベルのグローバル埋め込みとトークンベースの埋め込みを予測する必要がある。

- エンコーダーの出力トークンは、ショートカットの学習を避けるために、デコーダーに渡される前にランダムにシャッフルされます。

注目すべきは、研究者の事前トレーニングでは、ビデオのテキストによる説明とコンテキストの自己監督という 2 つの監督信号を活用し、VideoPrism が外観と動作中心のタスクで優れたパフォーマンスを発揮できるようにしていることです。

実際、これまでの研究では、ビデオのキャプションは主に外見の手がかりを明らかにし、文脈の監督は行動の学習に役立つことが示されています。

写真

実験結果

次に、研究者らは、VideoPrism の機能と汎用性を実証するために、さまざまなビデオ中心の理解タスクで VideoPrism を評価します。

主に以下の4つのカテゴリーに分かれます。

(1)一般的には分類と時空間的位置付けを含むビデオ理解のみ

(2)ゼロショットビデオテキスト検索

(3)ゼロショットビデオキャプション作成と品質検査

(4)科学分野における履歴書の課題

分類と時空間的位置特定

表 2 は、VideoGLUE でのフリーズド バックボーンの結果を示しています。

すべてのデータセットにおいて、VideoPrism はベースラインを大幅に上回ります。さらに、VideoPrism の基盤となるモデル サイズを ViT-B から ViT-g に増やすと、パフォーマンスが大幅に向上します。

注目すべきは、どのベースライン メソッドもすべてのベンチマークで 2 番目に優れた結果を達成していないことです。これは、以前のメソッドがビデオ理解の特定の側面を対象に開発された可能性があることを示唆しています。

そして、VideoPrism は、この幅広いタスクセットの改善を続けています。

この結果は、VideoPrism が、複数の粒度での意味、外観、およびモーション キュー、時空間情報、およびさまざまなビデオ ソース (Web ビデオやスクリプト パフォーマンスなど) に対する堅牢性など、さまざまなビデオ信号を 1 つのエンコーダーに統合していることを示しています。

写真

ゼロショットビデオテキスト検索と分類

表 3 と 4 は、それぞれビデオテキスト検索とビデオ分類の結果をまとめたものです。

VideoPrism のパフォーマンスは複数のベンチマークを更新し、困難なデータセットでは、VideoPrism は以前のテクノロジーに比べて大幅に改善されました。

写真

ベースモデル VideoPrism-B の結果のほとんどは、実際に既存の大規模モデルよりも優れています。

さらに、VideoPrism は、表 4 のドメイン内データと追加のモダリティ (オーディオなど) で事前トレーニングされたモデルと同等かそれ以上のパフォーマンスを発揮します。ゼロショット検索および分類タスクにおけるこれらの改善は、VideoPrism の強力な一般化機能を実証しています。

写真

ゼロショットビデオのキャプション作成と品質チェック

表5と表6は、それぞれゼロショットビデオキャプション作成とQAの結果を示しています。

モデル アーキテクチャがシンプルで、アダプター パラメーターの数が少ないにもかかわらず、最先端のモデルは依然として競争力があり、VATEX を除いて、視覚モデルと言語モデルをフリーズするためのトップ メソッドの 1 つにランクされています。

結果は、VideoPrism エンコーダーがビデオから言語への生成タスクにうまく一般化できることを示しています。

写真

科学分野の履歴書の課題

Generic ViFM は、すべての評価にわたって共有のフリーズされたエンコーダーを使用し、単一のタスクに特化したドメイン固有のモデルに匹敵するパフォーマンスを実現します。

特に、VideoPrism は一般的に最高のパフォーマンスを発揮し、ベーススケール モデルを使用したドメイン エキスパート モデルよりも優れています。

より大きなモデルにスケーリングすると、すべてのデータセットのパフォーマンスがさらに向上します。これらの結果は、ViFM がさまざまな分野でビデオ分析を大幅に加速する可能性を秘めていることを示しています。

アブレーション研究

図4はアブレーションの結果を示しています。特に、VideoPrism の SSv2 に対する継続的な改善は、ビデオのモーション理解を向上させるデータ管理とモデル設計の取り組みの有効性を実証しています。

ベースラインはすでに K400 で競争力のある結果を達成していますが、提案されているグローバル蒸留とトークンシャッフルにより精度がさらに向上します。

写真

参考文献:

出典: http://arxiv.org/pdf/2402.13217.pdf

https://blog.research.google/2024/02/videoprism-foundational-visual-encoder.html

<<:  オープンソースの Gemma モデル: Google の言語の奇跡。命令チューニング、低ランク適応、Switch Transformer を使用して小さなモデルで遊ぶことができます。

>>:  人工知能、機械学習、ディープラーニングとは、いったい何なのでしょうか?

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

量子コンピューティングは今後10年間で物流業界を変えるだろう

近年、サプライチェーンおよび物流業界は、労働力不足から予測不可能な天候、需給の変化まで、ますます多く...

...

2020 年に爆発的に増加する 9 つの AI マーケティング トレンド

マーケティングに AI を使用すると、代理店の専門家の作業がさまざまな点で楽になります。消費者に合わ...

BERTに続き、この新しいモデルは11のNLPベンチマークで再び記録を更新しました。

BERT が 11 個の NLP 記録を破って以来、幅広いタスクに適用できる NLP 事前トレーニ...

ロボット警察がファンタジーを現実に変える

人工知能、コンピュータービジョン、モノのインターネット、その他の先進技術を備えたロボット警察は、法と...

人工知能の環境コストと可能性

人工知能 (AI) は、大衆文化や政治分析において、2 つの極端な形で現れることが多いです。それは、...

機械学習モデルを評価する際にデータ漏洩を防ぐ方法

この記事では、モデルのパフォーマンスを評価する際のデータ漏洩の問題と、データ漏洩を回避する方法につい...

2021年に機械学習を始めるためのガイド

この質問は、機械学習コミュニティのソーシャル メディアでよく聞かれます。機械学習を始めるにはどうすれ...

人工知能が都市景観をどう変えるのか

人工知能 (AI) とディープラーニングはあらゆるところに存在し、今や都市の景観を一変させる可能性を...

...

テクノロジーファイナンスからスマートファイナンスまで、民生銀行の革新的な人工知能の応用をご覧ください

[51CTO.comからのオリジナル記事] 「インターネット+」から「インテリジェンス+」まで、革新...

人工知能の急速な成長がアジア太平洋地域のデータセンター市場を牽引する

JLLの新しいグローバルデータセンター展望によると、クラウドコンピューティングと人工知能(AI)の大...

...

推論効率は ControlNet の 20 倍以上です。 Google、モバイルデバイスで利用可能な画像生成制御モデル「MediaPipe Diffusion」プラグインをリリース

近年、拡散モデルはテキストから画像への生成において大きな成功を収め、画像生成品質の向上、推論パフォー...