近年、GPT、GLM、LLaMAなどの大規模言語モデルは自然言語処理の分野で大きな進歩を遂げており、ディープラーニング技術に基づいて複雑なテキストコンテンツを理解・生成できるようになりました。しかし、これらの機能をビデオ コンテンツ理解の分野に拡張することは、まったく新しい課題です。ビデオには豊富で多様な視覚情報が含まれているだけでなく、時系列の動的な変化も含まれるため、大規模な言語モデルがビデオから情報を抽出するのはより複雑になります。 この課題に対応するため、 ByteDanceと浙江大学は共同で、信頼性の高いビデオ説明を出力できるマルチモーダル大規模言語モデルであるVista-LLaMAを提案しました。 Vista-LLaMA は、ビデオ コンテンツの複雑さに対処するために特別に設計されており、ビデオ フレームを正確な言語記述に効果的に変換できるため、ビデオ コンテンツの分析と生成の品質が大幅に向上します。 論文ホームページ: https://jinxxian.github.io/Vista-LLaMA/ 図1 技術革新の道ビデオ コンテンツを処理する際に、既存のマルチモーダル ビジョン モデルと言語モデルは通常、ビデオ フレームを一連のビジュアル トークンに変換し、それらを言語トークンと組み合わせてテキストを生成します。しかし、生成されたテキストの長さが長くなるにつれて、ビデオコンテンツの影響は徐々に弱まる傾向があり、生成されたテキストは元のビデオコンテンツからますます逸脱し、いわゆる「幻覚」現象が発生します。 Vista-LLaMA は、ビデオとテキスト間の複雑な相互作用を革新的な方法で処理することにより、従来のビデオ言語モデルの限界を打ち破ります。 Vista-LLaMA の核となる革新性は、視覚トークンと言語トークンを独自の方法で処理することにあります。他のモデルとは異なり、特に長いテキストでは、視覚トークンと言語トークンの間に等距離を維持することで、テキスト生成の偏りを効果的に回避します。この方法により、モデルによるビデオ コンテンツの理解の深さと精度が大幅に向上します。 図2 Vista-LLaMA は、改良された注意メカニズムである視覚等距離トークン注意 (EDVT) を使用します。このメカニズムは、テキスト間の相対位置エンコーディングを保持しながら、視覚トークンとテキスト トークンを処理するときに従来の相対位置エンコーディングを削除します。 EDVT メカニズムは、特定の関数を通じて隠し層の入力を処理し、視覚トークンのソースを効果的に区別します。 具体的には、まず入力をクエリ、キー、値のマッピングに変換し、次にクエリとキーの入力に回転位置エンコーディング (RoPE) を適用し、それぞれ RoPE ありと RoPE なしのアテンション ウェイトを計算します。その後、2 つの注意重みは視覚トークンの有無に応じてマージされ、注意はソフトマックス関数を通じて正規化され、最後に注意重みに基づく線形マッピングを通じて表現が更新され、出力結果が生成されます。この革新により、マルチモーダル大規模言語モデルは、特に複雑なビデオシーンにおいて、ビデオの内容にさらに注意を払うことができ、主要な視覚要素を効果的にキャプチャして、テキスト生成の品質と関連性を向上させることができます。 図3 同時に、このモデルによって導入されたシリアル化されたビジュアルプロジェクターは、ビデオの時系列分析に新しい視点を提供します。現在のビデオフレームを処理するだけでなく、前のフレームの情報も活用できるため、ビデオコンテンツの一貫性と時間的論理が向上します。 ビジュアルプロジェクターの役割は、大規模な言語モデルがビジュアル入力とテキスト入力を融合して処理できるように、ビデオ機能を言語埋め込み空間にマッピングすることです。図 4 に示すように、初期の視覚プロジェクターでは通常、線形レイヤーまたはクエリ トランスフォーマー (Q-Former) を使用して、フレーム機能を言語トークンに直接変換します。しかし、これらの方法では時間的な関係が無視されるため、言語モデルによるビデオの包括的な理解が制限されます。 Vista-LLaMA は、線形投影レイヤーを通じてビジュアル トークンの時間的コンテキストをエンコードするシリアル化されたビジュアル プロジェクターを導入し、ビデオの動的な変化を理解するモデルの能力を強化します。これは、ビデオ コンテンツ分析の品質を向上させるために重要です。 図4 ベンチマーク結果Vista-LLaMA は、複数のオープンソースのビデオ質問応答ベンチマークで優れたパフォーマンスを発揮します。ビデオ理解と言語生成能力を測定するための重要なベンチマークである NExT-QA および MSRVTT-QA テストで画期的なスコアを達成しました。ゼロショット NExT-QA テストでは、Vista-LLaMA は 60.7% の精度を達成しました。 MSRVTT-QA テストでは、現在のすべての SOTA 方式を上回る 60.5% の精度を達成しました。これらの結果は業界でも先進的なレベルであり、Video-ChatGPT や MovieChat などの他の SOTA モデルを大幅に上回っています。 図5 これらのテスト結果は、ビデオ コンテンツの理解と説明の生成における Vista-LLaMA の効率性と精度を実証しています。Vista-LLaMA はビデオ コンテンツを正確に理解して説明することができ、その強力な一般化能力を実証しています。これらの結果は、Vista-LLaMA が複雑なビデオ コンテンツを理解する能力を実証するだけでなく、マルチモーダル言語処理の分野における Vista-LLaMA の主導的地位を証明しています。 データセット: CineClipQA 図6 Vista-LLaMA とともに、CineClipQA と呼ばれる新しいデータセットが提案されました。 CineClipQA には、さまざまなスタイルと物語技法を持つ 5 つの映画から厳選された 153 のビデオ クリップが含まれています。各クリップは映画のストーリーの 1 つ以上の独自の部分を表現しており、16 個のカスタマイズされた質問が付随しており、合計 2,448 個の質問があります。質問は、システムプロンプトと質問の 2 つの部分に分かれています。
この研究では、16 種類すべてについて詳細な説明と対応する例も提供しています。 CineClipQA データセットでは、Vista-LLaMA も優れたパフォーマンスを示しています。 図7 つまり、Vista-LLaMA が長いビデオ コンテンツの処理にもたらす大きな利点は、ビデオ分析の分野に新しいソリューション フレームワークをもたらし、ビデオ処理とコンテンツ作成における人工知能の開発を促進し、将来的にはマルチモーダル インタラクションと自動コンテンツ生成の分野に幅広い機会をもたらすことを告げています。 詳細については、プロジェクトページ[https://jinxxian.github.io/Vista-LLaMA]をご覧ください。 ByteDanceのインテリジェントクリエーションチームについて知能創造チームは、ByteDanceのオーディオとビデオの革新技術とビジネスミドルプラットフォームであり、コンピュータービジョン、グラフィックス、音声、撮影と編集、特殊効果、クライアントとサーバーエンジニアリングなどの技術分野をカバーしています。ByteDanceの豊富なビジネスシナリオ、インフラストラクチャリソース、良好な技術協力環境の助けを借りて、最先端のアルゴリズム-エンジニアリングシステム-製品のリンク全体のクローズドループを実現し、社内のビジネスラインと外部の協力顧客に、業界最先端のコンテンツ理解、コンテンツ作成、インタラクティブな体験と消費機能、およびさまざまな形式での業界ソリューションを提供することを目指しています。 現在、知能創造チームはByteDance傘下のクラウドサービスプラットフォーム「Volcano Engine」を通じて、企業向けに技術力とサービスを開放している。 |
<<: これほどリアルな効果を生み出すために、原作者を何人食べなければならなかったのですか?文生図はビジュアル「盗作」の疑い
>>: 素晴らしい瞬間を振り返りましょう! IEEE Spectrumが2023年の最もホットなAIストーリーをレビュー
[[349378]]現在、ほとんどの調査会社は、人工知能が近い将来ますます重要な役割を果たすと予測し...
2023年杭州雲奇大会において、アリババクラウド最高技術責任者の周景仁氏は、数千億のパラメータを持つ...
10月18日、マイクロソフトは健全で調和のとれたコミュニティ環境を作り、写真やテキスト内の偏見、憎悪...
この記事はWeChatの公開アカウント「Big Data DT(ID:hzdashuju)」から転載...
2014年、日本のソフトバンクモバイルストアに新たな仲間が加わった。それは、人の表情や声のトーンを...
Python は機械学習にとって最も鋭い武器であると言えます。また、機械学習は Python の影...
近年、ドローン産業の発展は急速です。業界の段階的な改善と成熟により、製品の種類、数量、市場規模の継続...
人工知能技術は今、世界を変えつつあります。多くの業界はすでに、ビジネス プロセスを改善するために A...