清華大学がLLM4VGベンチマークを開発:LLMビデオタイミングポジショニングパフォーマンスの評価に使用

清華大学がLLM4VGベンチマークを開発:LLMビデオタイミングポジショニングパフォーマンスの評価に使用

12月29日、大規模言語モデル(LLM)は、単純な自然言語処理から、テキスト、オーディオ、ビデオなどのマルチモーダル分野にまでその範囲を拡大しており、その鍵の1つがビデオグラウンディング(VG)です。

VG タスクの目的は、与えられたクエリ (文章の説明) に基づいて、対象のビデオ セグメントの開始時間と終了時間を特定することです。主な課題は、時間的な境界の位置決めの精度にあります。

清華大学の研究チームは最近、「 LLM4VG 」ベンチマークを発表しました。これは、VGタスクにおけるLLMのパフォーマンスを評価するために特別に設計されたフレームワークです。

このベンチマークでは、2 つの主な戦略が検討されています。1 つ目は、テキスト ビデオ データセット (VidLLM) で直接トレーニングされたビデオ LLM を使用すること、2 つ目は、従来の LLM と事前トレーニング済みのビジョン モデルを組み合わせることです。

最初の戦略では、VidLLM はビデオ コンテンツと VG タスクの指示を直接処理し、テキストからビデオへのトレーニングに基づいて予測を出力します。

2 番目の戦略はより複雑で、LLM と視覚的記述モデルが関係します。これらのモデルは、慎重に設計されたプロンプトを介して VG タスクの指示と統合されたビデオ コンテンツのテキスト説明を生成します。

これらのプロンプトは、VG の指示と与えられた視覚的説明を効果的に組み合わせるように特別に設計されており、これにより LLM はタスクに関するビデオ コンテンツを処理して理解できるようになります。

VidLLM は、ビデオ コンテンツで直接トレーニングされているにもかかわらず、満足のいく VG パフォーマンスを達成するには依然として大きなギャップがあることが観察されています。この発見は、パフォーマンスを向上させるために、より時間的に関連のあるビデオタスクをトレーニングに組み込む必要があることを浮き彫りにしています。

2 番目の戦略は VidLLM よりも優れており、将来の研究の有望な方向性を示しています。この戦略は主に視覚モデルの制限とプロンプトワードの設計によって制限されるため、詳細かつ正確なビデオの説明を生成できるようになると、より洗練されたグラフィカル モデルによって LLM の VG パフォーマンスが大幅に向上します。

要約すると、この研究は、VG タスクへの LLM の適用に関する画期的な評価を提供し、モデルのトレーニングとキューの設計においてより洗練された方法の必要性を浮き彫りにしています。

IT Home は論文の参照アドレスを添付しています: https://arxiv.org/pdf/2312.14206.pdf

<<: 

>>:  NVIDIA: ジェネレーティブ AI はネットワーク セキュリティを効果的に支援し、脆弱性を発見してハッカーの攻撃を予測することができ、実際の人間よりも 20% 以上効率的です。

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

LIama2を運営して8400万元稼ごう!最速のAI推論チップのコスト見積もりが白熱した議論を巻き起こす

史上最速の大規模モデル推論を実現するには、1171万ドル(8410万元)の費用がかかりますか? ? ...

...

高性能自動運転ドメインコントローラ設計の主要要素

[[438361]]次世代自動運転システムの設計における反復的な更新は、主に新機能の継続的な反復に反...

...

企業チームのスキルは AI 導入の障壁となるのでしょうか?

人工知能は驚くべきことを実現できますが、いくつかの障害にも直面しています。 2021年に3,500人...

...

...

フィンテック2022年の技術トレンド:プライバシーコンピューティングが焦点、仮想人間が金融マネージャーを再構築

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

この遠隔操作脳実験は成功したが、ネットユーザーを怖がらせた

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

合理的強化学習はボトルネックに達しました。進化的アルゴリズムがその後継者となるでしょうか?

人工知能とゲーム理論の交差点から強化学習が生まれましたが、ゲーム理論に基づく問題解決は通常、合理性と...

...

テキストマイニング前処理におけるベクトル化とハッシュトリック

[[201071]]序文「テキスト マイニングにおける単語分割の原理」では、テキスト マイニングの前...