清華大学がLLM4VGベンチマークを開発:LLMビデオタイミングポジショニングパフォーマンスの評価に使用

清華大学がLLM4VGベンチマークを開発:LLMビデオタイミングポジショニングパフォーマンスの評価に使用

12月29日、大規模言語モデル(LLM)は、単純な自然言語処理から、テキスト、オーディオ、ビデオなどのマルチモーダル分野にまでその範囲を拡大しており、その鍵の1つがビデオグラウンディング(VG)です。

VG タスクの目的は、与えられたクエリ (文章の説明) に基づいて、対象のビデオ セグメントの開始時間と終了時間を特定することです。主な課題は、時間的な境界の位置決めの精度にあります。

清華大学の研究チームは最近、「 LLM4VG 」ベンチマークを発表しました。これは、VGタスクにおけるLLMのパフォーマンスを評価するために特別に設計されたフレームワークです。

このベンチマークでは、2 つの主な戦略が検討されています。1 つ目は、テキスト ビデオ データセット (VidLLM) で直接トレーニングされたビデオ LLM を使用すること、2 つ目は、従来の LLM と事前トレーニング済みのビジョン モデルを組み合わせることです。

最初の戦略では、VidLLM はビデオ コンテンツと VG タスクの指示を直接処理し、テキストからビデオへのトレーニングに基づいて予測を出力します。

2 番目の戦略はより複雑で、LLM と視覚的記述モデルが関係します。これらのモデルは、慎重に設計されたプロンプトを介して VG タスクの指示と統合されたビデオ コンテンツのテキスト説明を生成します。

これらのプロンプトは、VG の指示と与えられた視覚的説明を効果的に組み合わせるように特別に設計されており、これにより LLM はタスクに関するビデオ コンテンツを処理して理解できるようになります。

VidLLM は、ビデオ コンテンツで直接トレーニングされているにもかかわらず、満足のいく VG パフォーマンスを達成するには依然として大きなギャップがあることが観察されています。この発見は、パフォーマンスを向上させるために、より時間的に関連のあるビデオタスクをトレーニングに組み込む必要があることを浮き彫りにしています。

2 番目の戦略は VidLLM よりも優れており、将来の研究の有望な方向性を示しています。この戦略は主に視覚モデルの制限とプロンプトワードの設計によって制限されるため、詳細かつ正確なビデオの説明を生成できるようになると、より洗練されたグラフィカル モデルによって LLM の VG パフォーマンスが大幅に向上します。

要約すると、この研究は、VG タスクへの LLM の適用に関する画期的な評価を提供し、モデルのトレーニングとキューの設計においてより洗練された方法の必要性を浮き彫りにしています。

IT Home は論文の参照アドレスを添付しています: https://arxiv.org/pdf/2312.14206.pdf

<<: 

>>:  NVIDIA: ジェネレーティブ AI はネットワーク セキュリティを効果的に支援し、脆弱性を発見してハッカーの攻撃を予測することができ、実際の人間よりも 20% 以上効率的です。

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

日本の量子コンピューティング戦略:2030年までに量子技術ユーザー1000万人を目指す

量子時代が到来し、世界は安全・安心な暮らしとより良い社会の実現への期待が高まっています。 最近、日本...

情報漏洩を防ぐためにローカルで構築できるオープンソースモデルPrivateGPTが利用可能になりました

6月25日、サムスン、JPモルガン・チェース、アップル、アマゾンなどの企業は、会社の機密情報の漏洩を...

AI、IoT、VR、AR、ブロックチェーン、クラウドコンピューティングで建設業界を変革

AI、IoT、ブロックチェーン、AR、VR、クラウドコンピューティング技術が建設業界に新たな形をもた...

顔認識は政治的立場を決定できるか?研究者:本当ですよ!正解率は72%にも達する

アメリカのテクノロジーウェブサイト「ベンチャービート」が1月12日に報じたところによると、米スタンフ...

2021年世界の最新人工知能技術9選

1. 自然言語生成自然言語生成は、構造化されたデータをネイティブ言語に変換する流行のテクノロジーです...

Nature: DeepMind の大規模モデルが 60 年前の数学的問題を突破、その解決法は人間の認識力を超える

Google DeepMind の最新の成果が再び Nature に掲載され、大規模なモデルを使用し...

...

...

機械学習にはどのような数学的基礎が必要ですか?

[[184240]]ここ数か月間、データサイエンスの世界にチャレンジして、機械学習の技術を使って統...

2023年までにスマートホームとモノのインターネットは完全に相互運用可能になると予想されている。

「AI+IoT」技術の応用の実現により、消費者のスマートデバイスに対する需要が高まり、スマートスピ...

問題点を突き止める - Weiang 入札および評価ビデオインテリジェントアーカイブシステム

財務省令第87号では、購入者または購入代理店は入札および入札評価プロセス全体を録画および記録しなけれ...

第四次産業革命:人工知能

人工知能 (AI): 私たちの日常生活、生き方、他者との関わり方に根本的な変化がもたらされるのは、第...

建物内の生体認証システム

新しい建物では、利用可能なリソースの最適化を最大限にしながら、セキュリティと有用かつ重要なデータを豊...

ネイチャー誌が量子コンピューティングの大きな進歩を発表:史上初の量子集積回路が実現

6月23日、オーストラリアの量子コンピューティング企業SQC(Silicon Quantum Com...