清華大学がLLM4VGベンチマークを開発:LLMビデオタイミングポジショニングパフォーマンスの評価に使用

清華大学がLLM4VGベンチマークを開発:LLMビデオタイミングポジショニングパフォーマンスの評価に使用

12月29日、大規模言語モデル(LLM)は、単純な自然言語処理から、テキスト、オーディオ、ビデオなどのマルチモーダル分野にまでその範囲を拡大しており、その鍵の1つがビデオグラウンディング(VG)です。

VG タスクの目的は、与えられたクエリ (文章の説明) に基づいて、対象のビデオ セグメントの開始時間と終了時間を特定することです。主な課題は、時間的な境界の位置決めの精度にあります。

清華大学の研究チームは最近、「 LLM4VG 」ベンチマークを発表しました。これは、VGタスクにおけるLLMのパフォーマンスを評価するために特別に設計されたフレームワークです。

このベンチマークでは、2 つの主な戦略が検討されています。1 つ目は、テキスト ビデオ データセット (VidLLM) で直接トレーニングされたビデオ LLM を使用すること、2 つ目は、従来の LLM と事前トレーニング済みのビジョン モデルを組み合わせることです。

最初の戦略では、VidLLM はビデオ コンテンツと VG タスクの指示を直接処理し、テキストからビデオへのトレーニングに基づいて予測を出力します。

2 番目の戦略はより複雑で、LLM と視覚的記述モデルが関係します。これらのモデルは、慎重に設計されたプロンプトを介して VG タスクの指示と統合されたビデオ コンテンツのテキスト説明を生成します。

これらのプロンプトは、VG の指示と与えられた視覚的説明を効果的に組み合わせるように特別に設計されており、これにより LLM はタスクに関するビデオ コンテンツを処理して理解できるようになります。

VidLLM は、ビデオ コンテンツで直接トレーニングされているにもかかわらず、満足のいく VG パフォーマンスを達成するには依然として大きなギャップがあることが観察されています。この発見は、パフォーマンスを向上させるために、より時間的に関連のあるビデオタスクをトレーニングに組み込む必要があることを浮き彫りにしています。

2 番目の戦略は VidLLM よりも優れており、将来の研究の有望な方向性を示しています。この戦略は主に視覚モデルの制限とプロンプトワードの設計によって制限されるため、詳細かつ正確なビデオの説明を生成できるようになると、より洗練されたグラフィカル モデルによって LLM の VG パフォーマンスが大幅に向上します。

要約すると、この研究は、VG タスクへの LLM の適用に関する画期的な評価を提供し、モデルのトレーニングとキューの設計においてより洗練された方法の必要性を浮き彫りにしています。

IT Home は論文の参照アドレスを添付しています: https://arxiv.org/pdf/2312.14206.pdf

<<: 

>>:  NVIDIA: ジェネレーティブ AI はネットワーク セキュリティを効果的に支援し、脆弱性を発見してハッカーの攻撃を予測することができ、実際の人間よりも 20% 以上効率的です。

ブログ    
ブログ    

推薦する

...

5GとAI: 現在と未来の補完的なテクノロジー

人工知能と5G、そしてそれらがもたらす変革の可能性は、テクノロジーの世界で大きな注目を集めています。...

Pytorch チュートリアル: 初心者向けクイックガイド

Python は、オープンソースの ML ライブラリ Pytorch のおかげで、データ サイエンス...

2018 年最も注目された AI および機械学習のスタートアップ 10 社

PwCとCB Insightsによるマネーツリーのレポートによると、人工知能のスタートアップへの投資...

待望のAI実装はどこで行き詰まっているのでしょうか?

AIはこれまで3つの発展の波を経験してきました。最初の2つの波は当時の技術環境やその他の理由により...

2018 年の画期的なテクノロジー トップ 10: AI と知覚都市

2017年、MITテクノロジーレビューは、強化学習、自動運転トラック、360度セルフィー、顔認証決済...

オンラインショッピングデータに基づくスマートドアロック「ショッピングガイド」

ビル・ゲイツは1995年に「The Road Ahead」の中でこう述べています。「将来、スマート家...

人工知能、機械学習、認知コンピューティングの入門

何千年もの間、人々はインテリジェントな機械を構築する方法について考え続けてきました。それ以来、人工知...

AIの偏見に対処するための重要なステップ

バイアスは機械学習において対処または軽減する必要がある重大な問題です。企業は将来のプレッシャーを軽減...

GPTストアはオンラインになるとすぐに混乱に陥り、偽造品、偽のトラフィック、禁止されたコンテンツが次々と出現します

新しくオープンしたGPTストアが「混沌」していることで有名になるとは思ってもいませんでした。見てくだ...

レノボ、HPC+AI によるアルゴリズムの世界を構築する初のハイブリッド インテリジェンス アカデミック カンファレンスに初参加

8月25日〜26日、第1回中国認知コンピューティングおよびハイブリッドインテリジェンス学術会議が西安...

AI技術がピカソの隠された絵画の発見を助ける

[[429170]]最近、外国メディアの報道によると、有名になる前のパブロ・ピカソは、必ずしも画材を...

人工知能の実例5つ

ここでは、AI が日常生活で非常に正確に使用されている 5 つのベスト例を紹介します。人工知能 (A...

Hadoop、Spark、Hive とはいったい何でしょうか? アルゴリズムを開発するには、これらを学ぶ必要がありますか?

[[422888]]みなさんこんにちは。私は梁唐です。最近、多くの新人がアルゴリズム エンジニアに...