清華大学がLLM4VGベンチマークを開発：LLMビデオタイミングポジショニングパフォーマンスの評価に使用

12月29日、大規模言語モデル（LLM）は、単純な自然言語処理から、テキスト、オーディオ、ビデオなどのマルチモーダル分野にまでその範囲を拡大しており、その鍵の1つがビデオグラウンディング（VG）です。

VG タスクの目的は、与えられたクエリ (文章の説明) に基づいて、対象のビデオセグメントの開始時間と終了時間を特定することです。主な課題は、時間的な境界の位置決めの精度にあります。

清華大学の研究チームは最近、「 LLM4VG 」ベンチマークを発表しました。これは、VGタスクにおけるLLMのパフォーマンスを評価するために特別に設計されたフレームワークです。

このベンチマークでは、2 つの主な戦略が検討されています。1 つ目は、テキストビデオデータセット (VidLLM) で直接トレーニングされたビデオ LLM を使用すること、2 つ目は、従来の LLM と事前トレーニング済みのビジョンモデルを組み合わせることです。

最初の戦略では、VidLLM はビデオコンテンツと VG タスクの指示を直接処理し、テキストからビデオへのトレーニングに基づいて予測を出力します。

2 番目の戦略はより複雑で、LLM と視覚的記述モデルが関係します。これらのモデルは、慎重に設計されたプロンプトを介して VG タスクの指示と統合されたビデオコンテンツのテキスト説明を生成します。

これらのプロンプトは、VG の指示と与えられた視覚的説明を効果的に組み合わせるように特別に設計されており、これにより LLM はタスクに関するビデオコンテンツを処理して理解できるようになります。

VidLLM は、ビデオコンテンツで直接トレーニングされているにもかかわらず、満足のいく VG パフォーマンスを達成するには依然として大きなギャップがあることが観察されています。この発見は、パフォーマンスを向上させるために、より時間的に関連のあるビデオタスクをトレーニングに組み込む必要があることを浮き彫りにしています。

2 番目の戦略は VidLLM よりも優れており、将来の研究の有望な方向性を示しています。この戦略は主に視覚モデルの制限とプロンプトワードの設計によって制限されるため、詳細かつ正確なビデオの説明を生成できるようになると、より洗練されたグラフィカルモデルによって LLM の VG パフォーマンスが大幅に向上します。

要約すると、この研究は、VG タスクへの LLM の適用に関する画期的な評価を提供し、モデルのトレーニングとキューの設計においてより洗練された方法の必要性を浮き彫りにしています。

IT Home は論文の参照アドレスを添付しています: https://arxiv.org/pdf/2312.14206.pdf

<<:

>>: NVIDIA: ジェネレーティブ AI はネットワークセキュリティを効果的に支援し、脆弱性を発見してハッカーの攻撃を予測することができ、実際の人間よりも 20% 以上効率的です。

OpenOOD アップデート v1.5: 包括的かつ正確な分布検出コードベースとテストプラットフォーム、オンラインランキングとワンクリックテストをサポート

ブログ

清華大学がLLM4VGベンチマークを開発：LLMビデオタイミングポジショニングパフォーマンスの評価に使用

OpenOOD アップデート v1.5: 包括的かつ正確な分布検出コードベースとテストプラットフォーム、オンラインランキングとワンクリックテストをサポート

オイラー誕生！中国初の産業グレードのグラフディープラーニングオープンソースフレームワーク

家族に王位継承者はいないのですか?それは問題ではない、誰かがAIを使っておとぎ話の魔法の世界を作ったのだ

LLaMA-v2-Chat と Alpaca: 異なる AI モデルはいつ使用すべきですか?

企業にとって重要なAI技術のトレンド

Excelが変わりました！ MicrosoftはPythonを搭載しているので、機械学習を直接行うことができます。

推薦する

日本の量子コンピューティング戦略：2030年までに量子技術ユーザー1000万人を目指す

情報漏洩を防ぐためにローカルで構築できるオープンソースモデルPrivateGPTが利用可能になりました

AI、IoT、VR、AR、ブロックチェーン、クラウドコンピューティングで建設業界を変革

顔認識は政治的立場を決定できるか？研究者：本当ですよ！正解率は72%にも達する

2021年世界の最新人工知能技術9選

Nature: DeepMind の大規模モデルが 60 年前の数学的問題を突破、その解決法は人間の認識力を超える

Facebook AI が、強力なフルスタックビデオライブラリである PyTorchVideo をオープンソース化し、モバイルフォンで SOTA モデルを 8 倍高速に実行できるようにしました。

機械学習にはどのような数学的基礎が必要ですか?

2023年までにスマートホームとモノのインターネットは完全に相互運用可能になると予想されている。

問題点を突き止める - Weiang 入札および評価ビデオインテリジェントアーカイブシステム

第四次産業革命：人工知能

建物内の生体認証システム

ネイチャー誌が量子コンピューティングの大きな進歩を発表：史上初の量子集積回路が実現