ビデオ理解の分野では、マルチモーダルモデルは短いビデオの分析において画期的な進歩を遂げ、強力な理解能力を実証しましたが、映画品質の長いビデオには対応できないようです。そのため、長時間の動画、特に数時間に及ぶ映画コンテンツの解析・理解は、現在大きな課題となっています。 モデルが長い動画を理解するのが難しい主な理由は、高品質で多様な長い動画データ リソースが不足していることと、これらのデータを収集して注釈を付けるために必要な作業量が膨大であることです。 この課題に直面して、テンセントと復旦大学の研究チームは革新的なAI生成フレームワークであるMovieLLMを提案しました。 MovieLLM は革新的なアプローチを採用しており、高品質で多様なビデオデータを生成できるだけでなく、大量の関連する質疑応答データセットを自動的に生成し、データの次元と深さを大幅に豊かにします。同時に、プロセス全体が自動化されているため、人的投入も大幅に削減されます。
この画期的な進歩により、複雑なビデオの物語を理解するモデルの能力が向上するだけでなく、何時間もの映画コンテンツを分析するモデルの能力も強化されます。これは、希少性と偏りの点で既存のデータセットの制限を克服し、超長時間のビデオを理解するための新しい効果的なアプローチを提供します。 MovieLLM は、GPT-4 と拡散モデルの強力な生成機能を巧みに組み合わせ、「ストーリー拡張」連続フレーム記述生成戦略を適用し、「テキスト反転」を使用して拡散モデルをガイドし、シーンの一貫性のある画像を生成して完全な映画の連続フレームを構築します。 方法の概要MovieLLM は、GPT-4 の強力な生成機能と拡散モデルを巧みに組み合わせて、高品質で多様な長時間ビデオ データと QA の質問と回答を構築し、大規模モデルによる長時間ビデオの理解を強化します。 MovieLLM は主に 3 つの段階で構成されています。 1. 映画のプロット生成。 MovieLLM は、プロットを生成するために Web や既存のデータセットに依存せず、代わりに GPT-4 のパワーを最大限に活用して合成データを生成します。テーマ、概要、スタイルなどの特定の要素を提供することで、GPT-4 は、後続の生成プロセスに合わせて映画品質のキーフレーム記述を生成するようにガイドされます。 2. スタイル固定プロセス。 MovieLLM は「テキスト反転」技術を巧みに使用して、スクリプトで生成されたスタイル記述を拡散モデルの潜在空間に固定します。このアプローチは、統一された美観を維持し、多様性を保ちながら、固定されたスタイルのシーンを生成するようにモデルを導きます。 3. ビデオコマンドデータの生成。 最初の 2 つのステップに基づいて、固定スタイルの埋め込みとキー フレームの記述が取得されました。これらに基づいて、MovieLLM はスタイル埋め込みを使用して拡散モデルをガイドし、キーフレームの説明に一致するキーフレームを生成し、映画のプロットに従ってさまざまな規範的な質問と回答のペアを徐々に生成します。 上記の手順を実行すると、MovieLLM は高品質で多様性があり、一貫性のあるムービー フレームと対応する質問と回答のペアを作成します。映画データタイプの詳細な分布は次のとおりです。 実験結果本論文では、MovieLLM を使用して構築されたデータに基づいて、長時間ビデオの理解に焦点を当てた大規模モデルである LLaMA-VID を微調整することで、さまざまな長さのビデオ コンテンツを理解するモデルの能力を大幅に強化します。しかし、現在、長時間ビデオ理解のテストベンチマークを提案する研究は存在しないため、本論文では長時間ビデオ理解能力をテストするためのベンチマークも提案します。 MovieLLM はトレーニング用に短いビデオ データを特別に作成するわけではありませんが、トレーニングを通じてさまざまな短いビデオ ベンチマークでパフォーマンスの向上が見られました。結果は次のとおりです。 ベースライン モデルと比較すると、2 つのテスト データセット MSVD-QA と MSRVTT-QA で大幅な改善が見られます。 ビデオ生成ベースのパフォーマンス ベンチマークでは、5 つの評価領域すべてでパフォーマンスの向上が達成されました。 長いビデオの理解に関しては、MovieLLM トレーニングを通じて、モデルによる概要、プロット、タイミングの理解が大幅に向上しました。 さらに、MovieLLM は、固定スタイルで画像を生成できる他の同様の方法と比較して、生成品質の点でも優れた結果をもたらします。 要約すると、MovieLLM が提案するデータ生成ワークフローにより、モデル用の映画品質のビデオ データを作成するという課題が大幅に軽減され、生成されるコンテンツの制御性と多様性が向上します。同時に、MovieLLM は、マルチモーダル モデルが映画レベルの長いビデオを理解する能力を大幅に強化し、他の分野で同様のデータ生成方法を採用するための貴重なリファレンスを提供します。 この研究に興味のある読者は、原著論文を読んで研究内容の詳細を知ることができます。 |
一般的に、AIGC とは、人間が作成したコンテンツに非常によく似た画像、音楽、テキストなどのコンテン...
Google、スタンフォード大学、カリフォルニア大学バークレー校、OpenAI の研究者が論文「AI...
最近では、「ビッグデータ」や「人工知能」ほどよく使われる流行語はほとんどありません。多くのデータ分析...
デビッド・リンシカム企画 | ヤン・ジェンデータの可用性とセキュリティからモデルの選択と監視まで、生...
ラッシュが狂ってるよ!ラッシュが狂ってるよ! OpenAIとGoogleの人材獲得競争は最高潮に達し...
AGI(汎用人工知能)をどのように定義すればよいでしょうか? 100 人の AI 専門家に答えを尋ね...
私はいつも映画に出てくるロボットが大好きで、悪いロボットも好きです。しかし不安なのは、私たちの周りの...
著者 | 崔昊レビュー | Chonglouまとめこの記事では、さまざまなユーザー データの分離を確...
[[374354]]パーセプトロンは、バイナリ分類タスク用の線形機械学習アルゴリズムです。これは、人...
加齢黄斑変性症のリスクが高い個人を特定することは、専門家の不足と網膜画像の評価における臨床専門知識へ...
8月9日、BlackBerryは新たな調査レポートを発表し、現在、世界中の企業の75%が職場でのCh...
ああ、2020年!世界的なヘルスケア問題から、テクノロジーの採用と再利用の方法の革命まで、今年はこれ...
[[425432]]この記事は、ソリューションの選択から再現の試みなど、軽量な人間の姿勢推定モデルを...