AIビデオ生成は最近最もホットな分野の一つです。さまざまな大学の研究室、インターネット大手の AI ラボ、スタートアップ企業が AI ビデオ生成競争に参入しています。 Pika、Gen-2、Show-1、VideoCrafter、ModelScope、SEINE、LaVie、VideoLDM などのビデオ生成モデルのリリースはさらに目を引くものとなっています。ヴ⁽ⁱ⁾ 次のような質問が気になるかもしれません。
この目的のために、私たちは「どのビデオモデルが最適で、各モデルの強みは何か」を教えてくれる包括的な「ビデオ生成モデル評価フレームワーク」である VBench を立ち上げました。
VBench は、ビデオ生成の効果を包括的かつ綿密に評価するだけでなく、特に人間の感覚体験と一致しているため、評価にかかる時間と労力を大幅に節約できます。
「VBench」 - ビデオ生成モデルのための包括的なベンチマークスイート AIビデオ生成モデル - 評価結果オープンソースのAIビデオ生成モデル VBench における各種オープンソース AI ビデオ生成モデルのパフォーマンスは次のとおりです。 VBench でのさまざまなオープンソース AI ビデオ生成モデルのパフォーマンス。レーダーチャートでは、視覚的に比較しやすいように、各次元の評価結果を 0.3 ~ 0.8 に正規化しました。 VBench でのさまざまなオープンソース AI ビデオ生成モデルのパフォーマンス。 上記の 6 つのモデルの中で、VideoCrafter-1.0 と Show-1 はほとんどの面で相対的に優れていることがわかります。 スタートアップ向けビデオ生成モデル VBenchは現在、Gen-2とPikaという2つのスタートアップのモデルの評価結果を提供しています。 VBench での Gen-2 と Pika のパフォーマンス。レーダーチャートでは、より明確な視覚的比較のために、VideoCrafter-1.0 と Show-1 を基準として追加し、各次元の評価結果を 0.3 ~ 0.8 に正規化しました。 VBench での Gen-2 と Pika のパフォーマンス。参考として、VideoCrafter-1.0 と Show-1 の数値結果を含めます。 時間的一貫性や単一フレーム品質(美的品質と画像品質)関連の次元など、ビデオ品質において Gen-2 と Pika が明らかな利点を持っていることがわかります。ユーザー入力プロンプト (人間の動作や外観スタイルなど) との意味的な一貫性という点では、いくつかの次元のオープン ソース モデルの方が適しています。 ビデオ生成モデル VS 画像生成モデル ビデオ生成モデル VS 画像生成モデル。このうち、SD1.4、SD2.1、SDXLは画像生成モデルです。 8つの主要シーンカテゴリーにおけるビデオ生成モデルのパフォーマンス 以下は、8つの異なるカテゴリにおけるさまざまなモデルの評価結果です。 VBenchはオープンソースとなり、ワンクリックでインストールできるようになりました。現在、VBench は完全にオープンソースであり、ワンクリック インストールをサポートしています。どなたでもお気軽にご参加いただき、興味のあるモデルをテストし、ビデオ生成コミュニティの発展を促進するために協力してください。 オープンソースアドレス: https://github.com/Vchitect/VBench また、さまざまな機能次元での評価のベンチマークと、さまざまなシナリオでの評価のベンチマークを含む、一連のプロンプト リスト (https://github.com/Vchitect/VBench/tree/master/prompts) もオープンソース化しました。 左側のワードクラウドは、プロンプトスイート内の高頻度語の分布を示しており、右側の図は、さまざまな次元とカテゴリのプロンプトの数を示しています。 VBench は正確ですか?各次元について、VBench 評価結果と手動評価結果の相関関係を計算し、当社の方法と人間の知覚の一貫性を検証しました。下の図では、横軸はさまざまな次元での手動評価結果を表し、縦軸は VBench 方式の自動評価結果を示しています。私たちの方法は、あらゆる次元で人間の知覚と非常によく一致していることがわかります。 VBenchがAIビデオ生成にもたらすものVBench は既存のモデルを評価できるだけでなく、さらに重要なことに、さまざまなモデルに存在する可能性のあるさまざまな問題を発見できるため、AI ビデオ生成の将来の開発に貴重な洞察を提供します。 「時間的一貫性」と「ビデオダイナミクス」:どちらか一方を選ぶのではなく、両方を改善する 時間的な一貫性(被写体の一貫性、背景の一貫性、動きの滑らかさなど)とビデオ内の動きの振幅(動的度合い)の間には、一定のトレードオフがあることが分かりました。たとえば、Show-1 と VideoCrafter-1.0 は、背景の一貫性と動きの滑らかさでは優れたパフォーマンスを発揮しましたが、ダイナミクスでは低いスコアを獲得しました。これは、生成された「非アニメーション」画像の方が「時間的に一貫している」ように見える可能性が高いためと考えられます。一方、VideoCrafter-0.9 は時間的一貫性の次元では弱いですが、動的度合いでは高いスコアを獲得しています。 これは、「時間的連続性」と「より高いダイナミック レベル」の両方を同時に実現することが確かに難しいことを示しています。今後は、1 つの側面の改善に重点を置くだけでなく、「時間的連続性」と「ビデオのダイナミック レベル」の両方を同時に改善する必要があり、これは有意義です。 シーンコンテンツごとに評価し、各モデルの可能性を探る 一部のモデルでは、カテゴリ間でパフォーマンスに大きな違いが見られます。たとえば、美的品質の点では、CogVideo は「食品」カテゴリでは優れたパフォーマンスを発揮しますが、「ライフスタイル」カテゴリではスコアが低くなります。トレーニング データを調整すると、「ライフスタイル」などのカテゴリでの CogVideo の美的品質が向上し、モデルの全体的なビデオの美的品質が向上するでしょうか。 これはまた、ビデオ生成モデルを評価する際に、さまざまなカテゴリやトピックにおけるモデルのパフォーマンスを考慮し、特定の機能次元におけるモデルの上限を探り、その後「ドラッグ」シーン カテゴリを具体的に改善する必要があることを示しています。 複雑な動きをするクラス:時間と空間の両方でパフォーマンスが低い 空間の複雑性が高いカテゴリでは、美的品質の次元のスコアが低くなります。たとえば、「ライフスタイル」カテゴリでは、空間内の複雑な要素のレイアウトに対する要件が比較的高く、「ヒューマン」カテゴリでは、ヒンジ構造の生成により課題が生じます。 通常、複雑な動作を伴う「人間」カテゴリや、高速な動きを伴うことが多い「車両」カテゴリなど、複雑な時間的シーケンスを持つカテゴリの場合、テストされたすべての次元で比較的低いスコアになります。これは、現在のモデルでは時間的モデリングの処理にまだ一定の欠陥があることを示しています。時間的モデリングの制限により、空間的なぼやけや歪みが生じ、時間的にも空間的にもビデオ品質が不十分になる可能性があります。 カテゴリの生成が難しい: データ量を増やしてもあまりメリットがない 一般的に使用されているビデオデータセット WebVid-10M の統計を行ったところ、データの約 26% が「人間」に関連しており、カウントした 8 つのカテゴリの中で最も高い割合であることがわかりました。しかし、評価結果では、「人間」カテゴリーは8つのカテゴリーの中で最もパフォーマンスが悪かった。 これは、「人間」などの複雑なカテゴリの場合、単にデータ量を増やすだけではパフォーマンスが大幅に向上しない可能性があることを示しています。 1 つの潜在的なアプローチは、スケルトンなどの「人間」関連の事前知識や制御を導入して、モデルの学習をガイドすることです。 数百万のデータセット: データ量よりもデータ品質の向上が優先される 「食品」カテゴリは、WebVid-10M のわずか 11% を占めるに過ぎませんが、評価ではほぼ常に最高の美的品質スコアを獲得しています。次に、WebVid-10M データセット内のさまざまなカテゴリのコンテンツの美的品質パフォーマンスをさらに分析したところ、「食品」カテゴリも WebVid-10M で最も高い美的スコアを獲得していることがわかりました。 つまり、何百万ものデータに基づいて、データ量を増やすよりも、データ品質をフィルタリング/改善する方が効果的です。 改善すべき機能: 複数のオブジェクトとオブジェクト間の関係を正確に生成する 現在のビデオ生成モデルは、「複数のオブジェクト」と「空間関係」の点で画像生成モデル(特に SDXL)にまだ遅れをとっており、組み合わせ機能の向上の重要性が浮き彫りになっています。いわゆる組み合わせ能力とは、ビデオ生成においてモデルが複数のオブジェクトとそれらの空間的およびインタラクティブな関係を正確に表示できるかどうかを指します。 この問題の潜在的な解決策としては、次のようなものが考えられます。
|
<<: 機器の検査に手作業が必要な人はいますか? AIの活用
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
ディープラーニングは人工知能の分野に多大な貢献をしてきましたが、その技術自体には依然として致命的な欠...
地球は私たちの共通の家であり、地球環境を保護するために私たちは協力しなければなりません。したがって、...
[[349437]]導入機械学習/ディープラーニングは広大な研究分野です。まだ若い分野ではありませ...
現在、神府改革革新モデル区、華為(遼寧)人工知能イノベーションセンター、上海交通大学が共催する神府モ...
AI システムへの世界的な支出は 2023 年から 2026 年の間に 2 倍になると予想されており...
10月15日、記者はアリババが主催する2020 ACMマルチメディア(以下、ACM MM 2020)...
注目の人工知能がインターネットの「伝統的なプロジェクト」情報サービスと出会うと、業界にどのような A...
アメリカは、いまだに人工知能技術の最先端にいます。アメリカが警戒すればするほど、私たちはアメリカのや...
大規模言語モデルがコード生成において並外れた能力を発揮していることは誰もが知っています。しかし、コン...
一般的な自然言語処理システムでは、単語のエンコードは任意であるため、個々の記号間の可能な関係に関する...
TensorFlow 入門記事: 初心者でも理解できる TensorFlow 入門小学校で受けた理...