Pika、Gen-2、ModelScope、SEINE…AIビデオ生成で最高なのはどれでしょうか?このフレームワークは理解しやすい

AIビデオ生成は最近最もホットな分野の一つです。さまざまな大学の研究室、インターネット大手の AI ラボ、スタートアップ企業が AI ビデオ生成競争に参入しています。 Pika、Gen-2、Show-1、VideoCrafter、ModelScope、SEINE、LaVie、VideoLDM などのビデオ生成モデルのリリースはさらに目を引くものとなっています。ヴ⁽ⁱ⁾

次のような質問が気になるかもしれません。

どのビデオ生成モデルが最適ですか?
各モデルの特徴は何ですか？
AI ビデオ生成の分野で取り組む価値のある他の問題は何ですか?

この目的のために、私たちは「どのビデオモデルが最適で、各モデルの強みは何か」を教えてくれる包括的な「ビデオ生成モデル評価フレームワーク」である VBench を立ち上げました。

論文: https://arxiv.org/abs/2311.17982
コード: https://github.com/Vchitect/VBench
ウェブページ: https://vchitect.github.io/VBench-project/
論文タイトル: VBench: ビデオ生成モデルのための包括的なベンチマークスイート

VBench は、ビデオ生成の効果を包括的かつ綿密に評価するだけでなく、特に人間の感覚体験と一致しているため、評価にかかる時間と労力を大幅に節約できます。

VBenchには16の階層的かつ分離された評価次元が含まれています
VBenchはビデオ生成のベンチマークのためのPrompt Listシステムをオープンソース化
VBenchの各次元の評価スキームは、人間の知覚と評価と一致しています。
VBenchは、AIビデオ生成の将来の研究に役立つ多角的な洞察を提供します。

「VBench」 - ビデオ生成モデルのための包括的なベンチマークスイート

AIビデオ生成モデル - 評価結果

オープンソースのAIビデオ生成モデル

VBench における各種オープンソース AI ビデオ生成モデルのパフォーマンスは次のとおりです。

VBench でのさまざまなオープンソース AI ビデオ生成モデルのパフォーマンス。レーダーチャートでは、視覚的に比較しやすいように、各次元の評価結果を 0.3 ～ 0.8 に正規化しました。

VBench でのさまざまなオープンソース AI ビデオ生成モデルのパフォーマンス。

上記の 6 つのモデルの中で、VideoCrafter-1.0 と Show-1 はほとんどの面で相対的に優れていることがわかります。

スタートアップ向けビデオ生成モデル

VBenchは現在、Gen-2とPikaという2つのスタートアップのモデルの評価結果を提供しています。

VBench での Gen-2 と Pika のパフォーマンス。レーダーチャートでは、より明確な視覚的比較のために、VideoCrafter-1.0 と Show-1 を基準として追加し、各次元の評価結果を 0.3 ～ 0.8 に正規化しました。

VBench での Gen-2 と Pika のパフォーマンス。参考として、VideoCrafter-1.0 と Show-1 の数値結果を含めます。

時間的一貫性や単一フレーム品質（美的品質と画像品質）関連の次元など、ビデオ品質において Gen-2 と Pika が明らかな利点を持っていることがわかります。ユーザー入力プロンプト (人間の動作や外観スタイルなど) との意味的な一貫性という点では、いくつかの次元のオープンソースモデルの方が適しています。

ビデオ生成モデル VS 画像生成モデル

ビデオ生成モデル VS 画像生成モデル。このうち、SD1.4、SD2.1、SDXLは画像生成モデルです。

8つの主要シーンカテゴリーにおけるビデオ生成モデルのパフォーマンス

以下は、8つの異なるカテゴリにおけるさまざまなモデルの評価結果です。

VBenchはオープンソースとなり、ワンクリックでインストールできるようになりました。

現在、VBench は完全にオープンソースであり、ワンクリックインストールをサポートしています。どなたでもお気軽にご参加いただき、興味のあるモデルをテストし、ビデオ生成コミュニティの発展を促進するために協力してください。

オープンソースアドレス: https://github.com/Vchitect/VBench

また、さまざまな機能次元での評価のベンチマークと、さまざまなシナリオでの評価のベンチマークを含む、一連のプロンプトリスト (https://github.com/Vchitect/VBench/tree/master/prompts) もオープンソース化しました。

左側のワードクラウドは、プロンプトスイート内の高頻度語の分布を示しており、右側の図は、さまざまな次元とカテゴリのプロンプトの数を示しています。

VBench は正確ですか?

各次元について、VBench 評価結果と手動評価結果の相関関係を計算し、当社の方法と人間の知覚の一貫性を検証しました。下の図では、横軸はさまざまな次元での手動評価結果を表し、縦軸は VBench 方式の自動評価結果を示しています。私たちの方法は、あらゆる次元で人間の知覚と非常によく一致していることがわかります。

VBenchがAIビデオ生成にもたらすもの

VBench は既存のモデルを評価できるだけでなく、さらに重要なことに、さまざまなモデルに存在する可能性のあるさまざまな問題を発見できるため、AI ビデオ生成の将来の開発に貴重な洞察を提供します。

「時間的一貫性」と「ビデオダイナミクス」：どちらか一方を選ぶのではなく、両方を改善する

時間的な一貫性（被写体の一貫性、背景の一貫性、動きの滑らかさなど）とビデオ内の動きの振幅（動的度合い）の間には、一定のトレードオフがあることが分かりました。たとえば、Show-1 と VideoCrafter-1.0 は、背景の一貫性と動きの滑らかさでは優れたパフォーマンスを発揮しましたが、ダイナミクスでは低いスコアを獲得しました。これは、生成された「非アニメーション」画像の方が「時間的に一貫している」ように見える可能性が高いためと考えられます。一方、VideoCrafter-0.9 は時間的一貫性の次元では弱いですが、動的度合いでは高いスコアを獲得しています。

これは、「時間的連続性」と「より高いダイナミックレベル」の両方を同時に実現することが確かに難しいことを示しています。今後は、1 つの側面の改善に重点を置くだけでなく、「時間的連続性」と「ビデオのダイナミックレベル」の両方を同時に改善する必要があり、これは有意義です。

シーンコンテンツごとに評価し、各モデルの可能性を探る

一部のモデルでは、カテゴリ間でパフォーマンスに大きな違いが見られます。たとえば、美的品質の点では、CogVideo は「食品」カテゴリでは優れたパフォーマンスを発揮しますが、「ライフスタイル」カテゴリではスコアが低くなります。トレーニングデータを調整すると、「ライフスタイル」などのカテゴリでの CogVideo の美的品質が向上し、モデルの全体的なビデオの美的品質が向上するでしょうか。

これはまた、ビデオ生成モデルを評価する際に、さまざまなカテゴリやトピックにおけるモデルのパフォーマンスを考慮し、特定の機能次元におけるモデルの上限を探り、その後「ドラッグ」シーンカテゴリを具体的に改善する必要があることを示しています。

複雑な動きをするクラス：時間と空間の両方でパフォーマンスが低い

空間の複雑性が高いカテゴリでは、美的品質の次元のスコアが低くなります。たとえば、「ライフスタイル」カテゴリでは、空間内の複雑な要素のレイアウトに対する要件が比較的高く、「ヒューマン」カテゴリでは、ヒンジ構造の生成により課題が生じます。

通常、複雑な動作を伴う「人間」カテゴリや、高速な動きを伴うことが多い「車両」カテゴリなど、複雑な時間的シーケンスを持つカテゴリの場合、テストされたすべての次元で比較的低いスコアになります。これは、現在のモデルでは時間的モデリングの処理にまだ一定の欠陥があることを示しています。時間的モデリングの制限により、空間的なぼやけや歪みが生じ、時間的にも空間的にもビデオ品質が不十分になる可能性があります。

カテゴリの生成が難しい: データ量を増やしてもあまりメリットがない

一般的に使用されているビデオデータセット WebVid-10M の統計を行ったところ、データの約 26% が「人間」に関連しており、カウントした 8 つのカテゴリの中で最も高い割合であることがわかりました。しかし、評価結果では、「人間」カテゴリーは8つのカテゴリーの中で最もパフォーマンスが悪かった。

これは、「人間」などの複雑なカテゴリの場合、単にデータ量を増やすだけではパフォーマンスが大幅に向上しない可能性があることを示しています。 1 つの潜在的なアプローチは、スケルトンなどの「人間」関連の事前知識や制御を導入して、モデルの学習をガイドすることです。

数百万のデータセット: データ量よりもデータ品質の向上が優先される

「食品」カテゴリは、WebVid-10M のわずか 11% を占めるに過ぎませんが、評価ではほぼ常に最高の美的品質スコアを獲得しています。次に、WebVid-10M データセット内のさまざまなカテゴリのコンテンツの美的品質パフォーマンスをさらに分析したところ、「食品」カテゴリも WebVid-10M で最も高い美的スコアを獲得していることがわかりました。

つまり、何百万ものデータに基づいて、データ量を増やすよりも、データ品質をフィルタリング/改善する方が効果的です。

改善すべき機能: 複数のオブジェクトとオブジェクト間の関係を正確に生成する

現在のビデオ生成モデルは、「複数のオブジェクト」と「空間関係」の点で画像生成モデル（特に SDXL）にまだ遅れをとっており、組み合わせ機能の向上の重要性が浮き彫りになっています。いわゆる組み合わせ能力とは、ビデオ生成においてモデルが複数のオブジェクトとそれらの空間的およびインタラクティブな関係を正確に表示できるかどうかを指します。

この問題の潜在的な解決策としては、次のようなものが考えられます。

データのラベル付け: ビデオデータセットを構築して、ビデオ内の複数のオブジェクトの明確な説明、およびオブジェクト間の空間的な位置関係と相互作用関係の説明を提供します。
ビデオ生成プロセスに中間モード/モジュールを追加して、オブジェクトの組み合わせと空間位置関係の制御を支援します。
より優れたテキストエンコーダーを使用すると、モデルの組み合わせ生成機能にも大きな影響が及びます。
国を救う遠回りの方法：T2V が解決できない「オブジェクトの組み合わせ」問題を T2I に提出し、T2I+I2V 方式でビデオを生成します。このアプローチは、ビデオ生成における他の多くの問題にも効果的である可能性があります。

<<: 機器の検査に手作業が必要な人はいますか? AIの活用

>>: