AIGC時代のビデオ普及モデル、復旦チームらが分野初のレビューを発表

AI 生成コンテンツは、現在の人工知能分野で最もホットなトピックの 1 つとなっており、この分野の最先端技術を代表するものでもあります。近年、Stable Diffusion、DALL-E3、ControlNetなどの新技術の登場により、AI画像生成・編集の分野では驚異的な視覚効果が実現され、学界や産業界で幅広い注目と議論を集めています。これらの方法のほとんどは拡散モデルに基づいており、これが強力な制御可能な生成、フォトリアリスティックな生成、多様性の鍵となります。

しかし、単純な静止画像と比較すると、ビデオにはより豊富な意味情報と動的な変化があります。ビデオは物理的なオブジェクトの動的な進化を示すことができるため、ビデオの生成と編集の分野における要件と課題はより複雑になります。この分野では、ラベル付けされたデータとコンピューティングリソースの制限により、ビデオ生成の研究は常に困難に直面してきましたが、Make-A-Video、Imagen Video、Gen-2 などのいくつかの代表的な研究が徐々に優勢になり始めています。

これらの研究は、ビデオ生成および編集技術の開発方向をリードします。研究データによると、2022年以降、ビデオタスクに関する拡散モデルの研究は爆発的な成長傾向を示しています。この傾向は、学界や産業界におけるビデオ普及モデルの人気を反映しているだけでなく、この分野の研究者がビデオ生成技術を継続的に突破し、革新する緊急の必要性を浮き彫りにしています。

最近、復旦大学の視覚学習研究室は、マイクロソフトやファーウェイなどの学術機関と協力し、ビデオタスクにおける普及モデルの研究に関する初のレビューを発表し、ビデオ生成、ビデオ編集、ビデオ理解における普及モデルの学術的最先端の成果を体系的に整理しました。

論文リンク: https://arxiv.org/abs/2310.10647
ホームページリンク: https://github.com/ChenHsing/Awesome-Video-Diffusion-Models

ビデオ生成

テキストベースのビデオ生成:自然言語を入力とするビデオ生成は、ビデオ生成の分野で最も重要なタスクの 1 つです。著者らは、まず、拡散モデルが提案される前のこの分野の研究結果をレビューし、次に、トレーニングベースのテキストビデオ生成モデルと非トレーニングベースのテキストビデオ生成モデルをそれぞれ紹介しました。

クリスマスツリーの休日のお祝いの冬の雪のアニメーション。

その他の条件に基づくビデオ生成:セグメント化されたフィールドでのビデオ生成作業。著者らは、これらを、ポーズガイド、モーションガイド、サウンドガイド、画像ガイド、深度ガイドなどの条件に基づいて分類しています。

無条件ビデオ生成:このタスクは、特定の分野における入力条件のないビデオ生成を指します。著者は、モデルアーキテクチャに応じて、主に U-Net ベースと Transformer ベースの生成モデルに分類しています。

ビデオ補完:主にビデオの強化と復元、ビデオの予測などのタスクが含まれます。

データセット:ビデオ生成タスクに使用されるデータセットは、次の 2 つのカテゴリに分けられます。

1. キャプションレベル: 各ビデオには対応するテキスト説明情報があり、最も代表的なものは WebVid10M データセットです。

2. カテゴリレベル: ビデオには分類ラベルのみがあり、テキストの説明情報はありません。UCF-101 は現在、ビデオ生成やビデオ予測などのタスクで最も一般的に使用されているデータセットです。

評価指標と結果の比較:ビデオ生成の評価指標は、主に品質レベルの評価指標と定量レベルの評価指標に分けられます。品質レベルの評価指標は主に手動の主観的な採点に基づいていますが、定量レベルの評価指標は次のように分けられます。

1. 画像レベルの評価指標：ビデオは一連の画像フレームで構成されているため、画像レベルの評価方法は基本的に T2I モデルの評価指標を参照します。

2. ビデオレベルの評価指標: フレームごとに測定する傾向がある画像レベルの評価指標と比較して、ビデオレベルの評価指標は、生成されたビデオの時間的な一貫性などの側面を測定できます。

さらに、著者らは、ベンチマークデータセット上で前述の生成モデルの評価指標の水平比較も行いました。

ビデオ編集

多くの研究を精査した結果、著者はビデオ編集タスクの中心的な目標は次のことを達成することであるとわかりました。

1. 忠実度: 編集されたビデオの対応するフレームは、内容において元のビデオと一致している必要があります。

2. 位置合わせ: 編集したビデオを入力条件に合わせて位置合わせする必要があります。

3. 高品質: 編集されたビデオは一貫性があり、高品質である必要があります。

テキストベースのビデオ編集: 既存のテキストビデオデータの規模が限られていることを考慮すると、現在のほとんどのテキストベースのビデオ編集タスクでは、ビデオフレームの一貫性や意味の不一致などの問題を解決するために、事前トレーニング済みの T2I モデルが使用される傾向があります。著者らはさらに、このようなタスクをトレーニングベース、トレーニングフリー、ワンショット調整法に分類し、個別に要約しています。

その他の条件に基づくビデオ編集：ビッグモデル時代の到来により、自然言語情報を条件とする最も直接的なビデオ編集に加えて、指示、音、動作、マルチモーダル性などを条件とするビデオ編集がますます注目されています。著者も対応する作業を分類して整理しました。

特定のセグメントでのビデオ編集: 一部の作業は、ビデオのカラー化、ポートレートビデオの編集など、特定の分野のビデオ編集タスクの特別なカスタマイズされたニーズに焦点を当てています。

ビデオの理解

ビデオ分野における拡散モデルの応用は、従来のビデオ生成および編集タスクをはるかに超えており、ビデオ理解タスクにおいても大きな可能性を示しています。著者らは最先端の論文を追跡することで、ビデオ時系列セグメンテーション、ビデオ異常検出、ビデオオブジェクトセグメンテーション、テキストビデオ検索、アクション認識など、10 の既存のアプリケーションシナリオをまとめました。

将来と結論

このレビューでは、ビデオタスクにおける AIGC 時代の拡散モデルに関する最新の研究を包括的かつ綿密にまとめています。研究対象と技術的特徴に基づいて 100 を超える最先端の研究を分類してまとめ、いくつかの古典的なベンチマークでこれらのモデルを比較します。さらに、拡散モデルには、ビデオタスクの分野において次のような新しい研究方向と課題もあります。

1. 大規模なテキストビデオデータセットの収集: T2I モデルの成功は、何億もの高品質のテキストイメージデータセットと切り離すことはできません。同様に、T2V モデルも、サポートとして大量の透かしのない高解像度のテキストビデオデータを必要とします。

2. 効率的なトレーニングと推論: 画像データと比較すると、ビデオデータのサイズははるかに大きく、トレーニングと推論の段階で必要な計算能力も指数関数的に増加します。効率的なトレーニングと推論のアルゴリズムにより、コストを大幅に削減できます。

3. 信頼性の高いベンチマークと評価指標: ビデオ分野における既存の評価指標は、生成されたビデオと元のビデオの分布の違いを測定することが多いですが、生成されたビデオの品質を包括的に測定することはできません。一方で、ユーザーテストは依然として重要な評価方法の一つですが、多くの人材を必要とし、主観性が高いことを考慮すると、より客観的で包括的な評価指標が早急に必要とされています。

<<: ウォルマートのAIを活用したイノベーションの実践経験

>>: 最初のソフトウェア特許取得者は93歳で亡くなった。彼はソフトウェアの知的財産権保護を獲得した。