テキスト注釈が不要で、TF-T2V は大量生産される AI ビデオのコストを削減します。華客、アリババなどが共同で建設

テキスト注釈が不要で、TF-T2V は大量生産される AI ビデオのコストを削減します。華客、アリババなどが共同で建設

過去2年間で、LAION-5B、Stable Diffusion、DALL-E 2、ControlNet、Composerなどの大規模な画像およびテキストデータセットが公開され、驚くべき画像生成手法が次々と登場しました。画像生成の分野は急速に進歩しています。

しかし、画像生成と比較すると、ビデオ生成は依然として大きな課題に直面しています。まず、ビデオ生成では、より高次元のデータを処理し、追加の時間次元によってもたらされる時間モデリングの問題を考慮する必要があります。したがって、時間的ダイナミクスの学習を促進するには、より多くのビデオとテキストのペアのデータが必要です。しかし、ビデオの正確な時間的注釈付けは非常に高価です。これにより、ビデオテキストデータセットの規模が制限されます。たとえば、既存の WebVid10M ビデオデータセットには 1,070 万のビデオテキストペアが含まれていますが、これはデータ規模の点で LAION-5B 画像データセットとは大きく異なり、ビデオ生成モデルのスケーラビリティが著しく制限されます。

上記の問題を解決するために、華中科技大学、アリババグループ、浙江大学、アントグループの共同研究チームが最近、TF-T2Vビデオソリューションをリリースしました。


論文アドレス: https://arxiv.org/abs/2312.15770

プロジェクトホームページ: https://tf-t2v.github.io/

コードはまもなくオープンソースになります: https://github.com/ali-vilab/i2vgen-xl (VGen プロジェクト)

このソリューションは異なるアプローチを採用し、豊富なモーションダイナミクスを学習できる大規模なテキストフリーのビデオデータに基づくビデオ生成を提案します。

まずはTF-T2Vのビデオ生成効果を見てみましょう。

ヴィンセントビデオタスク

ヒント: 雪に覆われた風景に、大きな霜のような生き物のビデオが生成されます。

プロンプト: 漫画の蜂のアニメーションビデオを生成します。

プロンプト: 未来的なファンタジーバイクを含むビデオを生成します。

プロンプト: 幸せそうに笑っている小さな男の子のビデオを生成します。

プロンプト: 頭痛に悩む老人のビデオを生成します。

組み合わせビデオ生成タスク

テキストと深度マップ、またはテキストとスケッチが与えられた場合、TF-T2V は制御可能なビデオ生成を実行できます。

高解像度のビデオ合成も可能です:


半教師あり設定

半教師あり設定の TF-T2V メソッドでは、「人が右から左に走る」など、動作のテキスト説明に一致するビデオを生成することもできます。

方法の紹介

TF-T2Vの核となるアイデアは、モデルをモーションブランチとアピアランスブランチに分割することです。モーションブランチはモーションダイナミクスをモデル化するために使用され、アピアランスブランチは視覚的な外観情報を学習するために使用されます。これら 2 つのブランチを共同でトレーニングすることで、最終的にテキスト駆動型のビデオ生成を実現できます。

生成されたビデオの時間的一貫性を改善するために、著者チームはビデオフレーム間の連続性を明示的に学習するための時間的一貫性損失も提案しました。

TF-T2V は、ビデオ生成タスクに適しているだけでなく、スケッチからビデオ、ビデオ修復、最初のフレームからビデオなどの組み合わせたビデオ生成タスクにも適用できる汎用フレームワークであることは注目に値します。

具体的な詳細やさらなる実験結果については、原論文またはプロジェクトのホームページを参照してください。

さらに、著者チームはTF-T2Vを教師モデルとして使用し、一貫性蒸留技術を使用してVideoLCMモデルを取得しました。

論文アドレス: https://arxiv.org/abs/2312.09109

プロジェクトホームページ: https://tf-t2v.github.io/

コードはまもなくオープンソースになります: https://github.com/ali-vilab/i2vgen-xl (VGen プロジェクト)

約 50 の DDIM ノイズ除去ステップを必要とする従来のビデオ生成方法とは異なり、TF-T2V ベースの VideoLCM 方式では、推論ノイズ除去ステップ約 4 のみで高忠実度のビデオを生成できるため、ビデオ生成の効率が大幅に向上します。

VideoLCM の 4 段階のノイズ除去推論の結果を見てみましょう。

詳細と実験結果については、VideoLCM の原論文またはプロジェクトのホームページを参照してください。

要約すると、TF-T2V ソリューションは、データセットのサイズと注釈の問題によってもたらされる課題を克服し、ビデオ生成の分野に新しいアイデアをもたらします。 TF-T2V は、テキスト注釈のない大規模なビデオ データを活用することで、高品質のビデオを生成でき、さまざまなビデオ生成タスクに適用できます。この革新は、ビデオ生成技術の発展を促進し、あらゆる分野に幅広い応用シナリオとビジネスチャンスをもたらすでしょう。

<<:  OpenAIも996に取り組んでいますか?元従業員が告白:コード貢献度4位、6日間勤務することが多かった

>>:  大型モデルの欠点を補うことに特化したRAGでは、どのような新たな進歩があったのでしょうか?このレビューでは明らかに

ブログ    
ブログ    

推薦する

...

何をするにしても使い始めるべき 7 つの超便利な AI ツール

正直なところ、テクノロジーの未来は人工知能 (AI) の進歩と密接に結びついています。 OpenAI...

OpenAI の新しいモデルは大きな飛躍を示しています。AGI のプロトタイプは人類を脅かす可能性があり、アルトマンを解雇する導火線にもなりました。

サム・アルマンが解雇され、最新の内幕が明らかに!ロイター通信によると、彼が解雇されるわずか4日前に、...

この記事ではAIGC(生成型人工知能)の世界を紹介します。

こんにちは、ルガです。今日は、人工知能エコシステムの中核技術である AIGC (「生成型人工知能」の...

2021年には、人工知能が私たちの生活にさらに統合されるでしょう。これは何を意味するのでしょうか?

人工知能の歴史は、アラン・チューリングがチューリングテストを発明した 1950 年代にまで遡ります。...

ドローンによる空中撮影は野生の人々に迷惑をかけている、問題解決の鍵はここにある

[[416193]]近年、民間ドローンの急速な発展に伴い、航空写真撮影市場におけるドローンの応用はま...

人工知能の大学が雨後の筍のように次々と誕生しています。そこでは何を教えるのでしょうか?どのように教えるか?

[[240090]] 2018年グローバル人工知能製品アプリケーション博覧会で、来場者がテーマポス...

再帰アルゴリズムの深い理解、誤解された再帰

[[333118]]再帰は、プログラミングの本で説明するのが最も難しい部分である魔法のアルゴリズムで...

チャットボットの機械学習セキュリティの重要性

人工知能は、大手テクノロジー企業、新興企業、大学の研究チームによって推進されている成長産業です。 A...

目に見えないものが見えるようになる!メタマテリアルとAIが融合し音像を解読

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

剪定法を使用してより良い決定木を設計する方法

決定木 (DT) は、分類および回帰の問題を解決するために使用される教師あり機械学習アルゴリズムです...

セキュリティ企業:ホワイトハットの60%以上が生成AIに興味を持っており、脆弱性を見つける最大の動機は金儲けである

セキュリティ企業であり脆弱性報奨金プラットフォームでもあるHackerOneは10月30日、先週20...

TigerGraphは、伝染病の予防と制御を完全にサポートするために、エンタープライズレベルのバージョンのライセンスを無償で公開します。

新型コロナウイルスによる肺炎の発生以来、全国の人々が不安に思っています。世界をリードするスケーラブル...