AI動画の「ちらつき」問題が解決しました!動画スタイルを簡単に変更、北京大学卒業生の作品

AI動画の「ちらつき」問題が解決しました!動画スタイルを簡単に変更、北京大学卒業生の作品

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

AI動画撮影ってこんなにスムーズになったのか?

ビデオを入力して「呪文」を唱えると、AI がそれを即座に理解し、その場でビデオを再描画します。

あらゆるスタイルを完璧に保持するだけでなく、最も重要なのは、すべてのフレームがシルクのように滑らかであることです。

建物のようなより詳細な映像でも、「AI によって生成された」バグを見つけることはほとんど不可能です。

現在、動画の撮影でもアニメーションの作成でも、すべて「キーフレーム」に依存しています。フレームが密接に接続されていない場合、この奇妙な「ちらつきスタイル」が表示されます。

これは、AI 生成ビデオの最大のボトルネックの 1 つでもあります。

現在、南洋理工大学のチームがついにこの課題を解決し、その研究はTwitter上で大きな話題を呼んでいる。

それで、これはどのように行われるのでしょうか?

AI撮影した動画のちらつきを防ぐにはどうすればいいですか?

AI によって生成されたビデオは「ちらつき」ますが、これは基本的に、前のフレームと後続のフレーム間の不一致によって発生します。

たとえば、同じビデオの 2 つのフレームを次に示します。

AI を使用して、この 2 つのフレームに基づいて画像を「再描画」することは、一見すると大きな問題ではないように思えるかもしれませんが、細部にはかなりの違いがあります。

たとえば、あるフレームで生成されたキャラクターの頭には「金色のヘッドバンド」が付いていますが、別のフレームでは消えてしまいます。

このように、AI によって生成された数十フレームの画像は、似たようなスタイルを持っているように見えますが、つなぎ合わせると細部が大きく異なり、動画がちらつきやすくなります。

この目的のために、研究者らは、AI がビデオを生成する際にフレーム間の一貫性を向上させることを中核とする新しいフレームワークを提案しました。

このフレームワークは、キーフレーム変換と完全なビデオ変換の 2 つの部分で構成されます。

最初の部分では、拡散モデルに基づいてキー フレームを生成し、フレーム間の制約に基づいてこれらのキー フレーム間の一貫性を強化します。2 番目の部分では、時間を考慮したマッチング アルゴリズムを使用して、他のフレームをキー フレームに「接続」します。

フレームワークの核心は最初の部分にあります。

研究者らはこの部分に対して、新しい階層型フレーム間一貫性制約法を提案した。元のビデオに基づいて、オプティカルフローを使用してフレーム間の関係を制約する。

そのうち、最初のフレームはビデオ全体の「アンカー ポイント」に相当し、ビデオの全体的な方向を制御するために使用されます。後続の各フレームは、生成された画像が元のスタイル、形状、テクスチャ、色から逸脱しないように、前のフレームを参照として使用します。

動画生成モデルについては、Stable Diffusion+ControlNetの組み合わせが核となっていますが、改良が加えられています。

下の図に示すように、赤い点線は安定拡散モデルおよびその他の拡散モデルの元のサンプリング プロセスであり、黒い線は調整されたプロセスです。

もちろん、異なるサンプリング段階では、形状認識、ピクセル認識など、フレーム間の制約も異なります。

これまでのAI動画生成モデルと比較すると、このフレームワークの最大の利点は、新しい動画が入力されても、動画素材で再トレーニングする必要がないことです。つまり、ゼロサンプル学習です。

プロンプトワードとビデオを入力するだけで、フレームワークがビデオを希望する効果に自動的に「翻訳」します。

たとえば、これはチームが改良されたフレームワークを使用して再生成した同じスタイルのビデオであり、改良前の拡散モデルと比較してちらつきがほとんどありません。

14秒ごとにキーフレームを生成する

では、ビデオの生成には長い時間がかかりますか?

少なくともフレーム生成効率の観点からは、速度は遅くありません。キーフレームと安定拡散の速度は似ており、平均約14.23 秒です。非キーフレームは非常に高速で、1 フレームあたりわずか1.49 秒しかかかりません。

ビデオが長くない場合、またはフレームが 12 個しかない場合、ビデオの変換は 1 分以内に完了します。

著者らは、この新しいフレームワークを、FateZero、vid2vid-zero、Pxi2Video、Text2Video-Zero などの以前のビデオ フレームワークと比較しました。明らかに、新しいフレームワークは現時点で最もスムーズで、ゴーストが最も少ないです。

著者らは、単なる「ビデオ翻訳」ではなく、プロンプトワードがビデオ生成に及ぼす制御効果も実証しました。

たとえば、同じ入力で、プロンプトの「キーワード」を変更するだけで、AI は髪型やスタイルを変更したり、犬の頭をキツネの頭に置き換えたりするなど、他の要素を変更せずに新しいビデオを生成できます。

さらに、著者らは 23 人のボランティアを招き、新しいフレームワークによって生成されたビデオの品質の総合的な評価を実施しました。評価指標は、プロンプト ワードと入力フレームの相関関係、時間的一貫性、ビデオの全体的な品質の 3 つです。

結果は、このフレームワークが「人間によるスコアリング」において良好なレベルを達成したことを示しています。

第一著者:北京大学卒業生

著者4人は全員、南洋理工大学の出身です。

第一著者の楊帥は南洋理工大学の助教授です。楊は北京大学で学士号と博士号を取得しました。楊の現在の研究分野は、ポートレートベースの編集、テキストの様式化、画像翻訳です。

周一凡は南洋理工大学の研究エンジニアです。北京理工大学で学士号を取得し、ACM-ICPC 金メダルを獲得しました。彼の研究対象には、テキストマイニングや機械学習に基づく入射光場の再構築などがあります。

Liu Ziwei 氏は、南洋理工大学の助教授であり、香港中文大学の博士課程の学生です。彼の研究分野は、コンピューター ビジョン、機械学習、コンピューター グラフィックスです。

Chen Change Loy 氏は、南洋理工大学と香港中文大学の准教授です。彼の研究対象は、画像とビデオの復元と生成、表現学習など、コンピューター ビジョンとディープラーニングです。

このプロジェクトのコードはまだオープンソースではありませんが、論文では「利用可能になる予定」と述べられています。

実際のテスト結果が楽しみです。

プロジェクトアドレス: https://anonymous-31415926.github.io/

論文アドレス: https://arxiv.org/abs/2306.07954

<<:  最新の RLHF は言語モデルの「ナンセンス」を救います!微調整効果はChatGPTよりも優れている、と中国の共著者2人が発表

>>:  イタリア首相がマスク氏と会談、AIや出生率などを議論

ブログ    
ブログ    

推薦する

3分レビュー:8月の自動運転業界の完全な概要

[[426135]]チップ不足と疫病の影響により、今年初めから自動運転産業の発展は減速を余儀なくされ...

国内大学がSORA型VDTを開発、汎用ビデオ拡散トランスフォーマーがICLR2024に採択

2月16日のOpenAI Soraのリリースは、間違いなくビデオ生成の分野における大きな進歩を示しま...

AIは実際にチップを生成できます! GPT-4はわずか19回の対話で130nmチップを構築し、チップ設計業界におけるHDLの大きな課題を克服しました。

GPT-4 はすでに人間がチップを作るのに役立っています!ニューヨーク大学タンドン工学部の研究者た...

ニューラル ネットワーク アルゴリズムを使用した C# での手書き数字認識

デモをダウンロード - 2.77 MB (元のアドレス)手書き文字認識.zipソースコードをダウンロ...

顔認証決済を使用する理由は何ですか?顔認証決済は安全ですか?

顔認証決済に顔認識を使用する理由は何ですか? [[439417]]外で何かを買いたいのに、財布を持っ...

AI4Science はまだ誤った提案なのでしょうか? 2年後、ワークショップ主催者はAI4Scienceを再検討する

2021年、情熱的な若者のグループが、AI4Science(AI for Science)を機械学習...

ビッグニュース! ChatGPTの2つの主要イベント

1 つ目は、GPT-4 API です。完全にオープンに使用できます。 7月7日、OpenAIは公式ウ...

ロボットはサービス業界に参入できるのか?事実が教えてくれる

有名なアニメーション会社ディズニーは、近々人工知能とロボット工学の分野に参入すると発表しました。ディ...

数行のコードで強化学習を実装する

強化学習は過去 1 年間で大きな進歩を遂げ、最先端のテクノロジが 2 か月ごとにリリースされています...

スマートシティGPT?ジェネレーティブAIがスマートシティにどのように役立つか

生成AIとは何ですか?生成 AI は、データを分析し、パターンと傾向を識別し、都市計画と管理に関する...

Chen Danqi 氏のグループによるマスク言語モデルに関する研究: 15% のマスク率は最適ではないが、40% は維持可能か?

少し前に、スローン財団は2022年度スローン研究賞の受賞者を発表しました。Chen Danqi、Fa...

サイボーグの時代が到来すると予想される:人間の体が機械に置き換えられる時代

ロボット工学ジャーナリストで専門家のクリス・ミドルトン氏は、早ければ2070年には私たちの体全体がロ...

北京大学の新しい研究では、数学モデルを使用して、インターネット有名人の台頭の秘密を明らかにしています。ネイチャー誌に掲載

ソーシャル ネットワークは私たちの生活にますます大きな影響を与えており、情報の普及、新しいテクノロジ...