遅めのエクスタシー!動画の動きがどんなに大きくても、写真はスムーズに主役の代わりを務めることができる|Meta & シンガポール国立大学

遅めのエクスタシー!動画の動きがどんなに大きくても、写真はスムーズに主役の代わりを務めることができる|Meta & シンガポール国立大学

最後に家族は喜びました。

今では、ビデオの主人公をたった 1 枚の写真に置き換えることができ、その効果は依然として非常にスムーズです。

VideoSwap 」と呼ばれる新しいビデオ編集モデルを見てみましょう——

ワンクリックで子猫が子犬に変身、基本操作~

元のオブジェクト自体がさらにねじれた場合はどうなるでしょうか?これも全く問題ありません:

2 つの間の移動軌跡をよく見ると、まったく同じであることがわかります。

置換前と置換後のオブジェクトの形状がまったく異なる場合はどうなりますか?

たとえば、背の高い SUV はより長いスーパーカーに置き換えられ、大型のクルーズ船は小さな白いボートに置き換えられます。

まあ、これも完璧な代替品であり、基本的に欠陥はありません。

これを、今年 2 月にGoogleがリリースした同様のビデオ代替モデルである Dreamix と比較してみましょう。

技術の進歩は今や肉眼でも確認できるようになったと言わざるを得ません。

それで、これはどうやって実現されるのでしょうか?

その方法も非常に興味深いです。

いくつかのセマンティックポイントをドラッグアンドドロップするだけです

スタイルの転送であれ、主題/背景の転送であれ、このビデオ編集タスクの主な課題は、ソース ビデオからモーション トラジェクトリを抽出し、それを新しいビデオに転送して、時間的な一貫性を確保しながら新しい要素にオーバーレイする方法です。

これまでのモデルのほとんど(原則として、ソースの動きのエンコード、アテンション マップの使用、オプティカル フローなど) は、時間的な一貫性が不十分であったり、形状の変化が厳しく制限されていたりしました。

ここで、VideoSwap は、少数のセマンティック ポイントを使用してオブジェクトの移動軌跡を記述することを提案します。

下の図に示すように、航空機の運動軌道は、翼、機首、尾部の 4 つの点で表すことができます。

これをヘリコプターに置き換える場合は、2 つのポイントを削除し、機首と尾部のみを保持して動作軌道を揃えると同時に、形状の制約を削除して、異なるサイズのヘリコプターを置き換えることができます。

セマンティックポイントを削除するだけでなく、ドラッグすることもできます。

冒頭で示したSUVがスーパーカーに変身したように、車体が長くなったため、セマンティックポイントを処理できず、スーパーカーが変形してしまいます。

この問題を解決するには、SUV の前面と背面のいくつかのポイントを移動するだけです。

次の白鳥の代替ビデオも意味論的なポイントによって引きずられています。

では、具体的には、VideoSwap はどのように機能するのでしょうか?

パイプラインの観点から簡単に言えば、VideoSwap も拡散モデル(潜在的拡散)に基づいています。

まず、VAE エンコーダーを使用してソース ビデオをエンコードし、潜在空間表現を取得します。次に、DDIM 反転を使用して、それをノイズの多い表現に変換します。

次に、テキストプロンプト内のターゲットトピック(dog)がソーストピック(例: cat)に置き換えられ、DDIM スケジューラを使用してノイズが除去されます。

このノイズ除去プロセスでは、意味的なポイントの対応を導入して、ターゲットの対象が生成のための元の動きの軌跡に従うように誘導することができます。

最後に、背景を保存するために、著者は潜在的混合の概念も採用しています。

さらに、ビデオモーションレイヤーを画像拡散モデルに統合することで、結果の時間的な一貫性を確保します。

ここでの重要なポイントの 1 つは、VideoSwap のセマンティック ポイント抽出および登録パイプラインです。 (「登録」とは、ソースビデオに意味ポイントを挿入することを意味します)

まず、キーフレーム内の重要な意味ポイントをマークし、マークされた意味ポイントに対応する軌跡の埋め込みをビデオから抽出する必要があります。

次に、セマンティック ポイント マッチングでは、埋め込みが複数の 2 層学習可能 MLP によって投影され、座標位置に従って空の特徴に配置され、その後、動きのガイダンスとして要素ごとに拡散モデルに追加されます。

ユーザーがセマンティックポイントをドラッグした後もビデオが良好な一貫性を維持できるという事実については、ここで使用されている技術は、階層化ニューラルアトラス(LNA)に基づくポイント変位伝播です。

トレーニングされた LNA を使用すると、ユーザーのドラッグによって生じた変位を、その標準空間を通じて各フレームに一貫して伝播できます。

最後に、著者は次のように述べています。「上記の方法に基づいて、VideoSwap は多数のテストに合格し、最終的に SOTA 結果を達成し、現在最高のビデオ変換モデルになりました。」

これは、いくつかの主流の方法との効果の比較です。

目標は飛行機をヘリコプターに変えることです。

VideoSwap を除くほとんどの方法では、機首部分をヘリコプターに近づけるだけであり、注意深く観察しないと発見できないこと、また、明らかなちらつきやアーティファクトを伴うものがあることがわかります。

著者について

VideoSwap は、シンガポール国立大学と Meta の共同で作成されました。

第一著者の Yuchao Gu 氏はシンガポール国立大学の博士課程の学生です。以前は南開大学で修士号を取得しています。彼の研究分野は AIGC、特にビデオ生成です。

彼はMeta GenAIのインターンでもあります。

責任著者はシンガポール国立大学の助教授で、以前は Facebook AI の研究員であった Mike Z. Shou 氏です。

<<:  ITリーダーが避けるべき6つのGenAIの落とし穴

>>:  Google Geminiはリリース直後から疑問視されていた:テスト基準に偏りがあり、エフェクトビデオは編集されている疑いがある

推薦する

...

ビッグデータと機械学習を駆使して12星座の素顔を明らかにする!

[[201919]] 「なぜ論文が出版されないのでしょうか?私は研究に向いていないのでしょうか?」...

WeChat の赤い封筒のランダム アルゴリズムはどのように実装されていますか?

Zhihu で質問を見ました: WeChat の赤い封筒のランダム アルゴリズムはどのように実装さ...

スタンフォード大学の教授が、専門家以外の人向けにAIの核となる概念を1ページで定義

スタンフォード大学のクリストファー・マニング教授は、AI 分野の中核となる概念を 1 ページを使って...

今後のブロックチェーンの3大発展トレンド。2018年には不人気になるのか?

昨日、デジタル通貨は再び全面的に急落し、ビットコインの価格は一時8,000ドルを下回りました。暗号通...

「安佳」の人工知能版? 「AI仲介人」が近々登場?

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

ビル・ゲイツ:AIは教育と医療の向上に活用されるべき

[[260198]]米テクノロジーメディアCNETによると、マイクロソフトの共同創業者で慈善家のビル...

市場を席巻するアメリカの5大テクノロジー企業はAI時代にさらに勢力を拡大するのでしょうか?

アメリカのデジタルテクノロジー大手は、流行病の打撃を受けた後、軌道に戻った。数日前、Alphabet...

描いた場所に画像が動きます! Gen-2の新機能「マジックブラシ馬良」が大ヒット、ネットユーザー:緊急、緊急、緊急

動画生成AIはここまで進化したのか? !写真をスワイプするだけで、選択したターゲットが動きます。明ら...

人工知能は改めてすごいですね!科学者は偶然、死者を「蘇らせる」ことができることを発見した

マイクロソフトは現在、チャットボットを開発中との報道もある。将来的に実用化に成功すれば、デジタル技術...

海外メディア:米国の研究者がAIでジェスチャーを認識する新しいセンサーデバイスを発明

海外メディアの報道によると、カリフォルニア大学バークレー校の研究者らは、ウェアラブルセンサーと人工知...

AIの過去と現在を理解するのに役立つ、60年間の技術の簡単な歴史

[[269852]]人類の進化の歴史は、人類が道具を作り、使用してきた歴史です。さまざまな道具は人類...

人工知能は非常に強力だが、人間は必ずしも人工知能に支配されるわけではない。ホーキングは間違っているのだろうか?

著者: ふす有名な物理学者ホーキング博士はかつて、将来人類は人工知能によって滅ぼされるかもしれないの...

超過年齢の移民労働者への「許可命令」が白熱した議論を巻き起こす。建設ロボット代替の潮流が到来

長年にわたり、数億人の出稼ぎ労働者が経済建設と社会発展に積極的に参加し、中国の近代化推進に多大な貢献...

クラウドとジェネレーティブ AI の今後の動向

絶えず変化するビジネス環境において、データは驚くべき速度で増加しています。データの急増により、あらゆ...