最後に家族は喜びました。 今では、ビデオの主人公をたった 1 枚の写真に置き換えることができ、その効果は依然として非常にスムーズです。 「 VideoSwap 」と呼ばれる新しいビデオ編集モデルを見てみましょう—— ワンクリックで子猫が子犬に変身、基本操作~ 元のオブジェクト自体がさらにねじれた場合はどうなるでしょうか?これも全く問題ありません: 2 つの間の移動軌跡をよく見ると、まったく同じであることがわかります。 置換前と置換後のオブジェクトの形状がまったく異なる場合はどうなりますか? たとえば、背の高い SUV はより長いスーパーカーに置き換えられ、大型のクルーズ船は小さな白いボートに置き換えられます。 まあ、これも完璧な代替品であり、基本的に欠陥はありません。 これを、今年 2 月にGoogleがリリースした同様のビデオ代替モデルである Dreamix と比較してみましょう。 技術の進歩は今や肉眼でも確認できるようになったと言わざるを得ません。 それで、これはどうやって実現されるのでしょうか? その方法も非常に興味深いです。 いくつかのセマンティックポイントをドラッグアンドドロップするだけですスタイルの転送であれ、主題/背景の転送であれ、このビデオ編集タスクの主な課題は、ソース ビデオからモーション トラジェクトリを抽出し、それを新しいビデオに転送して、時間的な一貫性を確保しながら新しい要素にオーバーレイする方法です。 これまでのモデルのほとんど(原則として、ソースの動きのエンコード、アテンション マップの使用、オプティカル フローなど) は、時間的な一貫性が不十分であったり、形状の変化が厳しく制限されていたりしました。 ここで、VideoSwap は、少数のセマンティック ポイントを使用してオブジェクトの移動軌跡を記述することを提案します。 下の図に示すように、航空機の運動軌道は、翼、機首、尾部の 4 つの点で表すことができます。 これをヘリコプターに置き換える場合は、2 つのポイントを削除し、機首と尾部のみを保持して動作軌道を揃えると同時に、形状の制約を削除して、異なるサイズのヘリコプターを置き換えることができます。 セマンティックポイントを削除するだけでなく、ドラッグすることもできます。 冒頭で示したSUVがスーパーカーに変身したように、車体が長くなったため、セマンティックポイントを処理できず、スーパーカーが変形してしまいます。 この問題を解決するには、SUV の前面と背面のいくつかのポイントを移動するだけです。 次の白鳥の代替ビデオも意味論的なポイントによって引きずられています。 では、具体的には、VideoSwap はどのように機能するのでしょうか? パイプラインの観点から簡単に言えば、VideoSwap も拡散モデル(潜在的拡散)に基づいています。 まず、VAE エンコーダーを使用してソース ビデオをエンコードし、潜在空間表現を取得します。次に、DDIM 反転を使用して、それをノイズの多い表現に変換します。 次に、テキストプロンプト内のターゲットトピック(dog)がソーストピック(例: cat)に置き換えられ、DDIM スケジューラを使用してノイズが除去されます。 このノイズ除去プロセスでは、意味的なポイントの対応を導入して、ターゲットの対象が生成のための元の動きの軌跡に従うように誘導することができます。 最後に、背景を保存するために、著者は潜在的混合の概念も採用しています。 さらに、ビデオモーションレイヤーを画像拡散モデルに統合することで、結果の時間的な一貫性を確保します。 ここでの重要なポイントの 1 つは、VideoSwap のセマンティック ポイント抽出および登録パイプラインです。 (「登録」とは、ソースビデオに意味ポイントを挿入することを意味します) まず、キーフレーム内の重要な意味ポイントをマークし、マークされた意味ポイントに対応する軌跡の埋め込みをビデオから抽出する必要があります。 次に、セマンティック ポイント マッチングでは、埋め込みが複数の 2 層学習可能 MLP によって投影され、座標位置に従って空の特徴に配置され、その後、動きのガイダンスとして要素ごとに拡散モデルに追加されます。 ユーザーがセマンティックポイントをドラッグした後もビデオが良好な一貫性を維持できるという事実については、ここで使用されている技術は、階層化ニューラルアトラス(LNA)に基づくポイント変位伝播です。 トレーニングされた LNA を使用すると、ユーザーのドラッグによって生じた変位を、その標準空間を通じて各フレームに一貫して伝播できます。 最後に、著者は次のように述べています。「上記の方法に基づいて、VideoSwap は多数のテストに合格し、最終的に SOTA 結果を達成し、現在最高のビデオ変換モデルになりました。」 これは、いくつかの主流の方法との効果の比較です。 目標は飛行機をヘリコプターに変えることです。 VideoSwap を除くほとんどの方法では、機首部分をヘリコプターに近づけるだけであり、注意深く観察しないと発見できないこと、また、明らかなちらつきやアーティファクトを伴うものがあることがわかります。 著者についてVideoSwap は、シンガポール国立大学と Meta の共同で作成されました。 第一著者の Yuchao Gu 氏はシンガポール国立大学の博士課程の学生です。以前は南開大学で修士号を取得しています。彼の研究分野は AIGC、特にビデオ生成です。 彼はMeta GenAIのインターンでもあります。 責任著者はシンガポール国立大学の助教授で、以前は Facebook AI の研究員であった Mike Z. Shou 氏です。 |
>>: Google Geminiはリリース直後から疑問視されていた:テスト基準に偏りがあり、エフェクトビデオは編集されている疑いがある
データ量とモデルパラメータの数を増やすことが、ニューラル ネットワークのパフォーマンスを向上させる最...
過去には、画像生成モデルは主に白人を被写体として表示していることで批判されることが多かったが、Goo...
AI にカーボン フットプリントがあることは驚くことではありません。カーボン フットプリントとは、...
[[387622]]ビジネスの世界が人々の想像よりも速く変化することは周知の事実です。この問題に対処...
AIの兵器化?大規模言語モデルの誕生以来、人々はその潜在的な影響について議論し続けています。しかし...
推論は複雑な問題を解決する上で重要な能力であり、交渉、医療診断、犯罪捜査など、さまざまな現実世界のシ...
翻訳者 |陳俊レビュー | Chonglou昨年以来、 ChatGPTやBardなどの大規模言語モデ...
[[188373]]著者は最近、深層学習を応用してタオバオ商品のカテゴリー予測問題を解決するプロジェ...
[[408565]]香港のサウスチャイナ・モーニング・ポストに6月29日に掲載された記事「中国の道...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
[[376016]] △ 2019年9月4日、ノースウェスタン工科大学の学生が顔認識装置を通じて図...
外科用ロボット、人工知能心理学者、そして一連の「人工知能+」プロジェクト技術の統合が医療分野に急速に...
円を描く王者、Midjourney が今週また大きなアップデートを実施します!先週、ズーム アウトと...
過去15年間、欧州で犯罪者を追う警察は、指紋、DNAデータ、自動車所有者の詳細を相互に共有することが...