韓国のガールズグループBLACKPINKが2次元に入ったとき、清華フォーク研究所のAIアーティファクトはこのようにプレイできることが判明

韓国のガールズグループBLACKPINKが2次元に入ったとき、清華フォーク研究所のAIアーティファクトはこのようにプレイできることが判明

携帯電話に写真編集ソフトウェアがインストールされている場合は、その中の「AI ペイント」機能を使用したことがあるかもしれません。通常、写真をアニメスタイルや写真スタイルなどのさまざまなスタイルに変換するためのオプションがいくつか用意されています。しかし今では、ビデオでも同じことが可能になりました。

これらのアニメーション画像は、X プラットフォーム (旧 Twitter) のユーザーである @CoffeeVectors が作成したビデオから取得されています。彼は韓国ガールズグループBLACKPINKの代表作「DDU-DU DDU-DU」のオリジナルMVをAIツールに入力し、すぐにMVのアニメーションバージョンを手に入れた。

完全な効果は次のようになります。

このビデオは、ComfyUI というツールを利用して作成されました。 ComfyUI は、広く採用されている Wenshengtu AI モデル Stable Diffusion 用のオープンソース GUI ベースのワークフロー視覚化エンジンです。複数の安定拡散モデルとそのハイパーネットワークを完全なワークフローに組み合わせて、自動画像生成と最適化を実現できる、ユーザーフレンドリーなグラフィカル インターフェイスを提供します。同時に、コミュニティは ComfyUI の機能をさらに強化するために、さまざまな拡張プラグインも開発しました。

作者の @CoffeeVectors は、この MV を制作する際に、AnimateDiff と ComfyUI のマルチコントロールワークフローを使用したと述べています。前者はアニメスタイルの生成に使用され、後者は生成されたエフェクトの制御に使用されました。さらに重要なことに、彼はこのワークフローで非常に人気のあるアーティファクトである LCM LoRA を導入しました。

「リアルタイムのテキストから画像への処理速度が5~10倍向上。清華LCM/LCM-LoRAが人気に、閲覧回数100万回以上、ダウンロード数20万回以上」という記事では、LCMは清華大学学際情報科学研究所の研究者が構築した新しいモデルであり、テキストから画像への処理と画像から画像への処理の効果が極めて速く、テキスト指示やスケッチ指示に従ってリアルタイムで新しい画像を生成できることが特徴であると紹介しました。

これを基に研究者らは、追加のトレーニングなしで LCM の高速生成機能を他の LoRA モデルに転送できる LCM-LoRA をさらに開発しました。その効果が非常に素晴らしいため、このモデルはHugging Faceプラットフォーム上で20万回以上ダウンロードされており、LCM-LoRAによって生成されたリアルタイムのビデオ効果はXプラットフォーム上のあらゆる場所で見ることができます(下のビデオを参照)。

それで、このアニメバージョンのMVはどうやって作られたんですか? @CoffeeVectors は投稿で彼のアプローチを詳しく説明しました。

@CoffeeVectors は、オリジナルの MV ビデオをダウンロードした後、BLACKPINK の MV 全体を 1 つの .mp4 入力として処理しました。 LCM を使用すると、4090 で 6 ステップでレンダリングでき (以前は 20 ステップ以上必要でした)、VRAM を 10.5 GB しか消費しません。詳細データは次のとおりです。

レンダリング プロセス全体には 81 分かかり、合計 2,467 フレームが生成され、各フレームには約 2 秒かかりました。これには、ビデオから画像シーケンスを抽出し、ControlNet マップを生成する時間は含まれません。 Zoe Depth と Canny ControlNet は、解像度 910 x 512 の SD バージョン 1.5 で使用されました。

出力を改善して、より独特なスタイル、より豊かなディテール、ロトスコープ感の少ないものにするには、個々のフレームを調整する必要があります。ただし、ビデオ全体を一度に完成させると、繰り返し作業できる下書きが作成されます。

入力ビデオについては、12 フレーム/秒という目標を達成するために、1 つおきのフレームを選択しました。

以下は @CoffeeVectors が LCM LoRA を追加しているスクリーンショットです。彼は Checkpoint に組み込まれている VAE を選択しました。

彼は、さまざまなレンズにどれだけ適合するかを確認したかったので、非常に一般的な方法でヒントを書きました。

K サンプラーでは、LCM サンプラーを使用しました。このサンプラーを使用するには、ComfyUI を最新バージョンに更新する必要があることに注意してください。

次の図は、@CoffeeVectors がマルチコントロール ネットのノードをどのように配置するかを示しています。

最後に、@CoffeeVectors はいくつかの関連チュートリアルも推奨しています。

  • ビデオチュートリアル: https://www.youtube.com/watch?app=desktop&v=zrxd95Mxz24
  • 技術ブログ: https://huggingface.co/blog/lcm_LoRA

この種の技術的なアプリケーションに興味のある開発者は、すぐに試すことができます。

<<: 

>>:  データが「生産手段」となるとき、透かし技術を使ってAIトレーニングデータの著作権を保護する方法をまとめた3つの論文

ブログ    

推薦する

PyTorch と NumPy の徹底比較! ! !

こんにちは、Xiaozhuangです! pytorch のコンテンツを更新するように多くの人から促さ...

アルゴリズム技術の向上とアルゴリズムの適用の標準化(デジタル時代の文化生活)

[[399442]]アルゴリズム技術を改善し、アルゴリズムの適用を標準化することによってのみ、技術...

厳しい期限内で機械学習を行う方法: ラベル付きニュースの構築

[[195898]]翻訳者注: この記事では、著者と 3 人の友人がプログラミング マラソンに参加し...

アルバータ大学のチームのプロジェクトは、しかめ面の細部まで完璧に再現した超リアルな肖像画を制作する

深層畳み込みニューラル ネットワークは、顕著なオブジェクトの検出に広く使用されており、最先端のパフォ...

シスコが新たな調査レポートを発表:企業はAIの準備に大きなギャップを抱えている

ニュースハイライト:中国企業の98%は、過去6か月間にAI技術導入の緊急性が高まったと回答した。戦略...

人工知能は二酸化炭素排出量のせいで制限されるのでしょうか?

AI にカーボン フットプリントがあることは驚くことではありません。カーボン フットプリントとは、...

シリコンバレーの天才たちの没落: 才能から始まり、利益に転落し、「賢さ」のせいで失敗した

若い才能、輝かしい経歴、上司からの評価、順調なキャリア、明るい未来...これらは、2016 年初頭に...

GPU の無駄遣いをやめよう: FlashAttention がアップグレードされ、長いテキストの推論速度が 8 倍に向上

最近、ChatGPT や Llama のような大規模言語モデル (LLM) がかつてない注目を集めて...

...

...

戦争における顔認識:フランスの諜報機関がチェチェン兵士の身元を発掘、ウクライナは捕虜の身元確認に利用

ビッグデータダイジェスト制作ロシアとウクライナの紛争が始まると、カディロフ・ジュニアはチェチェンの首...

製造業における人工知能の8つの応用シナリオ

人工知能の概念は、60年以上前の1950年代に初めて提案されました。しかし、モノのインターネット、ビ...

顔認証決済はまだ普及していないが、中央銀行はすでに新しい決済方法を発表しており、ジャック・マーは今回不意を突かれた

顔認識の隠れた危険性これらの便利な支払い方法が普及したのは、ジャック・マーのおかげです。アリペイの登...

企業がクラウドに移行する際、IT 運用と保守は AI を通じてどのようにインテリジェンスを実現できるでしょうか?

近年、あらゆる分野でインターネット+が採用され、クラウドコンピューティングやビッグデータなどの技術を...

人工知能は防衛システムをどのように変えるのでしょうか?

この記事では、人工知能が防衛システムにどのように革命をもたらし、より安全な未来を実現できるかを探りま...