DragGANはオープンソース化から3日間で23,000のスターを獲得し、DragDiffusionが登場しました。

DragGANはオープンソース化から3日間で23,000のスターを獲得し、DragDiffusionが登場しました。

AIGC の魔法の世界では、画像を「ドラッグ」することで、必要な画像を変更したり合成したりできます。たとえば、ライオンに頭を向けて口を開けさせるには、次のようにします。

この効果を実現するための研究は、中国人著者が主導する「Drag Your GAN」論文から生まれたもので、先月発表され、SIGGRAPH 2023カンファレンスで採択された。

1か月以上が経過し、研究チームは先日、公式コードを公開しました。わずか3日間で星の数が23,000を超え、その人気ぶりが伺えます。

写真

GitHub アドレス: https://github.com/XingangPan/DragGAN

偶然にも、別の類似の研究である「DragDiffusion」が今日、人々の注目を集めています。以前の DragGAN は、ポイントベースのインタラクティブな画像編集を実装し、ピクセルレベルの精密な編集結果を実現しました。ただし、欠点もあります。DragGAN は生成的敵対的ネットワーク (GAN) に基づいており、その汎用性は事前トレーニング済みの GAN モデルの容量によって制限されます。

新しい研究では、シンガポール国立大学とByteDanceの研究者数名が、このタイプの編集フレームワークを拡散モデルに拡張し、DragDiffusionを提案しました。彼らは、大規模な事前トレーニング済み拡散モデルを活用して、現実世界のシナリオにおけるポイントベースのインタラクティブ編集の適用性を大幅に向上させました。

既存の拡散ベースの画像編集方法のほとんどはテキスト埋め込みに適用できますが、DragDiffusion は拡散潜在表現を最適化し、正確な空間制御を実現します。

写真

  • 論文アドレス: https://arxiv.org/pdf/2306.14435.pdf
  • プロジェクトアドレス: https://yujun-shi.github.io/projects/dragdiffusion.html

研究者らは、拡散モデルは反復的に画像を生成し、拡散潜在表現の「ワンステップ」最適化は首尾一貫した結果を生成するのに十分であり、DragDiffusion は高品質の編集を効率的に完了できると述べています。

彼らは、さまざまな困難なシナリオ (複数のオブジェクト、異なるオブジェクト カテゴリなど) で広範な実験を実施し、DragDiffusion の可塑性と汎用性を検証しました。関連するコードは近日中にリリースされる予定です。

次に、DragDiffusion がどのように機能するかを見てみましょう。

まず、下の写真の子猫の頭をもう少し高く上げたいと思います。これを行うには、ユーザーは赤い点を青い点までドラッグするだけです。

次に、山をもう少し高くしたいと思います。問題ありません。赤いキーポイントをドラッグするだけです。

写真

彫刻の頭を回転させたい場合は、ドラッグすることで回転させることができます。

写真

岸辺の花がもっと広く咲きますように。

方法の紹介

提案された DRAGDIFFUSION は、特定の拡散潜在変数を最適化して、インタラクティブなポイントベースの画像編集を実現することを目的としています。

この目標を達成するために、この研究ではまず、拡散モデルに基づいて LoRA を微調整し、ユーザー入力画像を再構築しました。これにより、入力画像と出力画像のスタイルの一貫性が保たれます。

次に、DDIM 反転 (拡散モデルの逆変換と潜在空間操作を探索する方法) を入力画像に適用して、特定のステップでの拡散潜在変数を取得します。

編集プロセス中、研究者はモーション監視とポイント追跡を繰り返し適用して、以前に取得したt番目のステップの拡散潜在変数を最適化し、処理ポイントのコンテンツをターゲットの場所に「ドラッグ」しました。編集プロセスでは、画像のマスクされていない領域が変更されないようにするために、正規化項も適用されます。

最後に、t 番目のステップの最適化された潜在変数は DDIM によってノイズ除去され、編集された結果が得られます。全体の概要は以下の通りです。

写真

実験結果

入力画像が与えられると、DRAGDIFFUSION はキーポイント (赤) の内容を対応するターゲット ポイント (青) に「ドラッグ」します。例えば、図(1)では子犬の頭を回します、図(7)ではトラの口を閉じます、などです。

写真

以下に、さらにいくつかの例のデモンストレーションを示します。図(4)のように山頂を高くしたり、図(7)のようにペン先を大きくしたりします。

写真

<<:  マイクロソフト、AIを活用してがんの放射線治療時間を短縮:スキャン速度が2.5倍に向上、精度は90%に

>>:  ChatGPT は IT ネットワーク エンジニアの代わりになるのでしょうか?

ブログ    
ブログ    
ブログ    

推薦する

...

LEACH プロトコル アルゴリズムの簡単な紹介

今回はLEACHプロトコルとアルゴリズムおよびステージの構築について説明します。したがって、誰もがこ...

「カラフルな黒をください」というたった1行のコマンドでAIが描ける

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

インテリジェントな変革の時代を迎える: AIでビジネスの未来をリードする

インテリジェント トランスフォーメーションの本質: インテリジェント トランスフォーメーションは、テ...

2020年のコロナウイルスがロボット経済をいかに後押ししたか

致命的なコロナウイルスによって引き起こされた経済不況は、さまざまな業界に大きな混乱を引き起こしました...

Meta、Google、Tesla、競合他社が団結してOpenAIについて不満を訴える!ソラは物理世界を理解していません。GPT3 だけです。

編集者 | ヤン・ジェン制作:51CTO テクノロジースタック(WeChat ID:blog)先週、...

今後10年間で、人工知能とロボットは雇用に7つの影響を与える

[[202532]]編集者注: この記事はNetEase Intelligenceからのもので、著者...

...

このAI「マスターレベル」の棒人間レベルはネットユーザーを驚かせた。GANすら使っていない

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

GPT-2を使ってGPT-4を監督し、AIが人類を滅ぼすのを防ぐ?OpenAI Ilya Super Alignmentチームの最初の論文が発表される

たった今、OpenAI のチーフサイエンティスト Ilya が率いるスーパーアライメントチームが設立...

...

OpenAIがテキストから動画を生成するAIジェネレーター「Sora」をリリース

OpenAI が Sora をリリースし、テキストからビデオへの AI コンテンツ生成競争に参入。 ...

AI が病院の屋内資産追跡の課題を克服する方法

IoT アプリケーションでは、AI はデータ スタックの「最上位」で使用されることが多く、複数のソー...

MIUI 10の最後の開発バージョンが間もなくリリースされます。MIUI 11も間もなく登場します。

8月22日、MIUIは、より良い最適化効果を実現し、Miファンに優れたシステム体験をもたらすために...