DragGANはオープンソース化から3日間で23,000のスターを獲得し、DragDiffusionが登場しました。

DragGANはオープンソース化から3日間で23,000のスターを獲得し、DragDiffusionが登場しました。

AIGC の魔法の世界では、画像を「ドラッグ」することで、必要な画像を変更したり合成したりできます。たとえば、ライオンに頭を向けて口を開けさせるには、次のようにします。

この効果を実現するための研究は、中国人著者が主導する「Drag Your GAN」論文から生まれたもので、先月発表され、SIGGRAPH 2023カンファレンスで採択された。

1か月以上が経過し、研究チームは先日、公式コードを公開しました。わずか3日間で星の数が23,000を超え、その人気ぶりが伺えます。

写真

GitHub アドレス: https://github.com/XingangPan/DragGAN

偶然にも、別の類似の研究である「DragDiffusion」が今日、人々の注目を集めています。以前の DragGAN は、ポイントベースのインタラクティブな画像編集を実装し、ピクセルレベルの精密な編集結果を実現しました。ただし、欠点もあります。DragGAN は生成的敵対的ネットワーク (GAN) に基づいており、その汎用性は事前トレーニング済みの GAN モデルの容量によって制限されます。

新しい研究では、シンガポール国立大学とByteDanceの研究者数名が、このタイプの編集フレームワークを拡散モデルに拡張し、DragDiffusionを提案しました。彼らは、大規模な事前トレーニング済み拡散モデルを活用して、現実世界のシナリオにおけるポイントベースのインタラクティブ編集の適用性を大幅に向上させました。

既存の拡散ベースの画像編集方法のほとんどはテキスト埋め込みに適用できますが、DragDiffusion は拡散潜在表現を最適化し、正確な空間制御を実現します。

写真

  • 論文アドレス: https://arxiv.org/pdf/2306.14435.pdf
  • プロジェクトアドレス: https://yujun-shi.github.io/projects/dragdiffusion.html

研究者らは、拡散モデルは反復的に画像を生成し、拡散潜在表現の「ワンステップ」最適化は首尾一貫した結果を生成するのに十分であり、DragDiffusion は高品質の編集を効率的に完了できると述べています。

彼らは、さまざまな困難なシナリオ (複数のオブジェクト、異なるオブジェクト カテゴリなど) で広範な実験を実施し、DragDiffusion の可塑性と汎用性を検証しました。関連するコードは近日中にリリースされる予定です。

次に、DragDiffusion がどのように機能するかを見てみましょう。

まず、下の写真の子猫の頭をもう少し高く上げたいと思います。これを行うには、ユーザーは赤い点を青い点までドラッグするだけです。

次に、山をもう少し高くしたいと思います。問題ありません。赤いキーポイントをドラッグするだけです。

写真

彫刻の頭を回転させたい場合は、ドラッグすることで回転させることができます。

写真

岸辺の花がもっと広く咲きますように。

方法の紹介

提案された DRAGDIFFUSION は、特定の拡散潜在変数を最適化して、インタラクティブなポイントベースの画像編集を実現することを目的としています。

この目標を達成するために、この研究ではまず、拡散モデルに基づいて LoRA を微調整し、ユーザー入力画像を再構築しました。これにより、入力画像と出力画像のスタイルの一貫性が保たれます。

次に、DDIM 反転 (拡散モデルの逆変換と潜在空間操作を探索する方法) を入力画像に適用して、特定のステップでの拡散潜在変数を取得します。

編集プロセス中、研究者はモーション監視とポイント追跡を繰り返し適用して、以前に取得したt番目のステップの拡散潜在変数を最適化し、処理ポイントのコンテンツをターゲットの場所に「ドラッグ」しました。編集プロセスでは、画像のマスクされていない領域が変更されないようにするために、正規化項も適用されます。

最後に、t 番目のステップの最適化された潜在変数は DDIM によってノイズ除去され、編集された結果が得られます。全体の概要は以下の通りです。

写真

実験結果

入力画像が与えられると、DRAGDIFFUSION はキーポイント (赤) の内容を対応するターゲット ポイント (青) に「ドラッグ」します。例えば、図(1)では子犬の頭を回します、図(7)ではトラの口を閉じます、などです。

写真

以下に、さらにいくつかの例のデモンストレーションを示します。図(4)のように山頂を高くしたり、図(7)のようにペン先を大きくしたりします。

写真

<<:  マイクロソフト、AIを活用してがんの放射線治療時間を短縮:スキャン速度が2.5倍に向上、精度は90%に

>>:  ChatGPT は IT ネットワーク エンジニアの代わりになるのでしょうか?

ブログ    

推薦する

MITは液体のような動的変化に適応できるLiquid機械学習システムを提案

自動運転などの多くの重要なアプリケーションでは、データはリアルタイムかつ動的であり、予期しない状況が...

...

リアルタイムのデータ分析と意思決定におけるエッジAIの役割

エッジAIについて学ぶエッジ AI とは、集中型のクラウド サーバーに依存するのではなく、センサー、...

...

無料の Python 機械学習コース 9: K 平均法クラスタリング

K-クラスタリングとはどういう意味ですか? K-means クラスタリングは、最も人気があり、広く使...

...

マスク氏、さらに 4 人の「民間」宇宙飛行士を宇宙に送り出す!スペースXは12回の有人ミッションを成功させた

北京時間の今朝早く、SpaceXは再び人類を宇宙に送り出すことに成功した。これは、米国の民間航空宇宙...

李開復「2021年を予測」:4つの主要分野が前例のない発展の機会をもたらす

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

AI搭載マシンが製造業の産業自動化を加速させる方法

今日、人工知能と機械学習は製造業界における変化の重要な原動力となっています。人工知能と機械学習により...

死角なしの360度!カリフォルニア大学バークレー校、中国で3DHMフレームワークをリリース:1枚の写真であらゆるビデオアクションを模倣可能

任意のポーズの写真を入力し、写真の人物に「指定された動画」の動きを真似してもらうのは簡単ではありませ...

ザッカーバーグの最新VRプロトタイプが登場。仮想と現実を混同させるようなものだ

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

我が国はすでに「人工知能」でトップを走っています!なぜ米国は5日後にようやく強く否定し始めたのか?

[[429481]]最近、元国防総省の最高ソフトウェア責任者は、人工知能に関して、米国は今後15年...

...

米メディア記事:米中AI競争は東南アジアにとって何を意味するのか?

2月7日、アメリカの外交政策ウェブサイトは「米中人工知能競争は東南アジアにとって何を意味するのか?...