DragGANはオープンソース化から3日間で23,000のスターを獲得し、DragDiffusionが登場しました。

DragGANはオープンソース化から3日間で23,000のスターを獲得し、DragDiffusionが登場しました。

AIGC の魔法の世界では、画像を「ドラッグ」することで、必要な画像を変更したり合成したりできます。たとえば、ライオンに頭を向けて口を開けさせるには、次のようにします。

この効果を実現するための研究は、中国人著者が主導する「Drag Your GAN」論文から生まれたもので、先月発表され、SIGGRAPH 2023カンファレンスで採択された。

1か月以上が経過し、研究チームは先日、公式コードを公開しました。わずか3日間で星の数が23,000を超え、その人気ぶりが伺えます。

写真

GitHub アドレス: https://github.com/XingangPan/DragGAN

偶然にも、別の類似の研究である「DragDiffusion」が今日、人々の注目を集めています。以前の DragGAN は、ポイントベースのインタラクティブな画像編集を実装し、ピクセルレベルの精密な編集結果を実現しました。ただし、欠点もあります。DragGAN は生成的敵対的ネットワーク (GAN) に基づいており、その汎用性は事前トレーニング済みの GAN モデルの容量によって制限されます。

新しい研究では、シンガポール国立大学とByteDanceの研究者数名が、このタイプの編集フレームワークを拡散モデルに拡張し、DragDiffusionを提案しました。彼らは、大規模な事前トレーニング済み拡散モデルを活用して、現実世界のシナリオにおけるポイントベースのインタラクティブ編集の適用性を大幅に向上させました。

既存の拡散ベースの画像編集方法のほとんどはテキスト埋め込みに適用できますが、DragDiffusion は拡散潜在表現を最適化し、正確な空間制御を実現します。

写真

  • 論文アドレス: https://arxiv.org/pdf/2306.14435.pdf
  • プロジェクトアドレス: https://yujun-shi.github.io/projects/dragdiffusion.html

研究者らは、拡散モデルは反復的に画像を生成し、拡散潜在表現の「ワンステップ」最適化は首尾一貫した結果を生成するのに十分であり、DragDiffusion は高品質の編集を効率的に完了できると述べています。

彼らは、さまざまな困難なシナリオ (複数のオブジェクト、異なるオブジェクト カテゴリなど) で広範な実験を実施し、DragDiffusion の可塑性と汎用性を検証しました。関連するコードは近日中にリリースされる予定です。

次に、DragDiffusion がどのように機能するかを見てみましょう。

まず、下の写真の子猫の頭をもう少し高く上げたいと思います。これを行うには、ユーザーは赤い点を青い点までドラッグするだけです。

次に、山をもう少し高くしたいと思います。問題ありません。赤いキーポイントをドラッグするだけです。

写真

彫刻の頭を回転させたい場合は、ドラッグすることで回転させることができます。

写真

岸辺の花がもっと広く咲きますように。

方法の紹介

提案された DRAGDIFFUSION は、特定の拡散潜在変数を最適化して、インタラクティブなポイントベースの画像編集を実現することを目的としています。

この目標を達成するために、この研究ではまず、拡散モデルに基づいて LoRA を微調整し、ユーザー入力画像を再構築しました。これにより、入力画像と出力画像のスタイルの一貫性が保たれます。

次に、DDIM 反転 (拡散モデルの逆変換と潜在空間操作を探索する方法) を入力画像に適用して、特定のステップでの拡散潜在変数を取得します。

編集プロセス中、研究者はモーション監視とポイント追跡を繰り返し適用して、以前に取得したt番目のステップの拡散潜在変数を最適化し、処理ポイントのコンテンツをターゲットの場所に「ドラッグ」しました。編集プロセスでは、画像のマスクされていない領域が変更されないようにするために、正規化項も適用されます。

最後に、t 番目のステップの最適化された潜在変数は DDIM によってノイズ除去され、編集された結果が得られます。全体の概要は以下の通りです。

写真

実験結果

入力画像が与えられると、DRAGDIFFUSION はキーポイント (赤) の内容を対応するターゲット ポイント (青) に「ドラッグ」します。例えば、図(1)では子犬の頭を回します、図(7)ではトラの口を閉じます、などです。

写真

以下に、さらにいくつかの例のデモンストレーションを示します。図(4)のように山頂を高くしたり、図(7)のようにペン先を大きくしたりします。

写真

<<:  マイクロソフト、AIを活用してがんの放射線治療時間を短縮:スキャン速度が2.5倍に向上、精度は90%に

>>:  ChatGPT は IT ネットワーク エンジニアの代わりになるのでしょうか?

ブログ    

推薦する

2021年に注目すべき5つのAIトレンド

リモートワークの規模拡大と、特にサイバーセキュリティに関連する企業による必要なテクノロジーの急速な導...

AIを活用してデジタル資産管理ワークフローを効率化する方法

[[412045]]人工知能は、マーケティングテクノロジーを含むあらゆる業界の状況を変えています。マ...

マイクロソフトとグーグルのAIジレンマ:お金を稼ぐためにもっとお金を使う

7月26日のニュースによると、将来、人工知能はマイクロソフトやアルファベットなどのテクノロジー大手に...

トランスフォーマーのメンバー8人全員がGoogleに亡命!最後の共著者は今月末に自身のビジネスを始めるために退社する。

トランスフォーマーのメンバー8人全員がGoogleから離脱した。 Googleの画期的なTransf...

サイバー犯罪におけるAI時代の到来

人工知能の分野で画期的な進歩が起こったばかりであり、サイバーセキュリティに携わっている人であれば、そ...

...

人工知能の新たな用途:死者の蘇生

映画では必ず蘇生のシーンが出てきますが、現実の世界でも人間を冷凍保存するプロジェクトがあります。その...

3分レビュー:8月の自動運転業界の完全な概要

[[426135]]チップ不足と疫病の影響により、今年初めから自動運転産業の発展は減速を余儀なくされ...

シングルテナント AI ファクトリーは最新のデータセンタートレンドでしょうか?

コロケーション データ センターの標準的な構造は、数十または数百の顧客が同時に異なるアプリケーション...

家賃決定問題を用いてK近傍法アルゴリズムを学ぶ

[[405033]] k 近傍法の考え方は、私の意見では最も純粋で明確な考え方であり、k 近傍法アル...

2019 年に人工知能アルゴリズムのポジションをめぐる競争がこれほど激しいのはなぜでしょうか?

AI関連の学位取得者は高給を得るのが難しいとメディアが以前報じていたのとは全く対照的に、多くの応募...

自然言語処理の実践: 機械学習によく使われるツールとテクニック

多くの自然言語処理には機械学習が関係しているため、機械学習の基本的なツールとテクニックを理解しておく...

AI軍はすでに門を叩いているが、失業はどのくらい先にあるのだろうか?

流行の間、人工知能は再び人気を博しました。人工知能によって合成されたニュースレポートは、私たちに毎日...

米メディア:中国が人工知能市場を支配すると予想

[[388200]] 3月15日、アメリカの隔週刊誌フォーブスのウェブサイトは、バーナード・マー氏に...