ポイントトラッキングが不要になり、DragGAN の欠陥を克服します。 USTCと上海AIラボが共同でFreeDragをリリース:セマンティックコンテンツの安定したドラッグ

ポイントトラッキングが不要になり、DragGAN の欠陥を克服します。 USTCと上海AIラボが共同でFreeDragをリリース:セマンティックコンテンツの安定したドラッグ

最近、AIGC の広大な世界で、セマンティック コンテンツを元の位置 (ハンドル ポイント) からターゲットの位置 (ターゲット ポイント) にドラッグすることで、特定の画像に対してきめ細かいカスタマイズされた編集操作を実行するという、注目の画像編集方法が登場しました。

たとえば、「猫にウインクさせる」という魔法のような操作を実現できます。

この驚くべき効果は、SIGGRAPH 2023 カンファレンスで発表された [Drag Your GAN] 論文 (略称 DragGAN) から生まれました。

さらに、DragGAN コードが公開されると、わずか数週間で 3 万個のスターが付き、ネットユーザーの間で「ドラッグ ブーム」が巻き起こった。

DragGAN のサポートにより、さまざまな AI 描画ツールの「アキレス腱」は弱点ではなくなりました。満足できない部分を修正するだけです。

最近、USTC と上海 AI ラボの研究者が別の関連研究「FreeDrag」を発表しました。

写真

論文: https://arxiv.org/abs/2307.04684

コード: https://github.com/LPengYang/FreeDrag

プロジェクトページ: https://lin-chen.site/projects/freedrag/

結果は、以前の DragGAN が 2 つの交互の反復プロセスで構成されていることを示しています。

1. 動作監視プロセスは、ハンドル ポイントを対応するターゲット ポイントに向かって移動するように誘導します。

2. ポイント トラッキング プロセスは、移動後のハンドル ポイントの正確な位置を特定し、次の移動の方向と制約機能を提供します。

したがって、DragGAN はポイント追跡の精度に大きく依存します。ただし、ポイント トラッキング戦略は、各移動後に、ハンドル ポイントの特性を完全に継承するポイントが既定の検索領域内に 1 つだけ存在すると暗黙的に想定しているため、本質的に不安定です。

この仮定は、次の 2 つのケースでは当てはまりません。

1. 画像内容の急激な変化による追跡の喪失

写真

DragGAN はコンテンツの変化により追跡ポイントを失う

2. 等高線や馬の脚など、検索エリア内の類似点によって発生する追跡エラー。

写真

DragGANは類似点があるためにポイントを誤って追跡する

ポイント トラッキングが正しくないと、次の移動に対して間違った方向と制約機能が提供され、エラーが蓄積され、編集の品質が低下します。

方法の紹介

不安定なポイント追跡プロセスが画像編集の品質を必然的に損なうことを防ぐため、中国科学技術大学と上海 AI ラボの研究者は共同で、特徴ガイド付きのポイントベースのインタラクティブ編集フレームワークである FreeDrag を提案しました。

FreeDrag は、適応的に更新されるテンプレート機能、ファジー ポジショニング、線形検索テクノロジを導入し、正確なポイント トラッキングを必要とせずに、より安定した信頼性の高いドラッグ編集を実現します。

図2 FreeDragのフローチャート


図 3. DragGAN ポイント トラッキングと FreeDrag ポイント ローカリゼーションの比較。

DragGAN では正確な位置決めが必要ですが、FreeDrag では特徴の違いを制限することで位置決めポイントが近くにあるように制限しますが、特定の位置は必要ありません。

動的に更新されるテンプレート機能

写真

研究者らはまず、追跡ポイントの損失の問題を軽減するために、動的に更新されるテンプレート機能技術を提案しました。テンプレート機能は、各動きの品質を測定することによって、つまりλの値を制御して各更新の割合を決定することによって、更新するかどうかを決定します。

λが大きいほど更新度合いが大きくなることを意味します。モバイル品質が高くなるほど、アップデートも大きくなります。動きの質は、動きの終了時の特徴量と前のテンプレート特徴量との間のL1距離( を測定することによって測定されます。距離が小さいほど、動きの質が高くなります。

テンプレート機能の更新プロセスは、ハンドル ポイントの位置と機能に依存しないため、正確なポイント追跡の負担がなくなります。同時に、適応更新戦略によってもたらされるスムーズさにより、テンプレート機能の堅牢性が向上し、大幅なコンテンツの変更を克服し、編集されたコンテンツの異常な損失を回避できます。

ファジーポジショニングと線形探索

次に、研究者らは追跡ポイントの曖昧さの問題を軽減するために、ファジーポジショニングと線形探索技術を提案しました。 FreeDragは移動距離dと特徴量差l、つまり式(10)に基づいて各移動に適した目標点を見つける。

主な位置決め状況は、目標点に向かって移動し続ける(移動品質が高い)、現在の位置を維持する(移動が不完全)、後退する(移動が異常)の 3 つです。

DragGANで必要な正確なポイント追跡と比較して、式(10)によって検索される位置決めポイントは、ハンドルポイントの正確な位置を検索する必要がなく、特徴の差を制約することによって位置決めポイントがハンドルポイントの近くにあることを保証し、正確な位置決めの負担を取り除くため、「あいまい」です。

また、式(10)は、元のハンドル点と目標点が形成する直線上の点のみを探索する。この線形探索戦略は、隣接領域内の類似点の干渉を効果的に緩和し、動作監視の信頼性を確保し、点移動の安定性をさらに向上させる。

実験比較

さまざまなシナリオにおける DragGAN と FreeDrag の比較を下図 (図 4) に示します。FreeDrag は、ハンドル ポイントの異常な消失 (図 4 の最初の例の口の消失や 2 番目の例のメガネの消失など) を効果的に防ぐことができます。同時に、コンテンツの変化や類似ポイントからの干渉による異常な編集を効果的に回避し、ポイントの移動の信頼性を確保します (図 4 の 3 番目の例の象の目や 4 番目の例の馬の足など)。

また、図4の例(5)~(8)から、FreeDragは安定した点の移動を通じて、所定の編集目標をより効率的かつ正確に達成できることが分かる。さらに、さまざまなシナリオでの多数の実験 (図 5) により、FreeDrag は安定したポイント移動を通じてより高い編集品質を実現できることが完全に検証され、インタラクティブなポイントベースの画像編集が新たな高みに到達するのに役立っています。

写真

図4 さまざまなシナリオにおけるDragGANとFreeDragの比較


図5 より多くのシナリオにおけるDragGANとFreeDragの比較

左の2枚の写真は元画像と編集対象(赤がハンドルポイント、青がターゲットポイント)、右の2枚の写真はそれぞれDragGANとFreeDragの処理です。

写真

写真

動的プロセス: https://lin-chen.site/projects/freedrag/

象の目をドラッグする例では、DragGAN によって象の目を移動させる過程で、画像レイアウトが突然変化し、ポイント トラッキングが失われることがわかります。ポイント トラッキングが失われると、その後の動きに対して効果的なモーション モニタリングを提供できなくなり、意図した編集目的を達成できなくなります。

比較すると、動的に更新されるテンプレート機能の滑らかさのおかげで、FreeDrag は画像コンテンツの急激な変化をより適切に回避し、目の特徴を所定の位置に確実にドラッグすることができます。

馬の脚を引きずる例で言えば、DragGAN は馬の脚を動かす過程で誤ったポイント追跡を行っており、その後のモーション監視に誤った最適化方向を提供し、画像の品質を低下させていることがわかります。このエラーは複数の反復で蓄積され、編集結果の品質が急激に低下します。

それに比べて、FreeDrag のファジー ポジショニングと線形検索戦略は、類似ポイントの干渉を効果的に軽減し、ポイント移動の信頼性の高い監視信号を提供することで、意図した編集目的を高品質で達成します。

<<:  人工知能の環境コスト: 計算能力のために私たちは何を犠牲にする覚悟があるのでしょうか?

>>:  7つの便利なプロンプトパラメータ

推薦する

人工知能研究における大きな進歩は人類に大きな変化をもたらすだろう

アメリカのテクノロジーの天才イーロン・マスク氏は、彼の研究チームが脳と機械の相互接続を可能にする脳・...

より良いAIでより良い社会を築く

人工知能 (AI) には、従来のエンジニアリング システムからヘルスケア、芸術やエンターテイメントの...

チャットボットのアーキテクチャモデルと応答メカニズムについての簡単な説明

[51CTO.com クイック翻訳] 気付きましたか? 人工知能はもはや、少数のテクノロジー企業の単...

マイクロソフトは、劣化が著しい古い写真を復元できる新しいアルゴリズムを開発した。

海外メディアの報道によると、マイクロソフト研究チームのZiyu Wan氏、Zhang Bo氏らは、デ...

モバイクの尹大飛氏:人工知能が何百万台もの自転車の運行改善に貢献

[51CTO.comより引用] 2017年7月21日から22日まで、51CTO主催の人工知能をテーマ...

自動運転は飛躍的な進歩を遂げており、マスク氏は年内にL5レベルの自動運転が実現すると発言した。

自動運転技術は、世界中の大手自動車メーカーの主要な研究開発方向となっています。現在、多くの自動車メー...

確かな情報です! AIテクノロジーアーキテクチャソリューションの実現可能性を判断するのに役立つ3つの重要な要素

近年、人工知能は急速に発展しており、コンピュータービジョンや自然言語処理の分野で画期的な変化をもたら...

無料の AI ベスト論文検索ツール: ワンクリックで結果を表示し、数分で論文の表とデータを抽出

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

AI/MLを使用してテクノロジースタックを最適化し、ビジネス効率を向上させる方法

業界メディアとのインタビューで、レノボ グループのサービスおよびソリューション グループのシニア バ...

...

ニューラル ネットワーク: 神秘的で驚異的なニューラル ネットワークの完全な歴史

[[346995]]さまざまな資料を読んでいくうちに、ニューラルネットワークの歴史に深く魅了されるよ...

サイバーセキュリティを変える、最もホットなハッカーツール:武器化された人工知能FraudGPT

FraudGPT の「成功」は、生成 AI の武器化とハッキング技術の民主化という危険な時代の到来...

Google の研究者が発狂: AI に人格があると信じ、有給休暇を取得し、チャットログが恐ろしい

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

IBM LinkedIn が教えてくれる: 職場と AI はどれくらい離れているのか?

[51CTO.com からのオリジナル記事] 少し前に、LinkedIn と IBM が多数の専門...

...