ポイントトラッキングが不要になり、DragGAN の欠陥を克服します。 USTCと上海AIラボが共同でFreeDragをリリース：セマンティックコンテンツの安定したドラッグ

最近、AIGC の広大な世界で、セマンティックコンテンツを元の位置 (ハンドルポイント) からターゲットの位置 (ターゲットポイント) にドラッグすることで、特定の画像に対してきめ細かいカスタマイズされた編集操作を実行するという、注目の画像編集方法が登場しました。

たとえば、「猫にウインクさせる」という魔法のような操作を実現できます。

この驚くべき効果は、SIGGRAPH 2023 カンファレンスで発表された [Drag Your GAN] 論文 (略称 DragGAN) から生まれました。

さらに、DragGAN コードが公開されると、わずか数週間で 3 万個のスターが付き、ネットユーザーの間で「ドラッグブーム」が巻き起こった。

DragGAN のサポートにより、さまざまな AI 描画ツールの「アキレス腱」は弱点ではなくなりました。満足できない部分を修正するだけです。

最近、USTC と上海 AI ラボの研究者が別の関連研究「FreeDrag」を発表しました。

写真

論文: https://arxiv.org/abs/2307.04684

コード: https://github.com/LPengYang/FreeDrag

プロジェクトページ: https://lin-chen.site/projects/freedrag/

結果は、以前の DragGAN が 2 つの交互の反復プロセスで構成されていることを示しています。

1. 動作監視プロセスは、ハンドルポイントを対応するターゲットポイントに向かって移動するように誘導します。

2. ポイントトラッキングプロセスは、移動後のハンドルポイントの正確な位置を特定し、次の移動の方向と制約機能を提供します。

したがって、DragGAN はポイント追跡の精度に大きく依存します。ただし、ポイントトラッキング戦略は、各移動後に、ハンドルポイントの特性を完全に継承するポイントが既定の検索領域内に 1 つだけ存在すると暗黙的に想定しているため、本質的に不安定です。

この仮定は、次の 2 つのケースでは当てはまりません。

1. 画像内容の急激な変化による追跡の喪失

写真

DragGAN はコンテンツの変化により追跡ポイントを失う

2. 等高線や馬の脚など、検索エリア内の類似点によって発生する追跡エラー。

写真

DragGANは類似点があるためにポイントを誤って追跡する

ポイントトラッキングが正しくないと、次の移動に対して間違った方向と制約機能が提供され、エラーが蓄積され、編集の品質が低下します。

方法の紹介

不安定なポイント追跡プロセスが画像編集の品質を必然的に損なうことを防ぐため、中国科学技術大学と上海 AI ラボの研究者は共同で、特徴ガイド付きのポイントベースのインタラクティブ編集フレームワークである FreeDrag を提案しました。

FreeDrag は、適応的に更新されるテンプレート機能、ファジーポジショニング、線形検索テクノロジを導入し、正確なポイントトラッキングを必要とせずに、より安定した信頼性の高いドラッグ編集を実現します。

図2 FreeDragのフローチャート

図 3. DragGAN ポイントトラッキングと FreeDrag ポイントローカリゼーションの比較。

DragGAN では正確な位置決めが必要ですが、FreeDrag では特徴の違いを制限することで位置決めポイントが近くにあるように制限しますが、特定の位置は必要ありません。

動的に更新されるテンプレート機能

写真

研究者らはまず、追跡ポイントの損失の問題を軽減するために、動的に更新されるテンプレート機能技術を提案しました。テンプレート機能は、各動きの品質を測定することによって、つまりλの値を制御して各更新の割合を決定することによって、更新するかどうかを決定します。

λが大きいほど更新度合いが大きくなることを意味します。モバイル品質が高くなるほど、アップデートも大きくなります。動きの質は、動きの終了時の特徴量と前のテンプレート特徴量との間のL1距離（）を測定することによって測定されます。距離が小さいほど、動きの質が高くなります。

テンプレート機能の更新プロセスは、ハンドルポイントの位置と機能に依存しないため、正確なポイント追跡の負担がなくなります。同時に、適応更新戦略によってもたらされるスムーズさにより、テンプレート機能の堅牢性が向上し、大幅なコンテンツの変更を克服し、編集されたコンテンツの異常な損失を回避できます。

ファジーポジショニングと線形探索

次に、研究者らは追跡ポイントの曖昧さの問題を軽減するために、ファジーポジショニングと線形探索技術を提案しました。 FreeDragは移動距離dと特徴量差l、つまり式(10)に基づいて各移動に適した目標点を見つける。

主な位置決め状況は、目標点に向かって移動し続ける（移動品質が高い）、現在の位置を維持する（移動が不完全）、後退する（移動が異常）の 3 つです。

DragGANで必要な正確なポイント追跡と比較して、式（10）によって検索される位置決めポイントは、ハンドルポイントの正確な位置を検索する必要がなく、特徴の差を制約することによって位置決めポイントがハンドルポイントの近くにあることを保証し、正確な位置決めの負担を取り除くため、「あいまい」です。

また、式（１０）は、元のハンドル点と目標点が形成する直線上の点のみを探索する。この線形探索戦略は、隣接領域内の類似点の干渉を効果的に緩和し、動作監視の信頼性を確保し、点移動の安定性をさらに向上させる。

実験比較

さまざまなシナリオにおける DragGAN と FreeDrag の比較を下図 (図 4) に示します。FreeDrag は、ハンドルポイントの異常な消失 (図 4 の最初の例の口の消失や 2 番目の例のメガネの消失など) を効果的に防ぐことができます。同時に、コンテンツの変化や類似ポイントからの干渉による異常な編集を効果的に回避し、ポイントの移動の信頼性を確保します (図 4 の 3 番目の例の象の目や 4 番目の例の馬の足など)。

また、図４の例（５）～（８）から、FreeDragは安定した点の移動を通じて、所定の編集目標をより効率的かつ正確に達成できることが分かる。さらに、さまざまなシナリオでの多数の実験 (図 5) により、FreeDrag は安定したポイント移動を通じてより高い編集品質を実現できることが完全に検証され、インタラクティブなポイントベースの画像編集が新たな高みに到達するのに役立っています。

写真

図4 さまざまなシナリオにおけるDragGANとFreeDragの比較

図5 より多くのシナリオにおけるDragGANとFreeDragの比較

左の2枚の写真は元画像と編集対象（赤がハンドルポイント、青がターゲットポイント）、右の2枚の写真はそれぞれDragGANとFreeDragの処理です。

写真

動的プロセス: https://lin-chen.site/projects/freedrag/

象の目をドラッグする例では、DragGAN によって象の目を移動させる過程で、画像レイアウトが突然変化し、ポイントトラッキングが失われることがわかります。ポイントトラッキングが失われると、その後の動きに対して効果的なモーションモニタリングを提供できなくなり、意図した編集目的を達成できなくなります。

比較すると、動的に更新されるテンプレート機能の滑らかさのおかげで、FreeDrag は画像コンテンツの急激な変化をより適切に回避し、目の特徴を所定の位置に確実にドラッグすることができます。

馬の脚を引きずる例で言えば、DragGAN は馬の脚を動かす過程で誤ったポイント追跡を行っており、その後のモーション監視に誤った最適化方向を提供し、画像の品質を低下させていることがわかります。このエラーは複数の反復で蓄積され、編集結果の品質が急激に低下します。

それに比べて、FreeDrag のファジーポジショニングと線形検索戦略は、類似ポイントの干渉を効果的に軽減し、ポイント移動の信頼性の高い監視信号を提供することで、意図した編集目的を高品質で達成します。

<<: 人工知能の環境コスト: 計算能力のために私たちは何を犠牲にする覚悟があるのでしょうか?

>>: 7つの便利なプロンプトパラメータ